BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN NHO TÚY
ÀNG THỊ MỸ LỆ
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số
: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng, năm 2020
i
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN NHO TÚY
NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG
TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT
Chuyên ngành
: KHOA HỌC MÁY TÍNH
Mã số
: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
PGS.TS. PHAN HUY KHÁNH
Đà Nẵng, năm 2020
ii
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi, dưới sự hướng dẫn trực tiếp
của PGS. TS. Phan Huy Khánh, hiện là cán bộ giảng dạy tại Đại học Bách Khoa, Đại
học Đà Nẵng.
Tôi cam đoan các kết quả được trình bày trong luận án là trung thực,
không sao chép từ bất kỳ luận án hay nguồn tài liệu nào khác và chưa từng được ai công
bố trong bất kỳ công trình nào khác. Mọi trích dẫn tài liệu tham khảo đều có ghi nguồn
gốc xuất xứ rõ ràng.
Nếu có gì không trung thực, tác giả xin chịu hoàn toàn trách nhiệm.
Tác giả,
Nguyễn Nho Túy
iii
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................. ii
DANH MỤC CÁC CHỮ VIẾT TẮT ................................................................. vii
DANH MỤC HÌNH ẢNH .................................................................................... ix
DANH MỤC BẢNG BIỂU .................................................................................. xi
MỞ ĐẦU ................................................................................................................1
1. ĐẶT VẤN ĐỀ ................................................................................................1 2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU .........................5 2.1. Mục tiêu ........................................................................................................5 2.2. Đối tượng ......................................................................................................5 2.3. Phạm vi .........................................................................................................6 3. PHƯƠNG PHÁP NGHIÊN CỨU .................................................................6 4. BỐ CỤC CỦA LUẬN ÁN .............................................................................7 5. ĐÓNG GÓP CỦA LUẬN ÁN .......................................................................8
CHƯƠNG 1. VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT .................................... 11
1.1. NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN .................................... 11
1.1.1. Ngôn ngữ và xử lý ngôn ngữ ................................................................ 11 1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết ............................................... 12 1.1.3. Các loại hình ngôn ngữ........................................................................ 13 1.1.4. Xử lý ngôn ngữ tự nhiên ....................................................................... 14 1.1.5. Vấn đề xử lý tiếng Việt ......................................................................... 16
1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT ............... 18
1.2.1. Ngữ nghĩa và ngữ nghĩa học ................................................................ 18 1.2.2. Phân tích nghĩa của từ ......................................................................... 19 1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa .................................................. 20 1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt ............................................... 22
1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG .................................................... 25
1.3.1. Chữ viết tắt là gì .................................................................................. 25 1.3.2. Lịch sử hình thành chữ Quốc ngữ ........................................................ 26 1.3.3. Tìm hiểu về lịch sử chữ viết tắt ............................................................ 27 1.3.4. Sử dụng chữ viết tắt ............................................................................. 28 1.3.5. Chữ viết tắt trong tiếng Việt ................................................................. 31
1.4. NGỮ NGHĨA CHỮ VIẾT TẮT ................................................................... 32
iv
1.4.1. Khái niệm ngữ nghĩa chữ viết tắt ......................................................... 32 1.4.2. Biến đổi ngữ nghĩa chữ viết tắt ............................................................ 33 1.4.3. Nhập nhằng chữ viết tắt ....................................................................... 34 1.4.4. Xử lý nhập nhằng chữ viết tắt .............................................................. 35 1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt ............................................ 36
1.5. TÓM TẮT CHƯƠNG 1 ................................................................................ 37
CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT ..................................................................................................................... 38
2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT ............................. 38
2.1.1. Mô hình sự hình thành chữ viết tắt ....................................................... 38 2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt ......................................... 40 2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt ............................................ 41 2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt ..................... 44
2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM .................................................. 47
2.2.1. Hệ sinh thái phần mềm là gì ................................................................ 47 2.2.2. Mô hình hóa hệ sinh thái phần mềm .................................................... 48 2.2.3. Đặc điểm một hệ sinh thái phần mềm................................................... 50 2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm .............................................. 51
2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES) ...... 51
2.3.1. Hệ thống khai thác phần mềm .............................................................. 51 2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt ................................. 52 2.3.3. Mô hình hệ thống khai thác chữ viết tắt ............................................... 53
2.4. THỰC NGHIỆM XÂY DỰNG AMES ........................................................ 54
2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt ............................... 55 2.4.2. Xây dựng công cụ khai thác chữ viết tắt ............................................... 55 2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt ............................... 55
2.5. TÓM TẮT CHƯƠNG 2 ................................................................................ 56
CHƯƠNG 3. XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT ............. 57
3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT ...................................... 57
3.1.1. Mô hình quan hệ dữ liệu ...................................................................... 57 3.1.2. Triển khai cài đặt ................................................................................. 59
3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT ................................ 60
3.2.1. Thu thập dữ liệu thủ công .................................................................... 60 3.2.2. Thu thập dữ liệu tự động ...................................................................... 61
v
3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới ........................... 62 3.2.4. Thực nghiệm cài đặt thuật toán SENVA ............................................... 64
3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT ............................ 65
3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành ................................... 65 3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục ....................... 69 3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia ........................ 71
3.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................ 73
3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt .......................................... 73 3.4.2. Kết quả ứng dụng khai thác dữ liệu chữ viết tắt ................................... 74
3.5. TÓM TẮT CHƯƠNG 3 ................................................................................ 76
CHƯƠNG 4. XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT ........... 77
4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT ............................................... 77
4.1.1. Lựa chọn công cụ lập trình .................................................................. 77 4.1.2. Thiết kế chương trình ........................................................................... 77 4.1.3. Kết quả xây dựng thư viện chữ viết tắt ................................................. 78
4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU .......................... 79
4.2.1. Tin nhắn thương hiệu là gì ................................................................... 79 4.2.2. Các bước xây dựng công cụ tư vấn đặt tên Brandname ........................ 80 4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu .............................. 81 4.2.4. Cài đặt chương trình, kết quả thử nghiệm ............................................ 87
4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG ........... 88
4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình ................................ 88 4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt ............................................. 89 4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển ................................. 90 4.3.4. Cài đặt và kết quả thực nghiệm ............................................................ 92
4.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................. 93
4.4.1. Đánh giá kết quả thực nghiệm AMES ................................................. 93 4.4.2. Đánh giá AMES đặc tả theo mô hình UML ......................................... 94
4.5. TÓM TẮT CHƯƠNG 4 ................................................................................ 96
CHƯƠNG 5. XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT ................................... 97
5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT ...................... 97
5.1.1. Ngữ cảnh sử dụng chữ viết tắt ............................................................. 97 5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản ........................................ 98
vi
5.1.3. Xây dựng mô hình nhận diện chữ viết tắt trong văn bản ...................... 99 5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt ............................................ 100
5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT .............. 102
5.2.1. Xây dựng các miền dữ liệu ................................................................. 102 5.2.2. Xây dựng vị từ và hàm ....................................................................... 103 5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản ...................... 105
5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT .................... 106
5.3.1. Xây dựng cơ sở luật ........................................................................... 106 5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt ................................... 109 5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt ...................... 110 5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng.................... 112
5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG ..... 113
5.4.1. Tần số chữ viết tắt ............................................................................. 113 5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt ............... 114 5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt ................................. 116 5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm ..................... 117 5.4.5. Kết quả thực nghiệm và đánh giá ...................................................... 119 5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt ................................ 123
5.5. TÓM TẮT CHƯƠNG 5 .............................................................................. 124
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 125
1. KẾT LUẬN .................................................................................................... 125
1.1. Tóm tắt nội dung luận án ...................................................................... 125 1.2. Các kết quả đạt được ............................................................................ 126 1.3. Hạn chế của luận án ............................................................................. 128
2. HƯỚNG PHÁT TRIỂN................................................................................. 129
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ ............... 130
TÀI LIỆU THAM KHẢO ................................................................................. 131
PHỤ LỤC
vii
DANH MỤC CÁC CHỮ VIẾT TẮT
TIẾNG VIỆT
Chữ viết tắt NGHĨA TIẾNG VIỆT
STT
1. BCVT Bưu chính viễn thông
2. CĐCN Cao đẳng công nghệ
3. CVT Chữ viết tắt
4. CSDL Cơ sở dữ liệu
5. DBĐT Danh bạ điện thoại
6. DCT Địa chỉ tắt
7. ĐTV Điện thoại viên
8. ĐH Đại học
9. ĐHBK Đại học bách khoa
10. ĐHQG Đại học quốc gia
11. GD-ĐT Giáo dục và đào tạo
12. HCM Hồ Chí Minh
13. KHCN Khoa học công nghệ
14. KNL Kho ngữ liệu
15. KTQS Kỹ thuật quân sự
16. KTXH Kinh tế xã hội
17. MTVT Mục từ viết tắt
18. NN&ĐS Ngôn ngữ và đời sống.
19. NSD Người sử dụng
20. NXB Nhà xuất bản
21. NCS Nghiên cứu sinh
22. PGS Phó Giáo sư
23. TBT Thuê bao tắt
24. THCN Trung học chuyên nghiệp
25. TS Tiến sỹ
26. TP Thành phố
27. XLTV Xử lý tiếng Việt
28. XLNNTN Xử lý ngôn ngữ tự nhiên
29. VH-TT Văn hóa thông tin
30. VT-CNTT Viễn thông - Công nghệ thông tin
viii
TIẾNG ANH
STT Chữ viết tắt NGHĨA TIẾNG ANH NGHĨA TIẾNG VIỆT
1. API
2. AMES
3. AFVAI Lập trình giao diện ứng dụng Hệ thống khai thác Chữ viết tắt Ghi nhận tần số chữ viết tắt trên Internet Application Programming Interface Abbreviations Management Exploit System Assessment frequency Vietnamese abbreviations on the Internet
4. CSBCOM Consultant SMS brandname to the company
Tư vấn đặt tên tin nhắn thương hiệu Doanh nghiệp Ngôn ngữ mô hình hóa 5. I* Modeling Language
6. IM
7. HTML
8. PSTN
9. SENVA
10. SMS Tin nhắn Ngôn ngữ đánh dấu siêu văn bản Mạng điện thoại chuyển mạch công cộng Máy tìm kiếm chữ viết tắt mới tiếng Việt Dịch vụ tin nhắn ngắn
11. SAOM-FTS Tìm kiếm chữ viết tắt trên máy di động Instand Message HyperText Markup Language Public Switched Telephone Network Search Engines New Vietnamese Abbreviations Short Message Services Search on mobile abbreviations-used Full Text Search
12. UML Unified Modeling Language
13. VNPT
14. WFST
15. XML VietNam Posts And Telecommunications Group Weighted Finite State Transducer eXtensible Markup Language Ngôn ngữ mô hình hóa thống nhất Tập đoàn Bưu chính Viễn thông Việt Nam Chuyển đổi trạng thái trọng số hữu hạn Ngôn ngữ đánh dấu mở rộng
ix
DANH MỤC HÌNH ẢNH
STT Hình Chú thích hình ảnh Trang
1. Hình 1.1 Mô hình tháp nghĩa 18
2. Hình 1.2 Xu hướng "tắt hóa" 24
3. Hình 1.3 Tắt hóa trong chữ viết dân tộc ít người 30
4. Hình 2.1 Mô hình hình thành chữ viết tắt tiếng Việt 35
36 5. Hình 2.2 Mô hình sơ đồi khối hình thành chữ viết tắt tiếng Việt
6. Hình 2.3 Ví dụ Hệ sinh thái phần mềm Microsoft 45
7. Hình 2.4 46 Sử dụng UML mô hình hóa sơ đồ hệ sinh thái phần mềm
8. Hình 2.5 Mô hình hệ thống khai thác chữ viết tắt tiếng Việt 50
9. Hình 2.6 51
10. Hình 3.1 55 Mô hình UML hệ thống khai thác chữ viết tắt tiếng Việt Mô hình quan hệ dữ liệu kho ngữ liệu chữ viết tắt tiếng Việt
11. Hình 3.2 Quan hệ giữa các CSDL chữ viết tắt 56
12. Hình 3.3 Các chức năng tìm kiếm 65
13. Hình 4.1 Mô hình hoạt động của website tra cứu chữ viết tắt 74
14. Hình 4.2. Trang chủ website thư viện chữ viết tắt 75
15. Hình 4.3 Cây phân tích chuỗi 81
16. Hình 4.4 Cây phân tích chuỗi và giá trị trọng số 81
17. Hình 4.5 Mô hình đồng bộ dữ liệu về máy di động 84
18. Hình 4.6 Tiếp cận nghiên cứu hình thành AMES 88
19. Hình 4.7 Kết quả thực nghiệm AMES 89
20. Hình 5.1 Mô hình nhận diện CVT trong văn bản 95
x
21. Hình 5.2 105 Cơ chế hoạt động của máy suy diễn nhận diện chữ viết tắt
107
23. Hình 5.4 113 22. Hình 5.3 Mô hình kết hợp xử lý nhập nhằng CVT trong văn bản Kết quả thực hiện chương trình cập nhật tần số sử dụng CVT
24. Hình 5.5 Biểu đồ tần suất CVT là thương hiệu di động trên 116 Internet
xi
DANH MỤC BẢNG BIỂU
STT Bảng Chú thích bảng biểu Trang
1. Bảng 3.1 Thống kê số liệu tác nghiệp 63
2. Bảng 3.2 Thống kê CSDL tác nghiệp 63
3. Bảng 3.3 CSDL Danh mục chuyên ngành 66
4. Bảng 3.4 CSDL Danh mục hình thức thanh toán 66
5. Bảng 3.5 Bảng mã vùng thanh toán 67
6. Bảng 3.6. CSDL danh mục quốc gia chuyên ngành 69
7. Bảng 3.7 Bảng thống kê sử dụng chữ viết tắt 70
8. Bảng 3.8 Thống kê số liệu sử dụng giải pháp CVT 71
9. Bảng 4.1 Bảng NGHIA_CVT_DACBIET 80
10. Bảng 4.2 Bảng HUAN_LUYEN 80
11. Bảng 4.3 Kết quả tạo chữ viết tắt Brandname 82
12. Bảng 4.4 Thử nghiệm tư vấn Brandname và sự lựa chọn của doanh nghiệp
13. Bảng 4.5 Kết quả so sánh các tác nhân AMES và SECO 90
14. Bảng 5.1 Bảng thống kê sử dụng chữ viết tắt (mẫu gửi đi) 92
15. Bảng 5.2 Bảng vị từ và hàm 98
16. Bảng 5.3 110
17. Bảng 5.4 114 Tính toán tần suất xuất hiện CVT trong một phạm vi chỉ định Kết quả thực hiện tính toàn tần số sử dụng, tần suất xuất hiện CVT
18. Bảng 5.5 Tương quan tần suất CVT và thị phần dịch vụ 116
1
MỞ ĐẦU
1. ĐẶT VẤN ĐỀ
Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt (CVT)
chỉ với mong muốn rút gọn thời gian, công sức. Câu chuyện “Người ăn cắp cừu” [79]
(phụ lục 1) cho thấy CVT là một vấn đề tuy không lớn, không hẳn là mới mẻ nhưng có lẽ ai cũng gặp phải khi đọc hiểu một văn bản, ví dụ chữ viết tắt ST 1 trong câu
chuyện.
Cùng một CVT (hay một ký hiệu nào đó), người ta có thể đọc hiểu theo nhiều
cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan của
mình. Chữ viết tắt ST trong [79] đã được sử dụng từ nhu cầu thực tế để diễn đạt nội
dung trừng phạt kẻ ăn cắp cừu, nhưng được hiểu bởi một ý nghĩa khác nhau, thậm chí
đối ngược nhau. Khi một văn bản sử dụng CVT, người viết thường luôn giả sử rằng
CVT này thông dụng và dễ hiểu đối với đối tượng độc giả mà văn bản này nhắm đến.
Tuy nhiên, thực tế không phải đối tượng độc giả nào cũng hiểu được hết, bởi do sự
khác nhau về trình độ, độ tuổi, sự trải nghiệm, lĩnh vực hay chuyên ngành. Hơn nữa,
thời gian, trí nhớ và quan niệm của con người đã làm nhầm lẫn, làm phát sinh thêm ý
nghĩa mới CVT như chữ ST nói trên. Thực tế cuộc sống và giao tiếp làm nảy sinh tìm
hiểu ý nghĩa CVT là gì. Đây không phải là vấn đề dễ dàng đối với tất cả mọi người.
Khi đọc một văn bản, hầu hết người đọc đều phải dừng lại chốc lát để hiểu được CVT
ấy là gì. Thậm chí có khi người đọc phải mất vài phút tìm hiểu và tra cứu mà vẫn
chưa hiểu được đầy đủ CVT. Vì vậy vấn đề phân giải ý nghĩa CVT là cần thiết trong
nhiều tình huống, không chỉ tình huống trong sử dụng ngôn ngữ tự nhiên (giao tiếp, đặt
tên, nhắn tin, Email…), mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dạng
chữ viết hình ảnh, dịch thuật…
Trong ngôn ngữ tự nhiên (NNTN), xu hướng thể hiện văn bản, lời nói ngắn
gọn, đơn giản, nhưng chuyển tải lượng thông tin lớn mà viết tắt trở thành một hiện
tượng phổ biến trong nhiều thứ tiếng khác trên thế giới. Viết tắt, nói tắt được sử dụng
1 ST: Người ăn cắp cừu (Sheep Theft) hay ST: Thánh thiện (Saint)
rộng rãi trong nhiều lĩnh vực, nhiều chuyên ngành, từ các nhà sản xuất, các nhà xuất
2
bản, đến các nhà quản lý, sử dụng, nghiên cứu, giảng dạy… Người dùng có nhu cầu
sử dụng CVT để ghi nhận, chuyển tải lượng thông tin lớn, đôi khi chứa đựng những
bí ẩn bất ngờ trong đó. Trên văn đàn Việt Nam, chữ viết tắt TTKH, tác giả bài thơ «Hai sắc hoa ti gôn»2 vẫn còn là điều bí ẩn và gây nhiều tranh luận cho đến nay. Vậy
nên việc sử dụng, lưu trữ, xử lý CVT trong bối cảnh chuyên ngành khoa học công
nghệ thông tin (CNTT), lĩnh vực liên quan đến sự tương tác giữa máy và NNTN
không thể không quan tâm đến vấn đề CVT.
Khoa học chuyên ngành CNTT đã định hình lĩnh vực liên quan đến sự
tương tác giữa máy và NNTN là lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN). Mục
tiêu của lĩnh vực này là giúp các chương trình trong máy tính hiểu được NNTN. Một
hệ thống XLNNTN có thể bắt đầu ở mức từ để xác định cấu trúc hình thái, bản chất
của từ (ví dụ như gán nhãn từ loại, ngữ nghĩa)..., sau đó có thể chuyển sang mức câu
để xác định trật tự từ, ngữ pháp, nghĩa của toàn bộ câu, tiếp theo là mức ngữ cảnh và
theo từng chuyên ngành [7][52][56].
Các công trình nghiên cứu về XLNNTN trên thế giới ra đời rất sớm, từ những
năm 1940 [52], theo hai hướng cơ bản: Hướng nghiên cứu đầu tiên vào giai đoạn năm
1940-1950 là mô hình các máy tự động và các mô hình xác suất; hướng nghiên cứu
tiếp theo với các giai đoạn năm 1957-1970, XLNNTN tập trung nghiên cứu theo lý
thuyết ngôn ngữ hình thức của Chomsky và trí tuệ nhân tạo cho tiếng nói như các
phương pháp Bayes [56]… Tiếp đến, giai đoạn 1970-1983 phát triển mạnh mẽ các
mô hình nghiên cứu về XLNNTN; giai đoạn 1983-1993, nghiên cứu tập trung trở lại
mô hình trạng thái hữu hạn, các phương pháp xác suất và hướng tiếp cận dựa trên các
dữ liệu lời nói trong phân tích cú pháp, gán nhãn từ loại và xử lý nhập nhằng ngữ
nghĩa [52]. Giai đoạn từ năm 1994 đến nay, chuyên ngành XLNNTN đã có những
thay đổi và bước phát triển mới. Nhiều thuật toán phân tích cú pháp, gán nhãn từ loại,
truy xuất thông tin cũng đã được nghiên cứu và áp dụng như: Nhận dạng tiếng nói,
kiểm tra chính tả, kiểm tra ngữ pháp, công cụ truy xuất và trích chọn thông tin trên
web [52]. Giai đoạn này ghi nhận sự phát triển các nghiên cứu phương pháp dịch máy
thống kê, chẳng hạn như Google [62], [63] cũng đã ứng dụng trong hệ dịch tự động
2 Tiểu thuyết thứ bảy - năm 1939
từ năm 2007.
3
Trong tiếng Anh, có nhiều công trình nghiên cứu giải quyết nhập nhằng ngữ nghĩa đã được thực hiện với hai hướng tiếp cận cơ bản3: Giải quyết nhập nhằng dựa
trên thông tin trong một ngữ cảnh cụ thể và dựa trên những thông tin thu được trong
việc học từ vài tập ngữ liệu học [53][67]. Sau đó còn có nhiều công trình dùng kết
hợp cả hai phương pháp này [68], sử dụng các mô hình thống kê các loại đồng nghĩa
để xác định nghĩa của các từ tiếng Anh để khử nhập nhằng. Có nhiều công trình
nghiên cứu chuyên sâu CVT trong y học như [71][72][73][68], giải quyết vấn đề nhận
dạng, khử nhập nhằng CVT trong văn bản tóm tắt y học về bệnh nhân, về hệ thống
NLP chuyên ngành y học, giúp đưa ra quyết định, tạo điều kiện chăm sóc bệnh nhân
tốt hơn. Có nghiên cứu CVT trong ngôn ngữ tiếng Trung, tiếng Do Thái như [69][57],
nghiên cứu nhận diện CVT dựa vào thông tin ngữ cảnh văn bản, sử dụng phương
pháp máy học để nhận dạng CVT bởi thuộc tính nhất quán trong văn bản.
Vấn đề xử lý tiếng Việt (XLTV) đã được triển khai nghiên cứu từ năm 1990,
đã có nhiều công trình được công bố [9][25][56]... Về nghiên cứu nhập nhằng, xử lý
nhập nhằng trong tiếng Việt, gần đây có các công trình nghiên cứu khử nhập nhằng
trong một vài lĩnh vực: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài
liệu phục vụ giảng dạy và học tập [42]; xử lý nhập nhằng trong tìm kiếm văn bản
tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn bản [43],
nghiên cứu đề xuất giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt
[3]. Về CVT tiếng việt, đã có một số công trình nghiên cứu đề cập xây dựng cơ sở dữ
liệu (CSDL) CVT và ứng dụng trong một chuyên ngành: [26][29] đề cập đến hiện tượng nói tắt và viết tắt trong tiếng Việt4, [39] biểu diễn ngữ cảnh trong triển khai
CVT dùng tiếp cận học máy, [40] thực hiện chuẩn hóa văn bản tiếng Việt dựa trên bộ
quy tắc, [66] thể hiện bối cảnh trong mở rộng viết tắt bằng cách sử dụng phương pháp
học máy. Một số từ điển CVT tiếng Việt thông dụng, thường dùng trong chuyên
ngành (y học, viễn thông,…), tiếng nước ngoài đã được xuất bản như
[8][18][19][35][36]; các xuất bản này đã chọn lọc và giới thiệu các CVT một số
3 Wilks, Stevenson, Sense Tagging: Semantic Tagging with a Lexicon. In Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C. 1997 4 Tạp chí Ngôn ngữ và Đời sống, số 1+2 (87+88) năm 2003
chuyên ngành, chưa quan tâm đến sự hình thành, sự biến đổi và ứng dụng CVT, nhất
4
là vấn đề nhập nhằng ngữ nghĩa CVT. Nhìn chung, đến nay chưa có công trình nào
nghiên cứu một cách hệ thống và đầy đủ về CVT tiếng Việt.
Trong bối cảnh chung của việc XLNNTN và XLTV, trên cơ sở tìm hiểu lý
thuyết về ngôn ngữ học và thực trạng sử dụng CVT trong thực tiễn, ta nhận thấy rằng
NNTN luôn biến đổi và phát triển không ngừng; trong đó sự hình thành CVT được
xem như là phương thức hình thành nên từ ngữ mới, với những biến đổi ngữ nghĩa
CVT đa dạng. Do đó, để góp phần giải quyết các bài toán trong XLTV, đề tài này
đặt vấn đề cần thiết phải nghiên cứu: tiếp cận vấn đề ngữ nghĩa, nhập nhằng ngữ
nghĩa, xử lý, nhận dạng CVT, hướng đến xây dựng môi trường khai thác khả dụng,
phát triển CVT bởi nó liên tục biến tấu, thay đổi và luôn có nhu cầu sử dụng trong
thực tiễn.
Câu chuyện Người ăn cắp cừu [79] cho ta thấy sự biến đối ngữ nghĩa của chữ
viết tắt ST qua thời gian, không gian và ngữ cảnh diễn tả theo ý nghĩ, nhận định của
con người. Việc XLTV trong văn bản chắc chắn gặp phải vấn đề nhập nhằng ngữ
nghĩa CVT. Xuất phát từ tình hình thực tiễn và nhu cầu nêu trên, dựa vào ý tưởng hệ
sinh thái phần mềm (Software Ecosysytems) [64][65][77], tác giả nhận thấy cần có
nghiên cứu tạo lập hệ thống khai thác, sử dụng CVT ngày càng thuận tiện cho người
dùng, có tính gợi mở, hợp tác trao đổi các vấn đề đã và đang nghiên cứu, cùng tạo ra
môi trường học tập và trao đổi thông tin các vấn đề liên quan đến CVT, góp phần nhỏ
trong nghiên cứu XLTV. Đề tài của luận án được chọn: “Nghiên cứu ngữ nghĩa và
hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt”,
triển khai thực hiện theo 3 nội dung nghiên cứu:
1) Ngữ nghĩa và vấn đề nhập nhằng ngữ nghĩa trong tiếng Việt, tiếp cận vấn
đề chữ viết tắt tiếng Việt.
2) Tiếp cận xử lý chữ viết tắt tiếng Việt.
3) Xây dựng môi trường khai thác chữ viết tắt tiếng Việt.
Nội dung thứ 1 và thứ 2 đã tập trung nghiên cứu các vấn đề cơ sở khoa học
về ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ nghĩa,
biến đổi ngữ nghĩa, hiện tượng nhập nhằng trong tiếng Việt...
Nội dung thứ 3 nghiên cứu xây dựng hệ thống khai thác CVT, đề xuất thuật
toán xây dựng công cụ tư vấn đặt tên CVT sử dụng trong tin nhắn thương hiệu cho
5
doanh nghiệp. Xây dựng phương pháp đánh giá tần số, tần suất CVT trên mạng
Internet; cài đặt thuật toán ghi nhận tần số CVT trên mạng. Đề xuất giải pháp xử lý
nhập nhằng CVT trong văn bản bằng cách xây dựng cơ sở luật nhận diện CVT, kết
hợp với các CSDL CVT, thống kê tần số, tần suất sử dụng để có một mô hình xử lý
nhập nhằng CVT trong văn bản.
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
2.1. Mục tiêu
Mục tiêu nghiên cứu của đề tài bao gồm những nội dung chính:
Sau khi tìm hiểu tiếng Việt về phương diện ngôn ngữ học, luận án nghiên cứu
hiện tượng nhập nhằng và xử lý nhập nhằng tiếng Việt nói chung, CVT tiếng Việt nói
riêng, nghiên cứu CVT và nhu cầu sử dụng trong thực tế ở tất cả các lĩnh vực, chuyên
ngành. Từ đó, hiểu được tri thức về CVT, triển khai thực hiện nghiên cứu đạt được 4
mục tiêu chính:
1) Nghiên cứu, phát hiện tri thức và xây dựng kho ngữ liệu CVT.
2) Tổng kết các quy tắc hình thành CVT, xây dựng hệ thống khai thác CVT.
3) Đề xuất chuẩn hóa CVT và triển khai giải pháp xử lý nhập nhằng CVT.
4) Xây dựng công cụ, ứng dụng và khai thác CVT.
Kết quả nghiên cứu định hướng đến công bố khoa học rộng rãi nhằm góp phần
nhỏ giải quyết nhập nhằng CVT, giúp cho việc sử dụng CVT một cách nhất quán, đi
đến chuẩn hoá hệ thống CVT, từng bước làm giàu hệ thống từ vựng, góp phần phát
triển ngôn ngữ tiếng Việt.
2.2. Đối tượng
Đề tài nghiên cứu về bản chất ngôn ngữ tự nhiên nói chung, ngữ pháp tiếng
Việt, các phương pháp, kỹ thuật và công cụ XLNNTN, XLTV, trong đó có phương
pháp khử nhập nhằng.
Đối tượng nghiên cứu là tri thức các chuyên gia ngôn ngữ, chuyên gia
XLNNTN, chuyên gia tin học; nghiên cứu CVT trong văn bản, sách, báo, website
tiếng Việt, một số ngôn ngữ dân tộc khác, tiếng Anh… nghiên cứu sự hình thành
CVT trong NNTN ở tất cả các lĩnh vực đời sống xã hội. Tiếp cận từng bước, khởi
6
đầu từ vấn đề lý thuyết và thực tế sử dụng CVT để dần dần đi đến vấn để chuyên sâu
và thu hẹp hơn trong lĩnh vực khai thác, xử lý và sử dụng CVT trong chuyên ngành
viễn thông, CNTT.
2.3. Phạm vi
Về lĩnh vực nghiên cứu lý thuyết, luận án nghiên cứu XLNNTN, XLTV, chủ
yếu xử lý văn bản, hiện tượng nhập nhằng, vấn đề ngữ nghĩa, công cụ XLNNTN,
XLTV.
Về lĩnh vực nghiên cứu sử dụng CVT, đề tài không hạn chế phạm vi, trong
mọi lĩnh vực đời sống xã hội. Tuy nhiên, đề tài tập trung vào lĩnh vực khoa học, công
nghệ và kỹ thuật, có tham khảo CVT tiếng Anh và một số ngôn ngữ khác.
Về môi trường phát triển ứng dụng, chủ yếu là xây dựng kho ngữ liệu, xây
dựng công cụ, ứng dụng, hình thành môi trường khai thác, nghiên cứu CVT, cài đặt
thử nghiệm trong chuyên ngành và đưa vào khai thác trực tuyến. Phạm vi giới hạn
ứng dụng xử lý nhập nhằng CVT trong lĩnh vực viễn thông, CNTT.
3. PHƯƠNG PHÁP NGHIÊN CỨU
Các phương pháp nghiên cứu cơ bản được sử dụng trong luận án gồm
ba phương pháp: Khảo sát thực tế, nghiên cứu lý thuyết và nghiên cứu thực nghiệm.
Khảo sát thực tế: Khảo sát vấn đề sử dụng CVT trong văn bản, Internet, quy
định ngữ pháp, thực tiễn, chuyên ngành viễn thông…; kết hợp phương pháp phỏng
vấn trực tiếp một số chuyên gia, từ đó so sánh, đối chiếu, kiểm chứng lại những thông
tin CVT đã thu thập được.
Nghiên cứu lý thuyết: Nghiên cứu trên các tài liệu liên quan đến lý thuyết ngôn
ngữ học, XLNNTN, phương pháp tách từ, xây dựng từ điển, kỹ thuật xây dựng máy
tìm kiếm. Nghiên cứu lý thuyết xây dựng vị từ, hàm, cơ sở luật và máy suy diễn; vận
dụng lý thuyết Công nghệ phần mềm, CSDL… vào thực nghiệm.
Nghiên cứu thực nghiệm: Tìm hiểu các kỹ thuật tìm kiếm, xây dựng thuật toán
và các bộ công cụ dựa trên giải pháp đã được đề xuất. Dữ liệu đầu vào của các công
cụ là dữ liệu được dùng trong thực tiễn, từ nguồn tài nguyên xây dựng.
7
Ngoài ra, còn có sự kết hợp phương pháp thảo luận, trao đổi các nhà nghiên
cứu thông qua các hội thảo; từ đó, lựa chọn phương hướng tối ưu giải quyết vấn đề,
đồng thời có kiểm nghiệm, thử nghiệm và đánh giá kết quả khách quan hơn.
4. BỐ CỤC CỦA LUẬN ÁN
Sau phần mở đầu giới thiệu mục đích triển khai đề tài, nội dung chính gồm 5
chương, phần kết luận và phần phụ lục. Cụ thể như sau:
Chương 1 nghiên cứu tổng quan, những nhân tố làm cho ngôn ngữ biến đổi và
phát triển; nêu lên những vấn đề về XLNNTN đặt trong bối cảnh chung để tiếp cận
vấn đề ngữ nghĩa và nhập nhằng ngữ nghĩa. Tìm hiểu sự biến đổi phát triển ngôn ngữ
tiếng Việt: sự biến đổi từ vựng và sự biến đổi ngữ nghĩa. Đây là cơ sở lý luận của
ngôn ngữ học để luận án tiếp cận nghiên cứu vấn đề CVT tiếng Việt. Từ đó phân tích
các hạn chế, phát hiện đặt vấn đề cần nghiên cứu.
Chương 2 tiếp cận nghiên cứu vấn đề hình thành CVT tiếng Việt bằng cách
tìm hiểu CVT trong cuộc sống với lịch sử hình thành, nhu cầu sử dụng. Thông qua
việc mô hình hóa sự hình thành, xem xét kỹ nguồn gốc tạo nên CVT, xây dựng các
quy tắc hình thành CVT; tìm hiểu các yếu tố ảnh hưởng đến hình thành CVT, so sánh
với những quy định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ dấu hiệu nhận biết
CVT trong văn bản. Nội dung chương 2 là kết quả nghiên cứu đầy đủ vấn đề CVT
tiếng Việt, trọng tâm là đề xuất xây dựng hệ thống khai thác CVT tiếng Việt (AMES).
Đó là một trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm;
được triển khai thực nghiệm để tạo lập kết nối giữa các tác nhân NSD, chuyên gia
nghiên cứu, doanh nghiệp, lập trình viên, nhà cung cấp hạ tầng với nhau.
Chương 3 nghiên cứu xây dựng nguồn tài nguyên CVT tiếng Việt, bao gồm:
xây dựng CSDL, đề xuất phương pháp thu thập dữ liệu, đề xuất và thực nghiệm thuật
toán tìm kiếm CVT mới trên mạng Internet và cập nhật về CSDL. Đề xuất một vài
ứng dụng khai thác nguồn tài nguyên CVT, đặc biệt là ứng dụng sử dụng CVT trong
CSDL; đề xuất vấn đề sử dụng CVT trong việc ban hành bộ mã danh mục chuyên
ngành, ban hành bộ mã danh mục quốc gia. Đây là một trong những yêu cầu cần thiết
để tạo điều kiện chia xẻ, trao đổi dữ liệu với nhau.
Chương 4 trình bày kết quả xây dựng một số công cụ khai thác CVT tiếng
Việt, từng bước thực nghiệm hình thành một hệ thống khai thác CVT tiếng Việt dựa
8
trên ý tưởng hệ sinh thái phần mềm. Website tra thư viện viết tắt5 và Chương trình từ điển trên máy di động6 là hai công cụ phục vụ khai thác nguồn dữ liệu CVT, đồng bộ
dữ liệu với nhau. Từ điển trên máy di động có sự tùy biến cá nhân khi sử dụng CVT
trên máy di động như thống kê, tần suất sử dụng cá nhân... Chương 4 còn xây dựng
công cụ tư vấn đặt tên thương hiệu Brandname cho doanh nghiệp, thực nghiệm triển
khai áp dụng vào thực tiễn dịch vụ chuyên ngành viễn.
Chương 5 tập trung phân tích và đề xuất giải quyết vấn đề xử lý nhập nhằng
CVT. Phân tích ngữ cảnh văn bản, nhận diện tình huống sử dụng CVT trong văn bản,
đưa giải pháp xử lý nhập nhằng CVT trong văn bản chuyên ngành. Xây dựng vị từ và
hàm nhận diện CVT trong văn bản, từ đó đề xuất xây dựng cơ sở luật, thuật toán nhận
diện và xử lý nhập nhằng CVT, đề xuất xây dựng máy suy diễn nhận diện CVT trong
văn bản, giới hạn trong lĩnh vực chuyên ngành viễn thông. Chương 5 còn nêu lên
hướng tiếp cận xử lý nhập nhằng CVT dựa vào chỉ số tần suất xuất hiện CVT; xây
dựng thuật toán và thực nghiệm đánh giá tần số, tần suất CVT trên mạng Internet và
đưa ra một vài ứng dụng thực tiễn.
Phần kết luận trình bày tóm tắt nội dung và kết quả luận án đạt được. Phần phụ
lục trình bày bổ sung các giải thích, hình ảnh, bảng biểu, thuật toán, mã lệnh...
5. ĐÓNG GÓP CỦA LUẬN ÁN
Luận án đã có những đóng góp khoa học và ứng dụng thực tiễn như sau:
1. Phát hiện và xây dựng kho ngữ liệu chữ viết tắt
Kho ngữ liệu được cập nhật từ nhiều nguồn dữ liệu khác nhau theo sự biến
động và phát triển CVT trong thực tiễn với phương pháp thủ công/tự động. Dữ liệu
CVT được chuẩn hóa và phân lớp. Hiện nay đã có khoảng 7.000 CVT tiếng Việt (có
cả CVT nội sinh và ngoại nhập) đã biên tập lưu trữ trong CSDL, từng bước chuyển
song ngữ (Việt - Anh) những CVT thông dụng.
2. Tổng kết các quy tắc hình thành chữ viết tắt, xây dựng hệ thống khai thác
chữ viết tắt
Xây dựng các quy tắc hình thành CVT, từng bước chuẩn hóa quy tắc sử dụng
5 http://www.chuviettat.com 6 ABC Acronym Dictionary
CVT, góp phần phát triển ngôn ngữ tiếng Việt. Luận án đã tiếp cận nghiên cứu sự
9
hình thành CVT, xem xét kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp để xây
dựng và đã công bố 9 quy tắc hình thành CVT trong bài báo số [8].
Luận án đã đề xuất AMES, mô hình hóa hệ thống khai thác CVT. Đây là môi
trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm, có tính ổn
định, tính mở, tính kế thừa; được triển khai thử nghiệm để tạo lập kết nối giữa các đối
tượng NSD, chuyên gia nghiên cứu, doanh nghiệp, lập trình viên, nhà cung cấp hạ
tầng với nhau.
3. Góp phần xử lý nhập nhằng chữ viết tắt
Luận án xây dựng 27 vị từ điều khiển, nhận diện CVT trong văn bản; xây dựng
12 hàm xử lý chuỗi; lập 12 luật làm cơ sở xây dựng máy suy diễn nhận diện CVT và
triển khai thử nghiệm trong chuyên ngành viễn thông.
Luận án đã đề xuất giải pháp xây dựng công cụ thống kê tần số, tần suất CVT
tiếng Việt nhằm góp phần giúp nhà nghiên cứu quan sát, lưu trữ, thống kê và phân
tích các hiện tượng phát triển ngôn ngữ tiếng Việt nói chung và CVT nói riêng qua
từng thời điểm. Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho phép một cách tiếp
cận xử lý nhập nhằng ngữ nghĩa CVT.
4. Ứng dụng và khai thác chữ viết tắt Luận án đã xây dựng được hai hệ thống từ điển: Website thư viện CVT 7 và Từ điển CVT trên máy di động8. Hai hệ thống này có sự đồng bộ dữ liệu với nhau
đảm bảo thống nhất chung nguồn dữ liệu. Tuy nhiên có sự tùy biến cá nhân khi sử
dụng CVT trên máy di động như thống kê, tần suất sử dụng cá nhân,...
Xây dựng được ứng dụng máy tìm kiếm CVT mới, xây dựng công cụ quảng
bá thương hiệu Brandname cho doanh nghiệp, công cụ tư vấn đặt tên Brandname cho
doanh nghiệp (tránh trùng lặp, nhập nhằng), từ điển CVT trên máy di động cho
NSD… Các ứng dụng trên là những thành phần trong hệ thống AMES. Xây dựng và
triển khai thực nghiệm 4 thuật toán: Thuật toán SENVA - cập nhật tự động CVT mới
từ Internet, thuật toán SAOM-FTS - từ điển CVT trên di động, thuật toán CSBCOM
7 http://www.chuviettat.com 8 ABC Acronym Dictionary
- tư vấn thương hiệu, thuật toán AFVAI - đánh giá tần số CVT.
10
Xây dựng công cụ thống kê CVT và đề xuất chuẩn hóa, sử dụng CVT ở phạm
vi chuyên ngành VT-CNTT: Xây dựng khái niệm tần số, tần suất CVT trên Internet,
giải pháp và xây dựng thực nghiệm công cụ thống kê CVT tiếng Việt, làm cơ sở đánh
giá, lượng hóa chỉ số sử dụng, sự phát triển CVT trong thực tiễn.
Luận án cũng đã đề xuất chuẩn hóa, sử dụng CVT ở phạm vi quốc gia: Cần
thiết phải xây dựng và ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử
dụng CVT có tính gợi nhớ, dễ sử dụng, tạo điều kiện trao đổi chia xẻ thông tin CSDL
quốc gia dễ dàng và đồng bộ.
Đóng góp của luận án như là gạch nối nhỏ giữa lý thuyết ngôn ngữ học với
thực tiễn sử dụng CVT và với ngành XLNNTN trong CNTT, góp phần cùng giải
quyết vấn đề CVT tiếng Việt được nhiều người quan tâm.
11
CHƯƠNG 1.
VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT
Chương này trình bày những nghiên cứu tổng quan một số vấn đề cơ bản
ngôn ngữ và xử lý ngôn ngữ tự nhiên, các phương pháp tiếp cận và những định hướng
xử lý ngôn ngữ, từ đó xác định các vấn đề nền tảng nghiên cứu của luận án.
Nội dung chương 1 còn đề cập đến vấn đề CVT tiếng Việt trong cuộc sống
với lịch sử hình thành ở một số ngôn ngữ; đề xuất khái niệm ngữ nghĩa, sự biến đổi
ngữ nghĩa, nhập nhằng, xử lý nhập nhằng CVT… Từ đó, tiếp cận khảo sát thực tiễn
sử dụng CVT, mô hình hóa sự hình thành CVT tiếng Việt.
1.1. NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Nội dung luận án thuộc lĩnh vực XLNNTN, nghiên cứu hiện tượng nhập nhằng
trong xử lý tiếng Việt, tiếp cận xử lý vấn đề CVT tiếng Việt. Trước khi đi sâu vào
những vấn đề cốt lõi, luận án tìm hiểu một số khái niệm như ngôn ngữ, hệ viết, ngôn
ngữ hình thức…
1.1.1. Ngôn ngữ và xử lý ngôn ngữ
Theo [4][28], ngôn ngữ đã có từ rất lâu, vào nửa cuối thế kỉ thứ IV trước Công
nguyên. Tài liệu ngôn ngữ cổ xưa nhất tìm thấy ở Ấn Độ, Hi Lạp và Ảrập.
Ngôn ngữ là một hệ thống tín hiệu đặc biệt: Tín hiệu là một đối tượng vật
chất kích thích vào giác quan, con người nhận thức được đối tượng đó. Tín hiệu ngôn
ngữ là các hình vị và các từ. Hình vị và từ được coi là tín hiệu vì chúng là một thể
thống nhất hai mặt âm thanh (cái biểu hiện) và ý nghĩa (cái được biểu hiện) [17][31].
Mỗi ngôn ngữ là hệ thống nhiều cấp độ, nhiều yếu tố đồng loại, không đồng
loại với số lượng không xác định; tín hiệu ngôn ngữ có tính đa trị, có màu sắc tu từ -
diễn cảm; có tính độc lập tương đối, có giá trị đồng đại, lịch đại [28][31]. Ngôn ngữ
9 Theo "Lời nói đầu", Giáo trình Ngôn ngữ học đại cương (bản dịch của Cao Xuân Hạo). NXB Khoa học Xã hội, 2005, đăng trên website http://ngonngu.net/
là hệ thống tín hiệu tổng hợp được người bản ngữ chấp nhận, ghi nhớ, sử dụng giao tiếp với cộng đồng xã hội9.
12
Chức năng của ngôn ngữ: Ngôn ngữ có chức năng là phương tiện giao tiếp
quan trọng nhất của con người (nhưng không phải là duy nhất); là phương tiện, công
cụ của tư duy, trực tiếp tham gia vào quá trình hình thành, phát triển tư tưởng.
Nguồn gốc và sự phát triển của ngôn ngữ: Theo [28], có nhiều quan niệm và
khuynh hướng khác nhau về nguồn gốc ngôn ngữ học xã hội. Hiện nay có trên 500
thuyết nguồn gốc ngôn ngữ như: Thuyết tượng thanh, Thuyết tiếng kêu trong lao
động,… Ngôn ngữ học Mác-xít cho rằng nguồn gốc ngôn ngữ bắt nguồn từ lao động,
đó là cách giải thích đúng đắn và biện chứng [28][31][46].
Cách thức phát triển của ngôn ngữ: Ngôn ngữ không phát triển bằng cách
phá hủy cũ, tạo mới mà theo con đường cải tiến những yếu tố căn bản của nó. Sự phát
triển của ngôn ngữ là không đồng đều giữa các mặt: Từ vựng là bộ phận biến đổi
nhiều và nhanh nhất. Ngữ âm của ngôn ngữ biến đổi chậm và không đồng đều. Hệ
thống ngữ pháp biến đối chậm nhất, được cải tiến, tu bổ và bền vững [28][31].
1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết
Khái niệm chữ viết: Theo [30], âm thanh hay lời nói là cái vỏ vật chất của ngôn
ngữ vẫn có những hạn chế nhất định, có giới hạn, không thể truyền đạt rộng rãi và chính xác, lưu giữ lâu dài. Nó bị hạn chế về khoảng cách và thời gian [90]. Khắc phục
hạn chế đó, con người tìm cách xây dựng chữ viết. Chữ viết là kí tự ghi lại ngôn ngữ,
chữ viết là hệ thống tín hiệu của tín hiệu [30].
Sự khác biệt giữa âm và chữ viết: Chữ viết có sau và phụ thuộc vào âm thanh
ngôn ngữ [30]. Chữ viết có tính ổn định và bền vững. Chữ viết biểu thị ngữ âm, có
thể chính xác hoặc gần đúng. Ngôn ngữ biến hóa liên tục trong không gian và thời
gian trong khi chữ viết có xu hướng đứng yên (tính bảo thủ) [30]. Chữ viết là phương
tiện hoàn hảo để truyền đạt thông tin, lưu giữ thông tin, kích thích sự sáng tạo, là
thành quả kỳ diệu, vĩ đại của loài người [91]. Tuy chữ viết có tính bảo thủ, ổn định
và bền vững, nhưng vẫn có những cải tiến, sáng tạo trong quá trình phát triển.
Vấn đề cải tiến chữ viết: Theo [27], ở Việt Nam, vấn đề cải tiến chữ quốc ngữ
đã được đề cập từ lâu, được thảo luận sôi nổi vào đầu thập kỉ 60. Thời gian gần đây
có những đề xuất cải tiến chữ viết gây nhiều tranh cãi [88][89][92]; nhưng cơ bản vẫn
chưa có nhiều thay đổi, do tính bảo thủ của chữ viết, do thói quen và truyền thống
văn hóa. Việc cải tiến chữ viết thường diễn ra phức tạp. Theo [88], việc cải tiến chữ
viết tiếng Việt cần phải được cân nhắc, xem xét kỹ lưỡng và thận trọng.
13
Nhận xét: CVT cũng là một hướng làm thay đổi chữ viết, có thể được xem là
cải tiến chữ viết một cách tự nhiên. Chẳng hạn, người sử dụng viết tắt dùng các kí
hiệu viết tắt mang tính chất cá nhân: fê fán (phê phán), ffáp (phương pháp)...
1.1.3. Các loại hình ngôn ngữ
Ngôn ngữ tự nhiên: Một ngôn ngữ tự nhiên là bất kỳ ngôn ngữ nào phát sinh,
không suy nghĩ trước trong não bộ của con người. Định nghĩa các ngôn ngữ tự nhiên
thường phát biểu hay ngụ ý là ngôn ngữ mà bất kỳ đứa trẻ nào cũng có thể học và
được phát triển thông qua sử dụng ngôn ngữ và nói 10.
Ngôn ngữ hình thức: Trong toán học và khoa học máy tính, để nghiên cứu
sâu hơn về ngôn ngữ tự nhiên, người ta xây dựng ngôn ngữ hình thức (formal
language) [37]. Một ngôn ngữ hình thức được hình thức hóa, được định nghĩa là một
tập các chuỗi (string) được xây dựng dựa trên một bảng chữ cái (alphabet), chúng
được ràng buộc bởi các luật (rule) hoặc văn phạm (grammar) được định nghĩa trước. Bảng chữ cái là tập hữu hạn các kí tự quy ước11.
Giả sử có một bảng chữ cái ∑ = {a, b} và kí hiệu L là ngôn ngữ, ‖∑‖ là số ký
tự của ∑, ‖∑‖ > 0 và ‖∑‖ ∈ 𝑁. Như vậy, ta có thể định nghĩa một số ngôn ngữ trên
bảng chữ cái ∑ như sau:
L1 = {aa, aaa} ; L2 = {aba, aab} ; L3 = {ab, ba, aabb,..., aaabbb,...} …
Lý thuyết ngôn ngữ hình thức còn được ứng dụng trong xây dựng ngôn ngữ
lập trình. Trong lý thuyết độ phức tạp tính toán (Computational complexity theory),
các vấn đề quyết định (decision problems) được định nghĩa như là các ngôn ngữ hình
thức, các lớp độ phức tạp (complexity classes) được xác định là tập của những ngôn
ngữ hình thức. Trong toán học, cú pháp của các hệ thống tiên đề biểu diễn bằng ngôn
ngữ hình thức.
Các mức tiếp cận ngôn ngữ tự nhiên và ngôn ngữ hình thức: Các tầng mức
ngôn ngữ tự nhiên (và ngôn ngữ hình thức) bao gồm từ vựng, cú pháp ngữ nghĩa và
ngữ dụng học. Tầng mức từ vựng (kí tự, từ, cụm từ, chữ, câu...) tương đồng như bảng
10 https://vi.wikipedia.org/wiki/Ngôn_ngữ_tự_nhiên 11 Theo https://vi.wikipedia.org/wiki/Ngôn_ngữ_hình_thức
chữ cái trong ngôn ngữ hình thức. Từ vựng học là bộ môn nghiên cứu từ vựng của
14
ngôn ngữ: nghiên cứu cấu tạo từ, nguồn gốc, ý nghĩa từ vựng… Mức ngữ nghĩa nói
đến nghĩa thực, nghĩa đen, nghĩa bóng, rộng hay hẹp, đơn nghĩa hay đa nghĩa... Ngữ
nghĩa học là chuyên ngành nghiên cứu về ý nghĩa, tập trung vào mối quan hệ giữa cái
biểu thị, biểu tượng và ý nghĩa của chúng. Ngữ dụng học nghiên cứu về cách làm sao
ngữ nghĩa lại được chuyển tải qua không chỉ cấu trúc và hiểu biết ngôn ngữ (ngữ
pháp, từ vựng...) của người nói và người nghe, mà còn qua cả ngữ cảnh của phát ngôn,
cùng với những hiểu biết có từ trước đó liên quan tới chủ đề, ý đồ được suy ra của
người nói, và các yếu tố khác.
1.1.4. Xử lý ngôn ngữ tự nhiên
XLNNTN [7] là một nhánh của lĩnh vực trí tuệ nhân tạo, Artificial Intelligence
(AI) [39]. Theo [90], XLNNTN là một trong những phần khó nhất vì nó liên quan
đến việc phải hiểu ý nghĩa ngôn ngữ. Trong NNTN nói chung, một từ thường có nhiều
hơn một ý nghĩa. Sự đa nghĩa của từ không ảnh hưởng quá lớn trong giao tiếp hàng
ngày bởi khả năng xử lý tốt ngôn ngữ của con người trong một ngữ cảnh giao tiếp,
mặc dù vẫn có những biểu hiện hiểu lầm hay mơ hồ ngữ nghĩa của từ: đây là hiện
tượng nhập nhằng trong ngôn ngữ tự nhiên. Có 5 bước XLNNTN [7][90]:
Phân tích hình thái: Trong bước này, từng từ sẽ được phân tích và các ký tự không phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ12. Trong tiếng Anh và
nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách. Trong tiếng
Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ.
Phân tích cú pháp: Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự
liên kết giữa các từ này. Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm.
Thông thường, các ngữ đoạn văn phạm này được biểu diễn bằng dạng cây phân tích
cú pháp với: Ngôn ngữ được đặc tả bởi các luật sinh; Phân tích cú pháp dựa vào luật
sinh để xây dựng cây phân tích cú pháp.
Phân tích ngữ nghĩa: Thêm ngữ nghĩa vào các cấu trúc được tạo ra bởi bộ
phân tích cú pháp. Một phần quan trọng trong giai đoạn phân tích ngữ nghĩa là kiểm
12 https://vi.wikipedia.org/wiki/ Xử_lý_ngôn_ngữ_tự_nhiên
tra kiểu (type checking) và ép chuyển đổi kiểu.
15
Tích hợp văn bản: Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào
những câu đứng trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau.
Phân tích thực nghĩa: Cấu trúc thể hiện điều được phát ngôn sẽ được thông
dịch lại để xác định nó thật sự có nghĩa là gì.
Ranh giới giữa 5 bước xử lý này là rất mong manh, có thể được tiến hành từng
bước một, hoặc cùng lúc - tùy thuộc vào giải thuật và ngữ cảnh cụ thể 13.
Những bài toán xử lý ngôn ngữ tự nhiên tiêu biểu: Các nhà nghiên cứu đã
tổng hợp đưa ra nhóm những bài toán tiêu biểu trong XLNNTN [7][56]:
Nhận dạng tiếng nói (speech recognition): Tiếng nói tự nhiên của con người
được máy nhận dạng chuyển thành văn bản tương ứng.
Tổng hợp tiếng nói (speech synthesis): Từ một văn bản tự động tổng hợp thành
tiếng nói.
Nhận dạng chữ viết (optical character recognition): Từ một văn bản trên giấy,
nhận biết từng chữ cái và chuyển chúng thành một tập tin văn bản.
Tóm tắt văn bản (text summarization): Tóm tắt một văn bản dài thành một văn
bản ngắn hơn nhưng vẫn chứa những nội dung thiết yếu nhất tóm lược văn bản.
Tìm kiếm thông tin (information retrieval): Đặt câu hỏi và chương trình tự tìm
ra nội dung phù hợp nhất từ một nguồn rất nhiều tập tin văn bản hay tiếng nói...
Dịch máy (machine translation): Đó là chương trình dịch từ ngôn ngữ này
sang ngôn ngữ khác.
Trích chọn thông tin (information extraction): Từ một nguồn nhiều tập tin văn
bản hay tiếng nói, tìm ra những đoạn bên trong một số tập tin liên quan đến một vấn
đề (câu hỏi) ta cần biết (trả lời).
Phát hiện tri thức và khai phá dữ liệu (knowledge discovery and text data
mining): Từ nhiều tài liệu khác nhau phát hiện ra tri thức mới; mô phỏng quá trình
học tập, khám phá khoa học của con người; đang trong giai đoạn đầu phát triển.
Các bài toán tiêu biểu xử lý ngôn ngữ tự nhiên trong các lĩnh vực nêu trên đều
gặp phải vấn đề xử lý dữ liệu là CVT trong kho ngữ liệu. CVT ẩn chứa, chuyển tải
13 https://vi.wikipedia.org/wiki/ Xử_lý_ngôn_ngữ_tự_nhiên
ngữ nghĩa, nội dung rộng mở, đa nghĩa và tất yếu gặp phải vấn đề mơ hồ, nhập nhằng
16
ngữ nghĩa. Do vậy, để xử lý trọn vẹn vấn đề, các bài toán tiêu biểu nêu trên không
thể không đặt ra vấn đề xem xét xử lý những dữ liệu CVT liên quan.
1.1.5. Vấn đề xử lý tiếng Việt
Một số kết quả xử lý tiếng Việt: Đến nay, một số bài toán xử lý tiếng Việt
(XLTV) đã được nghiên cứu và đạt được một số kết quả nhất định:
Bài toán mã hóa Unicode tiếng Việt: Hiện đã có bộ gõ Unikey, bộ gõ Vietkey,
bộ gõ WinVNKey… đưa vào sử dụng thành công, bộ chữ tiếng Việt đưa vào bảng
mã Unicode, chọn Unicode cho bảng mã chuẩn tiếng Việt. Tách từ tiếng Việt: Đề tài
“Nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản
tiếng Việt” [22] đã nghiên cứu phương pháp tách từ WFST (Weighted Finite State
Transducer) của tiếng Anh, áp dụng cho tiếng Việt. Phương pháp này vẫn chưa khử
hoàn toàn sự nhập nhằng tiếng Việt. Công trình nghiên cứu các phương pháp tách từ
trong tiếng Anh và tiếng Trung Quốc áp dụng cho tiếng Việt [54] đã tiếp tục và đang
được nghiên cứu, bổ sung và hoàn thiện phương pháp tách từ tiếng Việt. Ngoài ra còn
có thêm nhiều công trình nghiên cứu: Công cụ tách từ JVNSegmenter [51],
vnTokenizer, ứng dụng phương pháp Pointwise vào tách từ tiếng Việt [24]… Xây
dựng kho ngữ liệu tiếng Việt: Trung tâm từ điển học Vietlex đi đầu trong xây dựng
kho ngữ liệu (KNL) tiếng Việt từ năm 1998 đến nay; kết quả, KNL tiếng Việt chứa
khoảng 100 triệu âm tiết, được thu thập từ nhiều nguồn dữ liệu khác nhau. Vietlex sử
dụng chương trình vnTokenizer 4.11 để tách từ cho văn bản, các văn bản chứa trong
đó đã được tách từ; được tổ chức theo các lĩnh vực [86]: ngôn ngữ và văn học, lịch
sử, khoa học xã hội, tự nhiên, nghệ thuật…
Nhiều kết quả nghiên cứu sâu hơn như: Xây dựng kho ngữ liệu Việt-Ê Đê, dựa
trên mô hình hợp nhất nguồn dữ liệu từ điển giấy Việt-Ê Đê và Ê Đê-Việt [12]. Đề
tài “Xử lý văn bản tiếng Việt” đã xây dựng nguồn tài nguyên cho tiếng Việt đạt kết
quả [9]: Từ điển tiếng Việt có khoảng 35.000 từ, với nhiều thông tin hình thái,
ngữ pháp, ngữ nghĩa dùng cho XLNNTN; kho ngữ liệu song ngữ Anh - Việt với
80.000 cặp câu Kinh tế - Xã hội, 20.000 cặp câu Tin học, 70.000 câu đã được tách từ,
10.000 câu đã được gán nhãn từ loại và 10.000 cây cú pháp. Các nghiên cứu [9], [10],
17
[12], [86] cùng với nhiều công trình khác đã bước đầu xây dựng các KNL tiếng Việt,
được chia sẻ tham khảo, làm cơ sở nghiên cứu XLNNTN tiếng Việt.
Dịch máy tiếng Việt: Phần mềm EVTRAN là phần mềm dịch tự động đầu tiên
do người Việt xây dựng. Phiên bản EVTRAN 2.0 chỉ dịch từ tiếng Anh sang tiếng
Việt. Website Vidct14 là dịch vụ trực tuyến đầu tiên dịch tự động Anh-Việt. Vdict đã
sử dụng, kế thừa EVTRAN cùng với Google Translation để giải quyết bài toán này,
tuy nhiên còn hạn chế: khi dịch từ Anh sang Việt và ngược lại thì Vdict cho ra cả hai
kết quả, không hỗ trợ dịch chuyên ngành.
Ngoài các kết quả đang chú ý nêu trên, còn có các công trình nghiên cứu khác
như: xử lý tiếng nói cho tiếng Việt của Viện CNTT và Trung tâm nghiên cứu quốc tế
Thông tin đa phương tiện, truyền thông và ứng dụng (MICA) của trường ĐHBK
Hà Nội; các đề tài nghiên cứu ở một số trường ĐH (ĐHBK và ĐH Khoa học tự nhiên
HCM, ĐHBK Đà Nẵng, ĐHBK và ĐH Khoa học tự nhiên Hà Nội,…)
Xu thế và triển vọng trong xử lý tiếng Việt
Theo nhận định của nhiều chuyên gia [9][10][12], cho đến nay, hầu hết các kết
quả đạt được trong XLTV chủ yếu tập trung vào xây dựng ứng dụng cho người dùng
đầu cuối; các kết quả nghiên cứu đa số chỉ được xây dựng thử nghiệm và kiểm tra
trên tập ngữ liệu nhỏ, ít đề cập đến hạ tầng cơ sở cho xử lý ngôn ngữ như từ điển
dùng cho máy, các kho ngữ liệu. XLTV là hướng nghiên cứu có tầm quan trọng rất
lớn đối với sự phát triển và ứng dụng CNTT tại Việt Nam. Để XLTV có thể phát triển
và trong tương lai bắt kịp thế giới, cần xây dựng môi trường khai thác, xử lý tiếng
Việt về tổng thể, về từng vấn đề, từng nhánh hay từng bài toán nghiên cứu. Thông
qua những môi trường này, các nhóm nghiên cứu có thể cộng tác và chia xẻ nguồn
tài nguyên, công cụ xử lý tiếng Việt, trao đổi thông tin trong cộng đồng như hội nghị,
hội thảo… để đối sánh, kiểm chứng, kế thừa kết quả, từ đó phát triển và đạt đến kết
quả mới có giá trị hơn, có ý nghĩa khoa học và ứng dụng nhiều hơn nữa.
Hiện nay, Việt Nam đã và đang xây dựng một ngành công nghiệp nội dung số
phong phú, đa dạng. Trong đó có nhiều sản phẩm về giáo dục trực tuyến, giải trí trực
14 Theo https://vdict.com/
tuyến, truyền thông, nội dung số cho thiết bị di động... [87]. Đây cũng chính là xu
18
hướng và triển vọng trong XLTV. Vì thế, XLTV cần phải có một cộng đồng nghiên
cứu với sự tham gia của các chuyên gia về ngôn ngữ tiếng Việt, về lĩnh vực xử lý
ngôn ngữ trong CNTT, các doanh nghiệp, các nhà quản lý và cả người sử dụng đầu
cuối. Rõ ràng, để giải các bài toán XLTV không thể trông chờ vào các chuyên gia,
các nhà nghiên cứu nước ngoài, mà phải do chính người Việt giải quyết.
1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT
1.2.1. Ngữ nghĩa và ngữ nghĩa học
Ngữ nghĩa: Ngữ nghĩa (meaning), hay nghĩa của từ là những liên hệ được xác
lập trong nhận thức của con người giữa từ với những cái mà từ chỉ ra (những cái mà
từ làm tín hiệu cho chúng). Nghĩa của từ không tồn tại trong sự vật hiện tượng, không
tồn tại trong ý thức, bộ óc con người. Nghĩa của từ tồn tại trong từ, nói rộng ra là tồn
tại trong hệ thống ngôn ngữ [30].
Từ vựng: Vựng có nghĩa là “sưu tập, tập hợp”, từ vựng là tập hợp từ của ngôn
ngữ. Từ vựng là tập hợp từ và các đơn vị tương đương từ của ngôn ngữ. Từ là đơn vị
cơ bản của từ vựng, là đơn vị nhỏ nhất, độc lập về nghĩa và hình thức [30]. Biến thể
từ vựng - ngữ nghĩa: Cùng một từ (cùng cách viết, phát âm) có thể có một nghĩa duy
nhất; nhưng trong ngữ cảnh khác nhau, có nhiều nghĩa khác nhau.
Phân biệt nghĩa (meaning) và ý nghĩa (sense): Nghĩa của từ khác với sự hiểu
biết của con người về ý nghĩa của từ. Sự hiểu biết về ý nghĩa của từ tồn tại trong ý
thức con người. Nghĩa của từ tồn tại trong ngôn ngữ. Nghĩa của từ là quan hệ của từ
với cái gì đó nằm ngoài bản thân nó 15...
Ngữ nghĩa học: Theo [30], cho đến nay, khái niệm ‘ngữ nghĩa học’ vẫn chưa
được hiểu một cách thống nhất. Thuật ngữ này vốn bắt nguồn từ chữ ‘sēmantiká’
trong tiếng Hy Lạp, được dùng chủ yếu để chỉ lĩnh vực khoa học nghiên cứu về ý
nghĩa của các từ, mệnh đề, câu, kí hiệu, các biểu tượng. ‘Ngữ nghĩa học’ có những
tên gọi khác nhau, tiếng Anh: semantics (semantyka), semiology (semiologia),
15 Theo: Nguyễn Thiện Giáp, Phân biệt nghĩa và ý nghĩa trong ngôn ngữ học hiện đại, Tạp chí Khoa học ĐHQGHN: Nghiên cứu Nước ngoài, Tập 30, Số 3 (2014) 1-13
semiotics (semiotyka), semasiology (semazjologia).
19
Các nhân tố hình thành nghĩa của từ: Nghĩa của từ là những liên hệ giữa từ
với những cái mà từ chỉ ra (những cái mà từ làm tín hiệu cho chúng). Nhân tố tạo
TỪ - TRỪU TƯỢNG
Tư duy
Người dùng
Sự vật
Chức năng tín hiệu học
Hệ thống ngôn ngữ
thành nghĩa của từ, biểu thị trong tháp nghĩa hình học không gian theo [4] đã chỉ ra:
Hình 1.1. Mô hình tháp nghĩa
Theo [4], mối quan hệ giữa từ và sự vật hình thành nghĩa biểu vật; giữa từ và
khái niệm sẽ hình thành nghĩa biểu niệm; giữa từ với nhân tố người dùng sẽ hình
thành nghĩa phong cách, nghĩa liên hội, nghĩa biểu thái; giữa từ với các từ khác trong
hệ thống ngôn ngữ hình thành nên nghĩa cấu trúc; giữa từ với các chức năng của từ
sẽ hình thành các giá trị chức năng của từ. Các thành phần nghĩa trên gắn bó chặt chẽ
với nhau, là các phương diện khác nhau trong một thể thống nhất. Trọng tâm phân
tích, miêu tả của từ vựng - ngữ nghĩa học là nghĩa biểu niệm.
1.2.2. Phân tích nghĩa của từ
Ngữ cảnh và phân tích nghĩa của từ: Theo [17][30][31], ngữ cảnh là những
từ bao quanh hay đi kèm một từ, xác định về nghĩa từ đó. Có nhiều loại ngữ cảnh:
Ngữ cảnh lớn có thể bao gồm cả một đoạn văn. Ngữ cảnh nhỏ trong phạm vi một câu.
Ngữ cảnh hẹp là những kết hợp tối thiểu nào đó để xác định nghĩa của từ.
Nghiên cứu từ trong ngữ cảnh có thể phát hiện đặc điểm riêng của ý nghĩa mỗi
từ, sẽ phân biệt được các hiện tượng đa nghĩa, đồng âm. Ví dụ: từ “câu” đồng âm:
Chim câu trắng (bồ câu), câu cá. Nghiên cứu từ trong ngữ cảnh còn giúp làm sáng tỏ
bản chất nghĩa của hiện tượng tỉnh lược trong lời nói (bỏ bớt từ khi nói).
Phương pháp phân tích nghĩa của từ theo ngữ cảnh
Phương pháp phân tích ngữ cảnh của từ theo ngữ cảnh gồm các bước:
20
1. Tập hợp ngữ cảnh: Xác định ngữ cảnh của một từ trong các loại văn bản khác
nhau và tập hợp chúng lại.
2. Phân loại ngữ cảnh: Những ngữ cảnh cùng hiện thực hóa một nghĩa của từ
được xếp vào một nhóm ngữ cảnh cùng loại. Đây là công việc đặc biệt quan
trọng, sự chuẩn xác tạo điều kiện cho việc tách nghĩa chuẩn xác trong từ.
3. Phân tích nghĩa: Đối với các từ đơn, ta so sánh nó với các từ trong trường
nghĩa để phát hiện ra nét nghĩa. Đối với từ đa nghĩa, trước khi tiến hành bước
trên ta phải tách ra các nghĩa, xác định chính xác số lượng nghĩa trong từ, tìm
nghĩa gốc của từ, xác định và loại bỏ các nghĩa ngữ cảnh.
Từ nhiều nghĩa và quan hệ nghĩa trong từ vựng
Từ nhiều nghĩa là từ có hai nghĩa trở lên nhằm biểu đạt các đối tượng, khái
nhiệm khác nhau, đồng thời các nghĩa có mối liên hệ với nhau được sắp xếp theo một
tổ chức nhất định. Ví dụ "áo" có đa nghĩa: đồ mặc (áo người), bọc một số đồ dùng
(áo gối), lớp tráng bên ngoài đồ gốm...
Hiện tượng đồng âm là hiện tượng các từ giống nhau về võ ngữ âm nhưng
hoàn toàn khác nhau về nghĩa. Ví dụ "đồ" đồng âm nhưng có 7 nghĩa: Cụ đồ, đồ vật,
đồ lại nét vẽ, đày đi làm khổ sai… [34]. Phân biệt đồng âm với đa nghĩa: Đồng âm
là hiện tượng xảy ra giữa các từ, nhiều nghĩa là hiện tượng xảy ra trong một từ. Giữa
các nghĩa của những từ đồng âm hoàn toàn khác nhau không có mối liên hệ nào, trong
khi đó, từ đa nghĩa thường có một nghĩa gốc, các nghĩa còn lại phát sinh từ nghĩa gốc;
giữa các nghĩa của một từ nhiều nghĩa thường có một nét nghĩa chung, móc nối chúng
lại thành một kết cấu, và giữa các từ đa nghĩa có sự chuyển nghĩa.
1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa
Sự biến mất các từ ngữ trong từ vựng: Ngôn ngữ chỉ lưu giữ lại những yếu
tố hữu ích; những yếu tố thừa, không phù hợp với nhu cầu sử dụng sẽ bị loại bỏ. Sự
biến mất những từ ngữ tuân theo nguyên tắc này. Có hai nguyên nhân chính [31]:
Nguyên nhân trong ngôn ngữ: Từ biến mất do đã có một từ đồng nghĩa thay
thế, từ rơi rụng này; từ biến mất do biến đổi ngữ âm, ngữ âm cũ mất đi, ngữ âm mới
hình thành và thay thế. Từ ngữ gốc dần dần nhường chỗ cho từ rút gọn hơn, ví dụ "vô
tuyến" thay thế cho từ "vô tuyến truyền hình".
21
Nguyên nhân ngoài ngôn ngữ: Từ bị rơi rụng do đối tượng được từ gọi tên bị
mất đi, đó là các từ lịch sử. Ví dụ: khi Việt Nam không còn nhà nước phong kiến, các
từ "tuần phủ", "án sát"… sẽ dần bị rơi rụng.
Sự xuất hiện các từ ngữ mới trong từ vựng: Sự xuất hiện các từ ngữ mới để
thỏa mãn nhu cầu định danh các sự vật hiện tượng trong đời sống. Hai con đường tạo
thành từ ngữ mới theo [17][31]:
1. Cấu tạo từ mới bằng các chất liệu và quy tắc sẵn có trong ngôn ngữ dân
tộc; con đường hình thành từ mới này thông qua các phương thức:
a) Phương thức phức hợp: Hòa đúc hai từ sẵn có tạo nên từ mới, giữ lại
các yếu tố được coi là giá trị nhất về mặt ngữ nghĩa của cả hai từ để tạo
ra một đơn vị hoàn chỉnh. Ví dụ: "ngôn ngữ và văn học" => "ngữ văn".
b) Phương thức rút gọn: Phương thức rút gọn là phương thức tạo từ mới
bằng cách lược bớt một phần của đơn vị đó. Ví dụ: omnibus => bus (xe
buýt); xứ Thanh hóa => xứ Thanh.
c) Phương thức viết tắt: Phương thức ghép các con chữ (âm) ở đầu, cuối,
vị trí nào đó trong một nhóm từ với nhau để tạo nên từ mới. Ví dụ: Kiểm
tra chất lượng sản phẩm => KCS.
2. Vay mượn ngôn ngữ khác: Đây là quá trình tiếp nhận thêm từ ngôn ngữ
khác hình thành nên lớp từ vay mượn.
a) Lớp từ vay mượn gồm: từ ngoại lai (ăc quy, pho mát...), từ ghép lai (đài
ra đa, bom ba càng), sao phỏng cấu tạo từ ( ngôi sao - star).
b) Quá trình đồng hóa từ vay mượn: Từ ngữ vay mượn chịu sự biến đổi
theo quy luật ngôn ngữ tiếp nhận, là quá trình vay mượn các ngôn ngữ
chủ thể. Ví dụ: Đồng hóa về ngữ pháp (tiếng Pháp: double, bleu là tính
từ, chuyển sang tiếng Việt làm động từ: "đúp", "lơ").
Phương thức viết tắt xuất hiện các từ ngữ mới: Như trên đã đề cập, con
đường hình thành từ ngữ mới thông qua nhiều phương thức, cấu tạo nên từ ngữ mới
bằng các chất liệu và quy tắc sẵn có trong ngôn ngữ dân tộc, trong đó có phương thức
viết tắt [17][31]. Trong thực tế, CVT thường có hai dạng: Viết tắt tự tạo, ngẫu nhiên
và viết tắt theo quy luật. Viết tắt tự tạo, ngẫu nhiên thể hiện xu hướng "tắt hóa" khi
sử dụng viết chữ một cách tự nhiên của con người, là sự sáng tạo cách viết vốn rất
22
riêng tư, nhưng cũng có thể được phổ biến. Viết tắt theo quy luật chung là cách viết
tắt có sự nghiên cứu, sắp xếp, định dạng theo một quy luật nào đó.
Các phương thức biến đổi ngữ nghĩa: Phương thức biến đổi ý nghĩa của từ
là cách thức bổ sung nghĩa mới cho từ không kèm theo sự biến đổi về từ ngữ âm, làm
cho từ trở thành từ nhiều nghĩa. Các phương thức chủ yếu [31]: Phương thức hoán
dụ là phương thức làm biến đổi ý nghĩa của từ bằng cách lấy tên gọi của sự vật, hiện
tượng này để chỉ một sự vật, hiện tượng khác trên cơ sở mối quan hệ tất yếu giữa các
sự vật, hiện tượng ấy. Phương thức ẩn dụ cũng là phương thức biến đổi ý nghĩa của
từ bằng cách lấy tên gọi của sự vật, hiện tượng này để chỉ sự vật, hiện tượng khác
trên cơ sở của sự giống nhau về một khía cạnh nào đấy giữa hai sự vật hay hiện tượng
ấy. Ngoài ra, còn có phương thức biến đổi ngữ nghĩa giữ tên gọi cũ để chỉ những sự
vật, hiện tượng hay khái niệm mới hoặc đã thay đổi.
Nguyên nhân biến đổi ý nghĩa của từ (chuyển nghĩa) thường rất phức tạp, đa
dạng. Chuyển nghĩa do sự kiêng kỵ: Hiện tượng này không chỉ tạo nên sự biến âm mà
là nguyên nhân của sự chuyển nghĩa. Chuyển nghĩa do nhu cầu giao tiếp: Các diễn
đạt sâu sắc, ấn tượng trong câu thơ "sáu tư tuổi còn xuân chán", làm cho từ "xuân"
chuyển nghĩa thành "thuộc về tuổi trẻ, thời tươi đẹp". Chuyển nghĩa do môi trường
sử dụng từ: Ví dụ từ "Sở Khanh" lúc đầu chỉ là nhân vật trong Truyện Kiều, nay sử
dụng rộng rãi chỉ những đàn ông đểu giả, lừa lọc.
1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt
Nhập nhằng trong ngôn ngữ học
Bách khoa toàn thư mở Wikipedia nêu khái niệm [83]: Nhập nhằng trong ngôn
ngữ học là hiện tượng thường gặp, trong giao tiếp hàng ngày con người ít để ý đến
nó bởi vì họ xử lý tốt hiện tượng này. Nhưng trong các ứng dụng liên quan đến xử lý
ngôn ngữ tự nhiên khi phải thao tác với ý nghĩa từ vựng mà điển hình là dịch tự
động nhập nhằng trở thành vấn đề nghiêm trọng…
Ví dụ, trong một câu cần dịch có xuất hiện từ "đường" như trong câu "ra chợ
mua cho mẹ ít đường" vấn đề nảy sinh là cần dịch từ này là road hay sugar, con người
16 https://vi.wikipedia.org
xác định chúng khá dễ dàng căn cứ vào văn cảnh nhưng với máy tính thì không, rất khó khăn để tìm các thuật toán hữu hiệu cho các nhà lập trình16.
23
Một số hiện tượng nhập nhằng
Nhập nhằng ranh giới từ: Trong tiếng Anh việc xác định ranh giới từ khá dễ
dàng, mỗi từ riêng lẻ mang trọn vẹn một nghĩa, ranh giới của chúng được xác định
thông qua khoảng trắng. Tiếng Việt là ngôn ngữ đơn lập nên từ vựng chủ yếu là các
từ ghép vì thế khoảng trắng không phải luôn là ranh giới chính xác.
Nhập nhằng từ đa nghĩa: Bất cứ ngôn ngữ nào cũng có từ đa nghĩa, nguyên
nhân là vì rất nhiều khái niệm có các sắc thái ý nghĩa tuy không hoàn toàn trùng khớp
nhau nhưng lại có nhiều nét tương đồng. Như từ "ăn" trong "ăn uống" và "ăn cướp"
vừa có những nét nghĩa giống và khác nhau, từ “ăn” có đến 12 nghĩa [34].
Nhập nhằng từ đồng âm (đồng tự): Hai từ đồng âm với nhau nghĩa là hai từ có
âm giống nhau nhưng mang nghĩa khác nhau, còn đồng tự là hai từ về mặt ký tự là
giống nhau nhưng nghĩa khác nhau. Do đặc điểm của tiếng Việt, từ đồng âm cũng
thường là từ đồng tự; ở ngôn ngữ khác hai hiện tượng này không trùng khớp nhau.
Nhập nhằng từ loại: Từ loại là một yếu tố quan trọng trong việc xác định nghĩa
chính xác của từ và sắp xếp các từ thành câu hoàn chỉnh trong dịch tự động; nghĩa là
từ loại giúp khử nhập nhằng, nhưng chính bản thân nó trong một số trường hợp cũng
nhập nhằng. Ngôn ngữ không biến hình như tiếng Việt muốn xác định từ loại yêu cầu
thuật toán phức tạp hơn, bắt buộc phải phân tích cú pháp; ngay trong ngành ngôn ngữ
vẫn chưa có sự thống nhất về phân loại từ loại cho tiếng Việt.
Xử lý nhập nhằng trong tiếng Việt
Hiện tượng nhập nhằng xảy ra khi: Một từ thường có nhiều hơn một nghĩa,
gây hiểu lầm, mơ hồ ngữ nghĩa của từ. Từ đa nghĩa là một trong các nguyên nhân
gây nhập nhằng trong trong tìm kiếm văn bản, tra cứu tài liệu. Tác động của nhập
nhằng làm cho người đọc, người viết, hiểu lầm, gặp sai sót, hay bế tắc.
Xử lý nhập nhằng nghĩa của từ được nhiều nhà nghiên cứu XLNNTN quan
tâm đến, là vấn đề xuất hiện sớm và lâu đời nhất của lĩnh vực này (những năm 40 của
thế kỷ 20), đóng vai trò quan trọng, làm cơ sở cho nhiều bài toán XLNNTN khác…
Để khử nhập nhằng nghĩa của từ, các nhà nghiên cứu phải sử dụng nhiều thông tin
của ngữ cảnh ở nhiều cấp độ (hình thái, ngữ pháp, ngữ nghĩa,...) cùng với các luật suy
diễn ngữ nghĩa. Các luật suy diễn này tạo thành có thể từ thủ công hoặc từ quá trình
bán tự động - tự động hóa, hoặc có sự phối kết hợp giữa chúng [39]. Luật suy diễn
24
xây dựng bằng tay đòi hỏi công sức rất lớn và không thể bao quát hết mọi trường hợp.
Vì thế nhiều nhà nghiên cứu đã đưa ra các mô hình cho phép tự động xây dựng các
luật dẫn như thế bằng cách áp dụng phương pháp học chuyển đổi trên một tập ngữ
liệu lớn nào đó.
Trong tiếng Anh, có nhiều công trình nghiên cứu giải quyết nhập nhằng ngữ
nghĩa đã được thực hiện. Hai hướng tiếp cận cơ bản17 đã được nghiên cứu: Giải quyết
nhập nhằng dựa trên thông tin trong một ngữ cảnh cụ thể và giải quyết nhập nhằng
dựa trên những thông tin thu được trong việc học từ vài tập ngữ liệu học [67]. Sau đó
có nhiều công trình dùng kết hợp cả hai phương pháp này đã được thực hiện [68], sử
dụng các mô hình thống kê các loại đồng nghĩa để xác định nghĩa của các từ tiếng
Anh khử nhập nhằng. [71] nghiên cứu chuyên sâu so sánh hiệu suất nhận dạng CVT các hệ thống XLNNTN (MetaMap, MedLEE, cTAKES)18 về CVT trong các văn bản
tóm tắt y học, có thể để trích xuất thông tin từ CVT văn bản, tạo điều kiện chăm sóc
bệnh nhân tốt hơn. [72] nghiên cứu khử nhập nhằng CVT trong y học sử dụng mạng
Neural Word Embedding. Nghiên cứu [73] nhận diện CVT sử dụng phương pháp học
máy Machine Learning. [68] dùng phương pháp dựa hệ thống mạng từ Word Sense Disambiguation (WSD)19 nhằm quy gán nghĩa thích hợp với ngữ cảnh (nghĩa là các
thành viên của loạt từ đồng nghĩa) cho từ trong một văn bản y học. Còn có công trình
nghiên cứu CVT trong ngôn ngữ tiếng Trung, tiếng Do Thái như [69][57], nhận diện
CVT dựa vào thông tin ngữ cảnh văn bản, sử dụng phương pháp máy học để nhận
dạng CVT bởi thuộc tính nhất quán trong văn bản.
Trong tiếng Việt, gần đây có nhiều công trình nghiên cứu: Xử lý nhập nhằng
tiếng Việt và ứng dụng trong tra cứu tài liệu [42]; xử lý nhập nhằng trong tìm kiếm
văn bản tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn
17 Wilks, Stevenson, Sense Tagging: Semantic Tagging with a Lexicon. In Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C. 1997 18 MetaMap: Hệ thống NLP dùng để lập bản đồ ngôn ngữ y sinh thống nhất; MedLEE: NLP thiết kế dành cho ghi chú X-quang (radiology), báo cáo bệnh lý, ghi chú xuất viện; cTAKES: NLP kiến thức về bệnh tật. 19 Mạng từ là từ điển máy tính tiếng Anh được sử dụng phổ biến để khử nhập nhằng nghĩa từ.
bản [43], giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt [6].
25
1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG
1.3.1. Chữ viết tắt là gì
Trong cuộc sống, con người luôn có xu hướng rút ngắn thời gian trong thể hiện
mọi hành động, suy nghĩ của mình để chuyển tải lượng thông tin ngày càng lớn. Đó
là xu hướng "tắt hóa" mọi thứ có thể (hình 1.2): cử chỉ (làm tắt, gõ tắt), hành động
(đi tắt, về tắt, nói tắt, viết tắt), định nghĩa (phím tắt, ngõ tắt, nút tắt), đặt ra thuật ngữ
khác (tóm tắt văn bản, vắn tắt, CVT)...
Từ “tắt“ có các nghĩa chính, đầy đủ theo từ điển [34]: Làm tắt (không sáng),
làm mất (niềm tin, nụ cười), làm ngừng (chạy), đi tắt: (đi ngang về tắt, đường ngang
ngõ, lối) tắt; Nói hay viết tắt: cắt bỏ bớt âm, hay cắt bỏ bớt chữ. Ví dụ: nói vắn tắt,
nói tóm tắt; viết vắn tắt, viết tóm tắt, bản tóm tắt, ký tắt. Phạm vi nghiên cứu ở luận
án này từ “tắt” với nghĩa chủ yếu của cụm từ chữ viết tắt hay từ viết tắt.
Thuật ngữ “chữ viết tắt” (tiếng Anh là abbreviation) chưa có mặt trong những
từ điển tiếng Việt thông dụng có mặt trên thị trường20 hiện nay, kể cả trong cuốn “Từ điển Bách khoa Việt Nam” tập 1 (vần A-Đ21), nhưng lại rất quen dùng trong cuộc
sống. Sử dụng công cụ tìm kiếm Google, chúng ta có thể tìm thấy rất nhiều trang web
sử dụng thuật ngữ này.
20 Từ điển song ngữ Việt-Anh, Bùi Phụng, nhà xuất bản Thế giới, năm 1998. 21 Từ điển Bách khoa Việt Nam biên soạn, Hà Nội, năm 1995.
Hình 1.2. Xu hướng "tắt hóa"
26
Từ điển mở Wiktionary22 đã giải thích viết tắt “là cách viết ngắn gọn hơn cách
dài nhưng thông dụng, nhiều người hiểu. Ví dụ như VN là cách viết tắt cho "Việt
Nam”. Từ điển online như [80][81][82] cũng không có giải thích hoặc giải thích
không đầy đủ cho thuật ngữ “chữ viết tắt”. Chúng ta hay gặp CVT ở dạng “từ viết
tắt” hay “từ tắt” (acronym, Abbreviations: a short form of a word or phrase).
Chữ viết tắt
Chữ viết tắt là cách viết ngắn gọn nhằm mục đích tạo ra chữ viết khác chữ viết
thông thường, được sử dụng khi phải viết lặp đi lặp lại nhiều lần một cụm từ, một
cụm câu hay một đoạn văn bản nào đó, nhằm tiết kiệm thời gian, công sức mà vẫn
thoả mãn được yêu cầu thể hiện nội dung và tiện lợi khi sử dụng [30][34].
Trong ứng dụng CNTT, nhất là chương trình ứng dụng bộ gõ tiếng Việt, việc
gõ tắt được các nhà lập trình ứng dụng chú trọng23; trong đó có phương pháp mới
“Tốc ký chữ Việt” [47], cách sử dụng chữ Việt nhanh [48], đưa ra cách thức gõ tắt
tích hợp trong bộ gõ WinVNKey [75], tiết kiệm hơn 40% số phím phải gõ.
1.3.2. Lịch sử hình thành chữ Quốc ngữ
Sự hình thành chữ Quốc ngữ là một quá trình, từ những thập kỉ đầu của thế kỉ
XVII, với sự tham gia của nhiều giáo sĩ Dòng Tên, trong sự cộng tác và đóng góp của
nhiều người Việt [38].
Khoảng thời gian từ năm 1620, các giáo sĩ bắt đầu ghi chép bằng chữ Quốc
ngữ, đến năm 1651- thời gian xuất bản Từ điển Việt Bồ La và Phép giảng 8 ngày
được xem là thời kì đầu hình thành chữ Quốc ngữ [5]. Theo [5], trong thời kỳ đầu thế
kỷ XVII, người Việt Nam dùng chữ Nho là chính, còn chữ Nôm là phụ thuộc. Chữ
viết Quốc ngữ ngày nay là một kiểu chữ đã được nhiều Linh mục Dòng Tên ở Việt
Nam (với sự công tác của một số thầy giảng Việt Nam) vào thế kỷ thứ XVII tạo ra.
Họ đã dùng mẫu tự La Tinh rồi dựa vào phần nào của của chữ Bồ Đào Nha, Ý và các
dấu từ tiếng Cổ Hy Lạp, để làm thành chữ Quốc ngữ đang dùng ngày nay. Khi các
nhà truyền giáo đến Đàng Trong, họ đã bắt đầu áp dụng dần dần mẫu tự La Tinh cho
22 http://vi.wiktionary.org/wiki/ 23 http://chuvietnhanh.sourceforge.net, Trần Tư Bình.
tiếng Việt [5][38]. Các nhà nghiên cứu chia thời kì hình thành chữ Quốc ngữ thành 2
27
giai đoạn: Giai đoan 1- từ 1620 đến 1626 và giai đoạn 2 từ 1631 đến 1648. Nhà
truyền giáo Alexandre de Rhodes được coi là người có công nhiều trong việc định
chế chữ Quốc ngữ qua cuốn từ điển Dictionarium Annamiticum Lusitanum et
Latinum in năm 1651 tại Roma24. Như vậy, sự hình thành chữ Quốc ngữ là một quá
trình lịch sử, với sự tham gia của nhiều giáo sĩ Dòng Tên, sự cộng tác và đóng góp
của nhiều người Việt.
1.3.3. Tìm hiểu về lịch sử chữ viết tắt
Từ thuở xa xưa, con người đã biết cách sử dụng từ viết tắt hay ký hiệu để khắc
chạm trên đá, trên gỗ…, nhằm gợi nhớ, tiết kiệm thời gian, vật liệu lưu trữ. CVT được
dùng phổ biến ở nước ngoài từ rất sớm. Chẳng hạn SPQR viết tắt cho cụm từ “Senatus
Populusque Romæ” (Cộng hoà Đế chế La Mã, hay Hội đồng Nhà nước nhân dân
thành La Mã) đã có gần 2.000 năm lịch sử [61], QED viết tắt cho cụm từ “Quod Erat
Demonstrandum” (điều đã được chứng minh)25.
CVT có nguồn gốc từ tiếng Hy Lạp cổ [61], acronym gồm akron (cuối cùng,
hay đầu mút) và onoma (tên hay tiếng). Một số từ điển tiếng Anh giải thích từ viết
tắt là cách thức tạo ra một dạng từ mới ngắn gọn hơn bằng cách dùng những chữ cái
đầu (initial letters), cuối hay từ nào đó trích ra từ các từ hay cụm từ đã có. Chẳng hạn:
UNESCO viết tắt từ “United Nations Educational, Scientific and Cultural
Organization” (Tổ chức Giáo dục, Khoa học và Văn hoá của Liên Hiệp Quốc)…
Ở Việt Nam, mặc dù CVT tiếng Việt đã được xuất hiện từ rất sớm và đã có
một số nghiên cứu CVT tiếng Việt [7][13] [29], nhưng chưa có nghiên cứu nào đề
cập đầy đủ đến sự hình thành CVT.
Sự ra đời của chữ Nôm từ thế kỷ XIII26 của cha ông ta chính là một cách khác
để viết chữ Hán, thay thế chữ Hán vay mượn của phương Bắc [14][15]. Trong hệ
thống chữ Nôm, mỗi chữ Nôm cũng có dạng hình vuông, được tạo thành nhờ lắp ghép
các chữ Hán theo hình thức biểu âm, biểu ý, hoặc viết lược nét, viết tắt. Chẳng hạn
24 Theo vi.wikipedia.org/wiki/Chữ_Quốc_ngữ#Lịch_sử 25 Tác phẩm “Ethica More Geometrico Demonstrata” - Nhà triết học Benedictus de Spinoza (1632-1677) 26 Theo https://vi.wikipedia.org/wiki/Chữ-Nôm
chữ Hán (cộng) viết bớt nét thành chữ Nôm (khạng), chữ Hán (vi) được
28
viết gọn thành chữ Nôm (làm). Khi chữ Quốc ngữ (tiếng Việt ngày nay) được
dùng phổ biến, CVT bắt đầu được sử dụng. Bút danh C.D. là tên hiệu Chương Dân
của Phan Khôi trên Đông Pháp Thời Báo năm 1928 [14]. Ngày nay, CVT tiếng Việt
được sử dụng ngày càng phong phú trong nhiều lĩnh vực khác nhau.
Nhiều tác giả quan niệm CVT tiếng Việt là một hiện tượng ngữ pháp [28] [29].
Theo GS. Nguyễn Tài Cẩn [27], “có kiểu nói tắt kiểu rút gọn lại một âm tiết chứ
không nói tắt bằng cách dựa vào những chữ cái đầu hay âm đầu. Những từ viết tắt
như VN (Việt Nam), HTX (hợp tác xã)… chỉ sử dụng thuần tuý trong văn bản”.
1.3.4. Sử dụng chữ viết tắt
Sử dụng chữ viết tắt trong cuộc sống hiện nay
Chữ viết tắt đã quen thuộc trong cuộc sống và được sử dụng phổ biến trong
hầu hết các hệ thống ngôn ngữ viết trên thế giới từ trước đến nay, kể cả tiếng Việt.
Hiện nay, chưa có những công trình thống kê một cách đầy đủ về CVT tiếng Việt
nhưng CVT đã được sử dụng phổ biến trên nhật báo, tạp chí, văn bản. Trên các trang
báo, tạp chí, ta thường thấy các CVT thông dụng như TƯ, TW (Trung ương), UBND
(Uỷ ban nhân dân), PTTH (Phổ thông trung học), có cả các CVT tiếng Anh như WTO
(World Trade Organization), WHO (World Health Organization)…
CVT còn có nhu cầu sử dụng khá lớn trong giao tiếp cộng đồng, trong lĩnh vực
tôn giáo, tín ngưỡng: BDH (Bài Dâng Hoa), BDR (Bài Dâng Rượu). CVT sử dụng
trong tên riêng như TCS (Trịnh Công Sơn), trong tiếng lóng [82], tiếng địa phương
như GATO (ganh ăn tức ở)… Hiện có cả một từ điển tiếng lóng tiếng Việt 27 trên
Internet với khá nhiều CVT, cụm từ viết tắt.
Chúng ta còn gặp CVT ở dạng rút gọn, tức là cụm từ hay đoạn văn bản cần
viết tắt đã cho được rút gọn một số ký tự, hay được trích, chọn hoặc được thay thế
một phần nào đó để ghép lại thành cụm các ký tự mới, tạo điều kiện thuận lợi hơn
trong viết và nói. Ví dụ trong tiếng Anh, mon, tue, wed… là tên viết tắt các ngày
trong tuần; trong tiếng Việt cũng dùng tên viết tắt để chỉ vùng địa lý, chẳng hạn xứ
27 Từ điển tiếng lóng: www.tudienlong.com
Thanh, xứ Nghệ, xứ Quảng; viết tắt chỉ cách gọi: cổ (cô ấy), ổng (ông ấy)... Từ khi
29
bùng nổ Internet, các ngôn ngữ viết nói chung đã được phát triển theo một hướng mới
nhờ NSD sử dụng rất nhiều CVT và dấu hiệu quy ước. Chẳng hạn trong tiếng Anh,
khi trao đổi bằng e-mail hay nhắn tin di động thường sử dụng IMHO để chỉ cụm từ
“in my humble opinion” (theo ý kiến nông cạn của tôi), các ký hiệu khôi hài như: ,
, U (you)…
Tóm lại, CVT vẫn tồn tại, sử dụng trong cuộc sống như là một phần không thể
thiếu được của tiếng Việt, được sử dụng ngày càng phổ biến và có xu hướng phát
triển mạnh.
Sử dụng chữ viết tắt ở một số chuyên ngành
Hầu như các lĩnh vực, chuyên ngành, việc sử dụng CVT như là một phần
không thể thiếu. Phân lớp CVT trong một số chuyên ngành để có thể vận dụng phân
loại trong việc xây dựng cơ sở dữ liệu đã ghi nhận các lĩnh vực chủ yếu như sau:
CNTT và truyền thông, Chính phủ, tổ chức chính trị xã hội, Khoa học công nghệ, kỹ
thuật, Quân sự, Y học, Giáo dục, Tài chính, thương mại, Tài nguyên môi trường, Tôn
giáo, Giao tiếp cộng động.
Trong Chính phủ, tổ chức chính trị xã hội, nhiều Bộ ngành có văn bản quy
định CVT, cách viết tắt. Bộ Nội vụ quy định: “Chữ viết tắt tên cơ quan, tổ chức ban
hành văn bản và chữ viết tắt tên các đơn vị trong mỗi cơ quan, tổ chức phải được quy
định cụ thể, bảo đảm ngắn gọn, dễ hiểu” 28, quy định rõ cách viết tắt các CVT về
quyền hạn như: “TM.”, “KT.”, “TL.”, “TUQ.” trong văn bản (điều 11, mục 1 của
Thông tư) 29. Trong lĩnh vực VT-CNTT: Hiện nay, đã có một số từ điển đã xuất bản
như: “Từ điển giải nghĩa thuật ngữ Viễn thông”, “Thuật ngữ viết tắt Viễn thông” [32],
từ điển CVT thường dùng trong y học [8], CVT thường dùng quốc tế và Việt Nam
[18][19], CVT các tổ chức kinh tế xã hội Việt Nam [35][36]; các xuất bản này đã
chọn lọc và giới thiệu hàng ngàn CVT. Tuy vậy chưa quan tâm đến sự hình thành, sự
biến đổi và ứng dụng CVT, nhất là vấn đề nhập nhằng ngữ nghĩa CVT.
Nhu cầu sử dụng CVT dạng mã hóa trong chuyên ngành viễn thông như: mã
28 Thông tư số 55/2005/TTLT-BNV-VPCP, 06/05/2005, thể thức và kỹ thuật trình bày văn bản 29 Thông tư số 01/2011/TT-BNV, 19/11/2011, hướng dẫn thể thức và kỹ thuật trình bày văn bản hành chính
hóa phần tử mạng lưới cáp đồng, cáp quang, mã hóa danh mục vùng miền, mã hóa và
30
viết tắt trong CSDL. Chuyên ngành này cũng tìm thấy các CVT xuất hiệu nhu cầu
trong một số ứng dụng Tin học như bộ gõ tiếng Việt, từ điển Tin học, Trang Chữ Việt
Nhanh [76] có các bài viết và đường dẫn liên quan đến “tốc ký và gõ tắt chữ Việt”
trong thời đại Internet30 [47][50]…
Trong lĩnh vực tài chính, thương mại: CVT ngày càng có nhu cầu sử dụng rộng
rãi, không thể thiếu nhất là thương hiệu, nhãn hiệu. Việc thành lập các CVT thương
hiệu, nhãn hiệu là một nhu cầu sử dụng thực tế, nhưng khó khăn đặt ra: Làm sao
chúng không bị trùng lặp (vì có thể vô tình/cố ý vi phạm, tranh chấp bản quyền),
những quy tắc thành lập CVT nào vận dụng, CSDL nào có thể tra cứu loại bỏ sự trùng
lặp, nhập nhằng?
Có thể nói, trong nhiều lĩnh vực khoa học - công nghệ, công nghiệp, muốn vận
hành, điều khiển một thiết bị, yêu cầu trước tiên phải hiểu các thuật ngữ viết tắt mô
tả về chúng, ý nghĩa chức năng mà chúng đảm nhận. Nhu cầu sử dụng CVT ngày
càng tăng khi khoa học, công nghệ càng phát triển, khi nền công nghiệp nội dung số
đang phát triển phong phú và đa dạng [87].
Sử dụng chữ viết tắt ở một số ngôn ngữ
Chữ viết tắt trong tiếng Pháp: Tiếng Pháp, chữ viết tắt (raccourcies, sigles) cũng
được dùng phổ biến31, có khoảng 17.000 CVT [51]. Cách viết tắt tương tự tiếng Anh.
Ví dụ: ONU = L’Organisation des Nations Unies; RDI = Le Réseau d’Information;
ADIBIPUQ = Association des directeurs de bibliothèques publiques du Québec;
EDF = Électricité de France (trường hợp đặc biệt khi có giới từ).
Chữ viết tắt trong tiếng Đức: Trong tiếng Đức (German), CVT (Akronyme,
Abkürzungswort) cũng được dùng phổ biến. Ghi nhận của các nhà nghiên cứu cho
biết có đến 50.000 CVT [51]. Cách thành lập các từ viết tắt thường sử dụng trong
tiếng Đức tương tự như tiếng Anh bằng cách nối các chữ đầu của cụm từ. Ví dụ như:
ZDF = Zweites Deutsches Fernsehen, GmbH = Gesellschaft mit beschraenkter
Haftung. CVT được thành lập bằng cách nối kết các âm tiết cũng được sử dụng trong
30 http://chuvietnhanh.sourceforge.net 31 http://www.translatum.gr/dictionaries/french-acronyms.htm
tiếng Đức, ví dụ: PLZ = Postleitzahl, KFZ = Kraftfahrzeug.
31
Chữ viết tắt trong tiếng Nga: Tiếng Nga (Russian) thuộc họ ngôn ngữ Xla-vơ
(Slavic language), dùng bảng chữ cái Xirin (cyrillic alphabet). Một số quốc gia cũng
dùng bảng chữ cái này như Bun-Ga-Ri, U-Crai-Na… Cách viết tắt trong tiếng Nga
tương tự như tiếng Anh. Ví dụ điển hình là cách nối các chữ đầu của cụm từ như:
КГБ viết tắt Коммите Государственной Безоласноти; МБДП viết tắt
Министерство Бумажной и Деревообрабатьгвающей Промьппленности, v.v...
1.3.5. Chữ viết tắt trong tiếng Việt
Như trên đã đề cập đến, CVT trong tiếng Việt được hình thành từ rất sớm, từ
thời điểm ra đời chữ Nôm Việt: khi mới hình thành chữ Nôm, yếu tố viết lược nét,
viết tắt được vận dụng để sáng tạo ra chữ Nôm. Khoảng thế kỷ XVII, chữ Quốc ngữ
(tức Việt ngữ Latin hóa) hình thành. Thời gian này các giáo sĩ Thiên Chúa giáo đến
Việt Nam để truyền đạo. Họ đã Latin hóa (romanize) ngôn ngữ của người Việt để
giúp họ học được nhanh chóng tiếng người Việt. Nhiều giáo sĩ cùng hợp tác với người
Việt đã sáng chế ra Việt ngữ Latin hóa mà ta gọi là chữ Quốc ngữ. Qua nhiều giai
đoạn thăng trầm, nó đã thay thế thành công chữ Nôm. Khi chữ Quốc ngữ được dùng
phổ biến, CVT bắt đầu được sử dụng.
CVT bắt đầu được dùng khá sớm trong chữ Quốc ngữ, nhiều văn bản viết tay
chữ Quốc ngữ ở thế kỷ XVII - XVIII lưu hành trong giới công giáo đã sử dụng nhiều
hình thức viết tắt, trong đó thường gặp là Đ.C.B. (Đức Chúa Blời), Đ.C. (Đức Chúa)
[37]. Dần dần, CVT sử dụng phổ biến: Cách viết tắt bút danh các nhà báo cùng thường
được sử dụng, ví dụ Bút danh C.D. (viết tắt từ tên hiệu Chương Dân) của Phan Khôi
trên Đông Pháp Thời Báo, ngày 01/05/1928 [14].
Chữ viết tắt trong ngôn ngữ dân tộc ít người: Việt Nam là một quốc gia đa
dân tộc, ngôn ngữ với 54 dân tộc, trong đó dân tộc Kinh chiếm khoảng 85,7%; 26
dân tộc đã có chữ viết, dân tộc còn lại chưa có chữ viết32. Chữ viết các dân tộc ít
người có quan hệ dòng họ với các ngôn ngữ khác ở Đông Nam Á [3]. Chẳng hạn,
tiếng Ê đê có quan hệ họ hàng với tiếng Melayu thuộc về chi Tây Indonesia của ngữ
32Số liệu Tổng điều tra năm 2009
hệ Nam Đảo. Tiếng Melayu chủ yếu đi theo con đường đa tiết hóa thì trái lại, tiếng
32
Ê đê lại biến đổi mạnh theo hướng đơn tiết hóa. Nói cách khác, tiếng Malay biến đổi
theo hướng "làm dài" từ, tiếng Ê đê biến đổi theo hướng "làm ngắn", "tắt hóa" từ,
như dẫn chứng hình 1.3 sau đây [3]:
Hình 1.3. Tắt hóa trong chữ viết dân tộc ít người
Tiếng Ê đê hiện nay có nhiều từ ngữ vay mượn, nhiều nhất là vay mượn của
tiếng Việt và các ngôn ngữ có tiếp xúc (tiếng Pháp, tiếng Anh).
Nhận xét chung về vấn đề chữ viết tắt
Từ những phân tích trên, luận án rút ra khi nghiên cứu lý thuyết và thực tiễn
sử dụng CVT:
1. Chữ viết tắt tiếng Việt cũng là một hướng làm biến đổi chữ viết tiếng Việt,
có thể được xem là cải tiến tự nhiên về chữ viết tiếng Việt.
2. Từ vựng của ngôn ngữ luôn biến đổi phát triển, trong đó phương thức viết
tắt, tạo lập các CVT tiếng Việt, làm xuất hiện các từ ngữ tiếng Việt mới.
Do đó, công việc tìm hiểu, lưu trữ và xây dựng các công cụ, khai thác CVT
tiếng Việt (được sáng tạo mới không ngừng, biến đổi nhanh chóng) cho chúng ta nhận
thấy được bước phát triển mới của NNTN trong kỷ nguyên số thời đại ngày nay [47].
Từ đó giúp ta hiểu sâu hơn về tính năng của ngôn ngữ, nhận thức được xu hướng phát
triển NNTN tiếng Việt trong tương lai.
1.4. NGỮ NGHĨA CHỮ VIẾT TẮT
1.4.1. Khái niệm ngữ nghĩa chữ viết tắt
Luận án sử dụng khái niệm ngữ nghĩa, hay nghĩa của từ để đưa ra khái niệm
ngữ nghĩa chữ viết tắt tiếng Việt dựa trên các đặc trưng của chúng.
Ngữ nghĩa chữ viết tắt: là những liên hệ được xác lập trong nhận thức của con
người giữa những cái mà CVT chỉ ra (những cái mà CVT làm tín hiệu cho chúng).
Nghĩa của CVT không tồn tại trong sự vật hiện tượng, không tồn tại trong ý thức, bộ
33
óc con người. Nghĩa của CVT tồn tại trong trong CVT, nói rộng ra là tồn tại trong hệ
thống ngôn ngữ mà trong đó CVT đã hình thành [30]. Sau đây là những đặc trưng
ngữ nghĩa CVT tiếng Việt:
1. Cùng một CVT có thể có một nghĩa duy nhất, nhưng có thể nhiều nghĩa khác
nhau trong ngữ cảnh khác nhau. Chẳng hạn KCS có nghĩa là "Kiểm tra Chất
lượng Sản phẩm", "Kinh Cầu Siêu" (trong lĩnh vực tôn giáo).
2. CVT cũng có thể có các phương thức biến đổi ý nghĩa tương tự như của từ: là
cách thức bổ sung nghĩa mới cho CVT không kèm theo sự biến đổi về từ ngữ
âm, làm cho CVT trở thành có nhiều nghĩa. Ví dụ, Dân ca Nam Bộ, nói “thôi”
nhưng người đọc luyến láy ra là "hoy", tạo ra CVT, cách nói "HOY đi!" thể
hiện sự thân mật; nghe như là sự từ chối, nhưng thật ra là đồng ý.
3. Yếu tố vay mượn CVT nước ngoài cũng làm cho ngữ nghĩa CVT tiếng Việt
càng phong phú, đa dạng; chẳng hạn chữ laser, ta thường nói là tia laser:
“Light Amplification by Stimulated Emission of Radiation” [94][95].
4. Ngữ nghĩa CVT có đặc trưng là chuyển tải ý nghĩa, chứa đựng lượng thông tin
lớn, có nhiều ngữ nghĩa khác nhau; người đọc, người nghe khó có thể suy luận
ngữ nghĩa theo nghĩa như từ vựng thông thường; nên mơ hồ, không rõ nghĩa,
hiểu nhầm thường xảy ra.
1.4.2. Biến đổi ngữ nghĩa chữ viết tắt
Biến đổi về số lượng chữ viết tắt: CVT có biến động theo hướng gia tăng số
lượng, ngày càng lớn do sự sản sinh liên tục CVT trong mọi ngôn ngữ, xuất hiện ngày
càng lớn CVT giống nhau, dẫn đến nhập nhằng, biến đổi ngữ nghĩa. Chẳng hạn, trang web tra cứu33 vào năm 2006 chữ CIA có 84 nghĩa khác nhau; đến nay, tìm thấy được
hơn 250 ngữ nghĩa khác cho CIA, tăng lên 3 lần.
Các phương thức biến đổi ngữ nghĩa chữ viết tắt: Dựa trên lý thuyết ngôn
ngữ về phương thức biến đổi ngữ nghĩa theo [31], ta đưa ra khái niệm phương thức
biến đổi ngữ nghĩa CVT. Đó là cách thức bổ sung nghĩa mới cho CVT không kèm
theo sự biến đổi về ngữ âm, làm cho CVT trở thành CVT nhiều nghĩa. Các phương
33 http://www.acronymfinder.com
thức chủ yếu mà các ngôn ngữ thường dùng để biến đổi ý nghĩa của CVT.
34
Hoán dụ là phương thức làm biến đổi ý nghĩa của CVT bằng cách lấy tên gọi
của sự vật, hiện tượng này để chỉ một sự vật, hiện tượng khác trên cơ sở mối quan hệ
tất yếu giữa các sự vật, hiện tượng ấy. Chẳng hạn, trong tiếng Việt, cách viết tắt một
chữ X, trong toán học thường có nghĩa là ẩn số phương trình, nhưng có khá nhiều
biến động ngữ nghĩa hoán dụ: thế hệ 6X, 7X … Ẩn dụ cũng là phương thức biến đổi
ý nghĩa của CVT bằng cách lấy tên gọi của sự vật, hiện tượng này để chỉ sự vật, hiện
tượng khác trên cơ sở của sự giống nhau về một khía cạnh nào đấy giữa hai sự vật
hay hiện tượng ấy. Chẳng hạn, trên mạng xã hội, lúc đầu các bạn trẻ xem chữ GATO
có nghĩa là “gà tồ” chỉ người ngu muội; nhưng nay có nhiều nghĩa khác: Bánh GATO:
bánh sinh nhật; GATO: “Ganh Ăn Tức Ở”.
Ngoài ra, còn có phương thức biến đổi ngữ nghĩa CVT: giữ tên gọi cũ để chỉ
những sự vật, hiện tượng hay khái niệm mới hoặc đã thay đổi. Ví dụ: Chữ viết tắt
HTX có nghĩa ban đầu là hợp tác xã (nông/công nghiệp), nay nhiều bạn trẻ hiểu và
sử dụng HTX như sự đóng góp đồng đều: “Hôm nay lớp mình liên hoan, hình thức
HTX nhé”, tức là mỗi người đều đóng góp cùng lo chi phí liên hoan.
Nguyên nhân biến đổi ý nghĩa của CVT: Nguyên nhân biến đổi ý nghĩa của
từ (sự chuyển nghĩa) thường rất phức tạp, đa dạng, trong đó các nguyên nhân có tính
xã hội đóng vai trò quan trọng. Về nguyên nhân chuyển nghĩa CVT do sự kiên kỵ:
Nguyên nhân này hiếm gặp trong CVT tiếng Việt. Nguyên nhân chuyển nghĩa CVT
do môi trường sử dụng từ, do nhu cầu giao tiếp: Đây là nguyên nhân đóng vai trò
quan trọng bởi sự bùng nổ thông tin và nhu cầu giao tiếp gia tăng hiện nay.
1.4.3. Nhập nhằng chữ viết tắt
Hiện tượng nhập nhằng của CVT sinh ra bởi các tính chất: Sự đa nghĩa, khó
tìm nghĩa đúng, hợp lý; sử dụng tùy tiện, không theo quy luật; khó xác định mục đích
trong văn bản.
1. Đa nghĩa: Đa nghĩa trong văn bản đơn ngữ, ví dụ như VH: Văn hóa, Văn
học; KCS: Kiểm tra Chất lượng Sản phẩm, “Kinh Cầu Siêu”. Đa nghĩa
trong văn bản đa ngữ, ví dụ như CN: Công nghiệp, châm ngôn (tiếng Việt);
Cartoon Network, Common Name (Tiếng Anh) [94][95].
2. Mang tính địa phương, ít phổ biến, ít quen thuộc: Cao Xà Lá : Cao su, Xà
phòng, Thuốc lá ; Phối kết hợp : Phối hợp, kết hợp.
35
3. Không theo quy luật, tùy tiện: SKZ : súng không giật/z ; XUNHASABA:
xuất nhập sách báo; Ke: Cây thước Ê-ke.
4. Sử dụng không nhất quán trong hoàn cảnh khác nhau: Ví dụ, cùng chữ
“Trung Ương” có nhiều kiểu chữ viết tắt: TW, TƯ, T.Ư.
5. Pha trộn ngôn ngữ: Ví dụ như 4U: For U; B2C: Business to Consumer,
Back to Cycles (kinh tế).
Một cách rất tự nhiên, CVT ngày càng được sáng tạo không ngừng. Trong giao
tiếp hiện đại Email, SMS, chatting, các ký hiệu khôi hài , , U (you)… sử dụng
như là cách viết tắt. CVT đã làm cho NSD ngày càng hưởng lợi, nhưng sự lạm dụng
CVT đều gây phiền phức, nhập nhằng [47][49][50].
1.4.4. Xử lý nhập nhằng chữ viết tắt
Con đường hình thành từ ngữ mới thông qua nhiều phương thức, trong đó có
phương thức viết tắt, cấu tạo nên từ ngữ mới bằng các chất liệu và quy tắc sẵn có
trong ngôn ngữ tiếng Việt. Do đó, CVT thực chất là một dạng biến đổi của từ vựng
và ngữ nghĩa, dẫn đến CVT chính nó có sự biến đổi về hình thức trong thực tế vô
cùng phong phú (về sự cấu tạo hình thành, về số lượng…). Chính CVT cũng có sự
biến đổi ngữ nghĩa ngày càng đa dạng (một CVT có nhiều nghĩa), tất yếu gây nên
nhập nhằng CVT, cần thiết phải đặt vấn đề tiếp cận xử lý CVT dưới góc nhìn của
chuyên ngành xử lý NNTN, trong đó có xử lý nhập nhằng CVT tiếng Việt.
Hiện nay, chưa có nhiều công trình nghiên cứu xử lý nhập nhằng CVT tiếng
Việt. Phần lớn các công trình chỉ dừng lại mức độ xây dựng kho ngữ liệu, chưa có
kết quả đóng góp đáng kể trong xử lý nhập nhằng CVT hay ứng dụng mặt tích cực
nhập nhằng CVT. Luận án đặt ra vấn đề xử lý nhập nhằng CVT theo hai hướng:
1. Sử dụng mặt tích cực nhập nhằng CVT, chẳng hạn như: ứng dụng xây dựng
CSDL chuyên ngành, phục vụ tìm kiếm; suy diễn nhận diện CVT.
2. Từng bước khử bỏ sự nhập nhằng CVT: Giải pháp khử nhập nhằng CVT
trong các ứng dụng CNTT thiết lập CSDL như: Mã hóa phần tử mạng trong
CSDL viễn thông, thương hiệu, nhãn hiệu...; tìm cách xác định tần số, tần
suất CVT, dựa vào tần suất cực đại CVT để khử bỏ nhập nhằng.
CVT đặt ra rất nhiều vấn đề phức tạp cần giải quyết, liên quan đến lĩnh vực xử
lý ngôn ngữ tự nhiên và xử lý dữ liệu, xử lý nhập nhằng.
36
1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt
Vấn đề XLTV đã được triển khai nghiên cứu từ năm 1990 với nhiều công trình
như [25][42][43][56]. Nghiên cứu [42] đề xuất xử lý nhập nhằng tiếng Việt và ứng
dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập, [43] xử lý nhập nhằng trong
tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; [6] đưa ra khả năng khắc phục
trong soạn thảo văn bản, nghiên cứu đề xuất giải quyết vấn đề khử nhập nhằng trong
bài toán tách từ tiếng Việt. Tuy vậy, cho đến nay vẫn có rất ít nghiên cứu về CVT
tiếng Việt. Nghiên cứu [26][29] đề cập đến hiện tượng nói tắt và viết tắt trong tiếng Việt34. Tựu trung, đến nay chưa có công trình nào nghiên cứu một cách hệ thống và
đầy đủ về CVT tiếng Việt, chưa chỉ ra được mối liên hệ dựa trên cơ sở lý thuyết ngôn
ngữ học và vấn đề CVT và nhập nhằng CVT tiếng Việt. Về nguyên nhân nói chung,
theo [9][10], do không có sự đồng thuận giữa các đơn vị nghiên cứu, nên các kết quả
nghiên cứu vẫn còn nhiều mặt hạn chế nhất định.
Trong bối cảnh chung thực trạng nghiên cứu XLTV, trên cơ sở tri thức lý
thuyết về ngôn ngữ học, ta thấy rằng NNTN, trong đó có tiếng Việt, luôn biến đổi và
phát triển không ngừng. Chữ viết tắt cũng là một hướng làm biến đổi chữ viết, có thể
được xem là cải tiến chữ viết. Phương thức viết tắt, tạo lập các CVT làm xuất hiện
các từ ngữ mới. Luận án này đặt vấn đề nghiên cứu bốn vấn đề lớn sau đây:
1. Tiếp cận vấn đề CVT tiếng Việt trên phương diện thực tế và nhu cầu sử
dụng, vấn đề ngữ nghĩa CVT dựa trên lý thuyết của ngôn ngữ học. Tìm
hiểu sự hình thành và tổng hợp các quy tắc hình thành CVT.
2. Xây dựng hệ thống khai thác CVT tiếng Việt, cung cấp cho NSD, sử dụng
CVT ngày càng thuận tiện, có tính gợi mở, tạo ra môi trường học tập và
trao đổi thông tin vấn đề liên quan đến CVT.
3. Xây dựng nguồn tài nguyên CVT tiếng Việt, phương pháp thu thập dữ liệu
và triển khai thực nghiệm.
4. Xây dựng các công cụ khai thác CVT và xử lý nhập nhằng CVT tiếng Việt
34 Tạp chí Ngôn ngữ và Đời sống, số 1+2 (87+88) năm 2003
trong văn bản và triển khai thực nghiệm.
37
1.5. TÓM TẮT CHƯƠNG 1
Chương này đã nghiên cứu tổng quan các vấn đề đặt nền móng cơ sở khoa học
cho đề tài nghiên cứu: Vấn đề ngôn ngữ học nói chung, vấn đề âm, chữ viết, ngữ
nghĩa học, sự hình thành nghĩa của từ, nhập nhằng ngữ nghĩa…
Nội dung chương này cũng đã nghiên cứu được sự biến đổi của từ vựng và sự
biến đổi của ngữ nghĩa. Sự biến đổi từ vựng đề cập đến sự biến mất và xuất hiện mới
của từ vựng và các phương thức làm biến đổi từ, trong đó có phương thức viết tắt
hình thành nên các từ ngữ mới. Sự biến đổi của ngữ nghĩa là cách thức bổ sung nghĩa
mới cho từ vựng không kèm theo sự biến đổi về ngữ âm, làm cho từ vừng trở thành
từ nhiều nghĩa.
Đây cũng chính là một trong những nguyên nhân gây nên hiện tượng nhập
nhằng ngôn ngữ học và nhập nhằng tiếng Việt, là cơ sở lý luận của ngôn ngữ học mà
quá trình nghiên cứu đã phát hiện ra. Việc tìm hiểu sự biến đổi của từ vựng và ngữ
nghĩa đặt nền móng khoa học và thực tiễn cho vấn đề tìm hiểu nghiên cứu CVT tiếng
Việt của luận án.
38
CHƯƠNG 2.
XÂY DỰNG HỆ THỐNG KHAI THÁC
CHỮ VIẾT TẮT TIẾNG VIỆT
Xuất phát từ các nghiên cứu trong chương 1 về hiện tượng CVT, vấn đề nhập
nhằng CVT tiếng Việt, phương thức viết tắt hình thành từ, ngữ mới… và cùng với việc vận dụng, mượn ý tưởng về hệ sinh thái phần mềm, chương này trình bày sự
hình thành CVT, đề xuất các quy tắc hình thành CVT, xem xét các yếu tố ảnh hướng
đến thành lập CVT. Đồng thời đề xuất xây dựng hệ thống khai thác CVT, tạo ra môi
trường khai thác có tính cộng đồng, nhiều người sử dụng cùng tham gia cập nhật, kế thừa và khai thác CVT.
2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT
2.1.1. Mô hình sự hình thành chữ viết tắt
Qua nghiên cứu thực tiễn, các tình huống hình thành CVT tiếng Việt có thể
Hình 2.1. Mô hình hình thành chữ viết tắt tiếng Việt
biểu diễn qua mô hình tập hợp:
Để đơn giản, luận án biểu diễn hình 2.1 nêu trên thành mô hình hình thành
CVT tiếng Việt dưới dạng sơ đồ khối trong hình 2.2. Theo đó, CVT tiếng Việt hình
39
thành từ các nguồn tạo sinh ra CVT, đó là 3 tập hợp con: Viết tắt tượng trưng, Viết
Từ tắt
Viết tắt trực tiếp
Viết tắt tượng trưng
tắt trực tiếp và Từ tắt.
Âm tiết
Ký tự
Đọc/Viết sáng tạo
Mã hóa tên
Hình 2.2. Mô hình sự hình thành chữ viết tắt tiếng Việt
Các từ điển
(1) Viết tắt tượng trưng: là cách viết tắt dùng các ký hiệu, ký tự ngắn gọn để
tượng trưng cho nội dung biểu đạt, được chuẩn hóa, thường dùng trong
chuyên ngành khoa học. Ví dụ: m: mét, g: gam, to: Nhiệt độ… Cách viết tắt
này vay mượn tiếng nước ngoài, thường có quy ước trong khoa học, công
thức,... có ý nghĩa tượng trưng, hàm chứa một khối lượng tri thức chuyên
môn lớn, là cách viết tắt chuẩn nghiên cứu khoa học và ứng dụng.
(2) Viết tắt trực tiếp: là cách viết tắt dùng trực tiếp khi người viết nhận thấy có
những từ, cụm từ lặp đi lặp lại. Chẳng hạn: Ng: Nguyễn, xứ Thanh: xứ
Thanh Hóa-Nghệ An-Hà Tỉnh, Jan: January,… Cách viết tắt này là khá tùy
tiện, trùng lặp và khó xác định do thói quen riêng của người viết tắt.
(3) Từ tắt hay chữ viết tắt: là cách viết tắt đa dạng phong phú và sáng tạo nhất,
người sử dụng dùng các ký tự, ký hiệu, âm tiết, biểu tượng để biểu đạt nội
dung, tạo thành từ tắt/ chữ viết tắt. Ví dụ như: HTX: Hợp tác xã.
40
(4) Mã hóa tên là sự kết hợp ký tự, âm tiết, sự viết sáng tạo để tạo nên các CVT
là bộ mã dùng trong chuyên ngành. Chẳng hạn mã danh mục CSDL, mã
chuyên ngành viễn thông.
(5) Đọc viết sáng tạo: Đây chính là đọc tắt, nói tắt, là cách viết sáng tạo (có
thể là tùy tiện, không theo quy luật). Qua quá trình sử dụng, cách đọc/viết
này có thể trở thành thông dụng. Ví dụ: Viết chữ x hay dấu nhân (trong
phép toán) biểu thị viết tắt cho chữ “người”.
Trong hình 2.2, phần giao nhau giữa các khối thể hiện việc sử dụng các “chất
liệu” cơ bản (ký tự, âm tiết, tiếng) để hình thành CVT. Các phần không giao nhau
giữa các khối thể hiện sự sáng tạo trong hình thành CVT của NSD.
Mô hình trên cũng thể hiện được từ điển chỉ lưu trữ một phần nhỏ tập các
CVT. Trong thực tế, không phải lúc nào từ điển cũng có thể cập nhật đầy đủ CVT, vì
việc hình thành CVT rất phong phú và đa dạng. Sự sáng tạo CVT của con người
không ngừng tăng lên trong cuộc sống, trong phát triển ngôn ngữ, trong nghiên cứu
và ứng dụng khoa học. Việc mô hình hóa sự hình thành CVT nhằm giúp cho NSD có
cái nhìn toàn diện, đầy đủ về nguồn gốc hình thành dữ liệu CVT.
2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt
Nghiên cứu [29] đã phân loại nói tắt và viết tắt theo nguồn gốc: Nội sinh và
ngoại nhập, chỉ ra tính “lâm thời và ổn định”, nêu lên các dạng thức của nói tắt và
viết tắt... Tuy vậy, nghiên cứu cũng nói rõ “tác giả chưa trực tiếp bàn đến vấn đề xác
lập quy tắc cấu tạo và sử dụng các dạng thức nói tắt và viết tắt từ ngữ”. Nghiên cứu
lý thuyết và thực tiễn sử dụng CVT, luận án tổng hợp vài đặc điểm hình thành CVT
để làm cơ sở xây dựng các quy tắc hình thành CVT:
1) Vấn đề CVT liên quan đến sự biến đổi chữ viết, viết tắt cũng là một hướng
làm biến đổi chữ viết có thể được xem là cải tiến chữ viết.
2) Phương thức viết tắt tạo nên từ, ngữ mới trong kho ngữ vựng; phương thức
này tạo ra số lượng CVT rất lớn và không ngừng phát triển.
41
3) Phương thức biến đổi ý nghĩa của CVT là cách thức bổ sung nghĩa mới cho
CVT không kèm theo sự biến đổi về ngữ âm, làm cho CVT trở thành CVT
nhiều nghĩa.
4) CVT hình thành ngay trong chính ngôn ngữ tiếng Việt (nội sinh), nhưng
CVT cũng hình thành bằng cách vay mượn tiếng nước ngoài (ngoại nhập);
hoặc kết hợp giữa nội sinh và ngoại nhập.
5) Vấn đề đọc các CVT: Khi đọc các CVT, có thể hình dung và khôi phục
ngay nguồn gốc CVT, chỉ đọc các tên chữ cái trong CVT mà không cần
đọc đầy đủ nguồn gốc hình thành CVT. Cách đọc này vay mượn theo cách
đọc các chữ cái tiếng nước ngoài.
6) Những yếu tố khác ảnh hưởng đến thành lập CVT: Yếu tố về số lượng ký
tự (hay độ dài CVT); yếu tố dấu thanh trong tiếng Việt; yếu tố tâm linh
người Á Đông; yếu tố âm tiết (khi đọc)...
Dựa trên các đặc điểm này, luận án đã đề xuất những quy tắc hình thành CVT
tiếng Việt, nhằm vận dụng trong việc xây dựng kho ngữ liệu về CVT.
2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt
Từ kết quả phân tích, tìm hiểu nhu cầu sử dụng CVT trong cuộc sống, luận án
đã đề xuất các quy tắc hình thành CVT.
1) Quy tắc 1: Viết tắt theo từ
Từ viết tắt thành lập bằng cách lấy lần lượt tất cả các chữ cái đầu của mỗi
tiếng độc lập có mặt trong từ cần viết tắt, sau đó ghép chúng lại thành từ viết tắt viết
hoa.
Ví dụ: ‘UBND’ = “Uỷ ban Nhân dân”; ‘CAND’ = “Công An Nhân dân”
Quy tắc này tương tự như cách thành lập thuật ngữ viết tắt thường sử dụng
trong tiếng Anh và nhiều ngôn ngữ khác. Cách viết tắt này dễ khôi phục lại nguyên
dạng cụm từ ban đầu, nên là cách viết tắt phổ biến nhất trong Tiếng Việt, được dùng
nhiều trong các văn bản pháp quy của Nhà nước, các văn bản học thuật như luận án
- luận văn, các ấn phẩm xuất bản như sách, báo, Internet… Cách thành lập này có
trường hợp dùng ký tự viết tắt của chữ và (&), dấu phân cách (/), gạch ngang (-), dấu
42
chấm (.), dấu cách, kết hợp chữ và số… để lập thành CVT, làm cho chúng dễ đọc,
dễ phân biệt, nhận biết, hữu ích đối với những CVT quá dài, quá nhiều ký tự.
2) Quy tắc 2: Ghép âm hay ghép tiếng
Chữ viết tắt thành lập bằng cách lấy lần lượt các tổ hợp phụ âm đầu cộng với
nguyên âm chính trong mỗi tiếng, hay phần âm dễ đọc, dễ nhận biết của mỗi từ trong
cụm từ cần viết tắt, sau đó ghép chúng lại thành chữ viết tắt.
Ví dụ: ‘DANA’ = “Đà Nẵng”; ‘VINA’ = “Việt Nam”; ‘HUDA’= Nhãn hiệu
bia Huế (Huế - Đan Mạch). Cách thành lập CVT này thường được dùng trong nhãn
hiệu, thương hiệu doanh nghiệp…, không nhất thiết phải viết hoa, tùy theo chủ ý trình
bày gây ấn tượng của người quảng bá nhãn hiệu, thương hiệu. Tuy vậy, trong những
văn bản chính thức, cách viết tắt này vẫn thường sử dụng chữ hoa.
3) Quy tắc 3: Ghép theo từ có nghĩa
Chữ viết tắt thành lập tương tự quy tắc 1 nhưng chỉ lấy lần lượt các chữ cái
đầu của mỗi từ có nghĩa (thường là từ kép) có mặt trong cụm từ cần viết tắt, sau đó
ghép chúng lại thành từ viết tắt viết hoa.
Ví dụ: ‘KCS’ = “Kiểm tra chất lượng sản phẩm”; ‘VTM’= “Văn hoá Thể dục
Mỹ thuật”. Cách viết tắt này cũng được sử dụng ở một số chuyên ngành. Cách viết
tắt này lược bỏ nhiều chữ cái, khó phục hồi nguyên dạng cụm từ khi đọc, nên sử dụng
không phổ biến.
4) Quy tắc 4: Sử dụng chữ cái viết phụ
Chữ viết tắt thành lập theo từ bằng cách viết tắt tương tự như quy tắc 1 (quy
tắc từ viết tắt) hoặc quy tắc 3 (ghép tắt theo từ có nghĩa) nhưng có sử dụng kèm theo
chữ cái phụ không viết hoa nhằm biểu ý.
Ví dụ: TTg = “Thủ tướng”, ‘Ng’ = “Nguyễn”. ‘Tr’ = “Trường”, ‘Cty' = Công
ty. Cũng như quy tắc 3, cách viết tắt này lược bỏ nhiều chữ cái, khó phục hồi nguyên
dạng cụm từ khi đọc, nên ít phổ biến.
5) Quy tắc 5: Kết hợp tiếng nước ngoài
Chữ viết tắt thành lập bằng cách sử dụng quy tắc thành lập như quy tắc 1, 2,
3 và 4 có kết hợp tiếng Việt với tiếng nước ngoài.
Theo cách thành lập này, có khá nhiều trường hợp CVT phối hợp ghép nối
tiếng Việt - tiếng nước ngoài (chủ yếu là tiếng Anh). Điều này chứng tỏ CVT tiếng
43
Việt chịu ảnh hưởng theo cách viết tắt của các ngôn ngữ khác, nhất là tiếng Anh. Ví
dụ: ‘DRT’ : Đà Nẵng Radio Tivi ; ‘VINACAFE’ = “Cà phê Việt Nam”...
6) Quy tắc 6: Mượn chữ viết tắt tiếng nước ngoài
Chữ viết tắt dùng trong tiếng Việt mượn nguyên chữ viết tắt tiếng nước ngoài
để sử dụng cho chữ viết tắt tiếng Việt.
Đây là cách sử dụng phổ biến trong tiếng Việt. CVT được mượn nguyên của
tiếng nước ngoài. Các lĩnh vực sử dụng nhiều nhất là thuật ngữ viết tắt Điện tử, Viễn
thông, Tin học, Y học, Kinh tế, Tài chính, Email - tin nhắn… Thuật ngữ viết tắt trong
Viễn thông [32] có hơn 3.500 thuật ngữ viết tắt mượn nguyên thuật ngữ viết tắt tiếng
nước ngoài. Phổ biến nhất là tiếng Anh, tiếng Pháp. Ví dụ: ‘AA’ = “Abreviated
Addressing” - Định vị địa chỉ viết tắt; ‘AA’ = “Absolute (acces) Address” - Địa chỉ
truy nhập tuyệt đối. Các thuật ngữ viết tắt mượn tiếng nước ngoài chuyên ngành có
đặc điểm ít được sử dụng rộng rãi trong giao tiếp, nhưng lại có phạm vi ảnh hưởng
mang tính quốc tế, sử dụng phổ biến trong chuyên ngành.
Về mặt ngữ pháp học [1][27], tiêu chuẩn xây dựng thuật ngữ là phải mang
tính chính xác, tính hệ thống, tính dân tộc và tính quốc tế. Tuy nhiên, trong thực tế,
dưới cách nhìn của người sử dụng, thuật ngữ viết tắt lại mang tính đa nghĩa. Do vậy,
thuật ngữ viết tắt vay mượn tiếng nước ngoài là một quá trình bổ sung rất tự nhiên
vào kho những CVT tiếng Việt, làm cho chúng phong phú và đa dạng hơn.
7) Quy tắc 7: Viết tắt ngẫu nhiên
Là quy tắc viết tắt tùy tiện, không theo nguyên tắc nào, nhưng ít nhiều cũng
tuân theo những quy tắc ngữ pháp tiếng Việt [1], [27], [31].
Theo quy định ngữ pháp tiếng Việt, viết tắt tùy tiện là dùng các kí hiệu viết tắt
mang tính chất cá nhân vào bài viết chính thức. Ðây là các kí hiệu bằng chữ viết Việt
Nam hay chữ viết nước ngoài, được chế biến lại, lẽ ra chỉ được dùng khi ghi chép cá
nhân, nhưng học sinh lại đưa vào bài kiểm tra, bài thi, do đó trở thành lỗi chính tả.
Ví dụ: fê fán (phê phán), ffáp (phương pháp), ndung (nội dung), ~ (những), ≠ (khác),
x vật (nhân vật), of (của), on (trên),… Tuy nhiên, những cách viết tắt tùy tiện, mang
tính sáng tạo cá nhân này lại được dùng khá phổ biến trong ghi chép bài vở, sổ tay
của nhiều người, rất hữu ích trong việc tiết kiệm thời gian, công sức ghi chép, soạn
thảo tin nhắn, email…
44
8) Quy tắc 8: Quy tắc viết tắt mã hóa
Nhiều lĩnh vực, chuyên ngành đã sử dụng CVT gợi nhớ hoặc theo một quy
luật định sẵn để mã hóa cho một cụm từ chỉ định, ví dụ: Các bảng danh mục trong
CSDL, bảng mã quốc gia, mã vùng, mã ngành, bộ mã cáp quang viễn thông.... Các
CVT mã hóa thường phải thỏa mãn:
a) CVT mã hóa thường được một tổ chức ban hành, có phạm vi áp dụng.
b) CVT mã hóa là duy nhất, không trùng lặp để tránh nhập nhằng.
c) CVT mã hóa thường dùng thêm các ký tự mới theo một quy luật.
9 ) Quy tắc 9: Quy tắc viết tắt trong CSDL
Từ nghiên cứu lý thuyết về các bài toán tìm kiếm, những kết quả thực tiễn liên
quan, để sử dụng CVT hiệu quả, luận án đề xuất nguyên tắc ứng dụng CVT lập chỉ
mục, giúp tra cứu dữ liệu trong những CSDL chuyên ngành:
a) CVT chỉ sử dụng chữ cái tiếng Anh (không dùng chữ Việt có dấu) và các
chữ số 0..9.
b) Không sử dụng các ký tự đặc biệt: các dấu ngắt câu, dấu cách (SP).
c) CVT có tính gợi nhớ, ngắn gọn, chấp nhận trùng lặp, nhập nhằng ngữ
nghĩa: Người tra cứu hình dung ngay CVT sau khi xác định yêu cầu tra cứu
tìm kiếm thông tin.
d) Thực hiện chỉ mục CSDL trên các trường CVT đã xây dựng.
Sử dụng quy tắc này, chúng tôi đã xây dựng CSDL với CVT chuẩn hóa làm
chỉ mục, phục vụ tra cứu danh bạ cho hệ thống thông tin kinh tế xã hội 1080 của
chuyên ngành viễn thông (chi tiết trong [1] phần Danh mục công trình công bố).
2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt
Tiếng Việt có những yếu tố rất riêng ảnh hưởng đến cách thành lập CVT.
Yếu tố về số lượng ký tự, dấu thanh, âm tiết
Số lượng ký tự (hay độ dài) CVT không được quá dài. Hiện nay CVT tiếng Việt
chưa tìm thấy chữ nào là dài hơn 18 ký tự. CVT quá dài sẽ gây khó khăn cho người
đọc khi tìm hiểu nguồn gốc cụm từ. Ví dụ CTTHHNHTMCPPTTPHCM tương ứng
với “Công ty Tài chính Trách nhiệm hữu hạn Một thành viên Ngân hàng Thương mại
Cổ phần Phát triển thành phố Hồ Chí Minh”.
Yếu tố dấu thanh: Người ta tránh viết tắt các ký tự có dấu thanh như Â, Ă, Ơ,
45
Ê… và hầu như không dùng các dấu huyền, sắc, hỏi ngã, nặng trong CVT để tránh
nhầm lẫn, khó đọc.
Yếu tố âm tiết (khi đọc): Chọn lựa CVT cho cho tên doanh nghiệp, công ty,
thương hiệu, nhãn hiệu hàng hoá… CVT khi đọc tạo ra âm vang và âm mở, tạo ấn
tượng dễ đọc, dễ nhớ. Người ta thường chọn âm đọc vang và mở như âm ‘A’- ‘Ô’-
‘I’, hay EX, EC, ít khi chọn âm ‘Ê’ - ‘Ơ’.
Yếu tố tâm linh người Á Đông: Đó là cách đếm ký tự của cụm từ viết tắt. Chẳng
hạn như cách đếm Sinh - lão - bệnh - Tử theo thứ tự các ký tự trong CVT. Trong cách
đặt tên viết tắt cho tên doanh nghiệp, thương hiệu, nhãn hiệu hàng hoá… Không phải
tất cả CVT đều chọn lựa số lượng ký tự trước, nhưng nhiều người cố ý chọn cho mình
một chữ trong hệ đếm “cơ số 4” này (thường là Sinh hoặc Lão) để định trước chiều
dài cho CVT. Chữ Sinh với độ dài CVT là 5, 9, 13… ký tự. Chữ Lão với độ dài CVT
là 2, 6, 14,… ký tự. Yếu tố tâm linh này có ảnh hưởng ít nhiều đến cách thành lập
CVT.
Những trường hợp không nên viết tắt: Sau đây là những trường hợp không
nên viết tắt:
a) Trong các bài thi vì thí sinh có thể bị đánh giá sai.
b) Trong giao dịch kinh doanh vì tạo cho người đọc cảm giác không được tôn
trọng, hiểu sai.
c) Trong hồ sơ bệnh án, ngoại trừ những CVT chuyên môn đã quy định, chỉ
dùng ký hiệu CVT phổ thông khi thật cần thiết, không nên viết tắt tránh
gây nhầm lẫn.
d) Trong các văn bản hành chính pháp quy, đơn từ.
e) Trong giao tiếp Email, chatting cần tránh việc lạm dụng và biến tướng CVT
tới mức làm biến dạng ngôn ngữ, gây phản cảm cho người đọc.
Quy định ngữ pháp chữ viết tắt tiếng Việt
Ngữ pháp tiếng Việt quy định: Khi tên gọi xuất hiện lần đầu trong văn bản thì
không được viết tắt, mà phải viết dạng đầy đủ và ghi chú CVT trong ngoặc đơn. Từ
lần xuất hiện thứ hai trở đi, ta mới viết tắt [1][27][31].
46
Trước khi sử dụng CVT trong văn bản nói chung, người viết phải định nghĩa
CVT. Có hai trường hợp:
1. Sử dụng CVT có sẵn: CVT đã được định nghĩa, hoặc thông dụng, nhiều người
biết, không mập mờ, phản nghĩa khi dùng; hoặc đã có quy định, chẳng hạn
như đã đăng ký nhãn hiệu, quy định bảng hay danh mục CVT … thì sử dụng
trực tiếp mà không cần định nghĩa lại.
2. Sử dụng CVT mới định nghĩa: Định nghĩa và sử dụng CVT ngay khi xuất
hiện lần đầu trong văn bản theo dạng thức:
Dấu hiệu nhận biết chữ viết tắt tiếng Việt: Từ các quy tắc thành lập, sử dụng
CVT, ta đưa ra dấu hiệu nhận biết CVT tiếng Việt trong văn bản:
1) CVT nằm trong dấu ngoặc đơn (..) ngay sau cụm từ viết đầy đủ khi CVT được
định nghĩa lần đầu.
2) CVT là chữ in hoa (có số ít trường hợp viết chữ thường).
3) CVT có thể có các ký tự hay dấu đặc biệt và (&), dấu phân cách (/), dấu gạch
ngang (-), dấu chấm (.), dấu cách, kết hợp chữ và số…
4) CVT là một từ có độ dài có thể đạt tới 15 ký tự.
5) CVT tiếng Việt không dùng các nguyên âm Â, Ă, Ơ, Ê, Ô… không dùng các
dấu thanh huyền, sắc, hỏi ngã, nặng.
Đọc các chữ viết tắt tiếng Việt: Vấn đề đọc các CVT có các trường hợp:
1) Khi đọc CVT, đọc đầy đủ cụm chữ gốc hình thành nên CVT, người đọc có thể
hình dung và khôi phục ngay nguồn gốc CVT. Trường hợp này là khá phổ
biến: MTTQ: Mặt trận tổ quốc, UBND: Uỷ ban nhân dân.
2) Đọc ghép các CVT theo kiểu phát âm tiếng Việt thông thường, tách từng nhóm
ký tự hình thành nên CVT, người nghe dễ hình dung ra nguồn gốc CVT. Ví
dụ: VINAPHONE (Vi-Na-Phôn), VINAMILK (Vi-Na-Milk).
3) Khi đọc, chỉ đọc các tên chữ cái trong CVT mà không cần đọc đầy đủ nguồn
gốc hình thành CVT. Cách đọc này vay mượn theo cách đọc các chữ cái tiếng
nước ngoài như các chữ cái La-tinh được Việt hoá cách đọc. Ví dụ như: VAC
(Vê-A-Cê), WTO (Vê đúp-Ti-Ô), ASCII (Et-xơ-ki), ISO (i-dô)...
47
Như vậy, vấn đề đọc các CVT cũng cần được quan tâm trong việc xây dựng
CSDL để sử dụng CVT được chính xác trong viết và nói.
Nhận xét chung: Toàn bộ nội dung các quy tắc thành lập trên đây đã được lần
đầu tiên công bố thảo trong Hội thảo quốc tế Ngôn ngữ học Việt Nam chủ đề “Ngôn
ngữ học Việt Nam những chặng đường phát triển và hội nhập quốc tế” tổ chức tại
ĐHSP Đà Nẵng tháng 12/2018, chi tiết trong [1] phần Danh mục công trình công bố.
So sánh với những quy tắc viết tắt đã có trong Quy định ngữ pháp chữ viết tắt tiếng
Việt được nêu trong [1][27][31], thì kết quả nghiên cứu đã công bố 9 quy tắc thành
lập CVT trên đây là tường minh, chuẩn hóa, bước đầu hệ thống hóa được quá trình
tạo sinh CVT từ thực tiễn trên cơ sở vận dụng lý thuyết ngôn ngữ học.
Kết quả công bố được xem như là gạch nối nhỏ giữa lý thuyết ngôn ngữ học
với thực tiễn sử dụng CVT và với ngành XLNNTN trong CNTT, góp phần cùng giải
quyết vấn đề CVT tiếng Việt được nhiều người quan tâm.
2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM
2.2.1. Hệ sinh thái phần mềm là gì
Hệ sinh thái phần mềm (Software Ecosystem - SECO)35 được xây dựng dựa
trên ý tưởng các hoạt động kinh doanh và các hệ sinh thái sinh học. Ví dụ: xây dựng
một bể nuôi cá trong nhà với hệ thống cây cảnh, tạo ra một hệ sinh thái sinh học.
SECO được hiểu là một tập hợp các doanh nghiệp hoạt động như một đơn vị
và tương tác với một thị trường chung cho các phần mềm và dịch vụ, cùng với mối
quan hệ giữa chúng. Những mối quan hệ thường xuyên được củng cố dựa trên nền
tảng công nghệ và hoạt động thông qua việc trao đổi thông tin, nguồn lực, vật chất.
SECO được định nghĩa là một tập hợp các phần mềm, được phát triển và hợp
tác phát triển trong cùng một môi trường. Môi trường có thể là tổ chức, công ty, xã
hội (cộng đồng hay một liên kết cộng đồng kỹ thuật nào đó) [54][96]. Hiện nay, vẫn
có ý kiến khác nhau về thuật ngữ "hệ sinh thái". Có ý kiến này cho rằng phần mềm
35 Theo https://en.wikipedia.org/wiki/Software_ecosystem
không có gì chung với một hệ sinh thái tự nhiên. Tuy nhiên, cộng đồng doanh nghiệp
48
phần mềm vẫn có xu hướng xây dựng một SECO. Lý do là: doanh nghiệp xem xây
dựng SECO thành công cũng là một cách xây dựng doanh nghiệp phần mềm phát
triển bền vững. Ví dụ về các SECO: iPhone, Microsoft, Google, Android, Symbian
[64]… Ở Việt Nam, nhiều Tập đoàn viễn thông, doanh nghiệp CNTT xây dựng dịch
vụ dưới dạng SECO: VNPT xây dựng vnEdu - Hệ sinh thái giáo dục, VNPT-HIS -
hệ sinh thái ngành Y tế. Trong [64] và [57], hệ sinh thái của Microsoft được mô tả
bao gồm các thành phần: Nhà sản xuất thiết bị, nhà sản xuất phần mềm, nhà cung cấp
(ISV), nhà bán lại dịch vụ (VAR), hệ thống tích hợp giá trị gia tăng (SI), người sử
dụng đầu cuối như được hiển thị trong hình 2.3.
NSD đầu cuối (End Users)
Đại lý bán lại dịch vụ
Kênh tích hợp giá trị gia tăng
Hệ sinh thái Phần mềm MICROSOFT
Nhà Sản xuất thiết bị
Nhà sản xuất phần mềm độc lập
Hình 2.3. Ví dụ Hệ sinh thái phần mềm Microsoft
2.2.2. Mô hình hóa hệ sinh thái phần mềm
Nghiên cứu [64][65] đã mô hình hóa SECO bằng I*, UML hoặc Petri nets
tương ứng để biểu thị biểu đồ UML. Hình 2.4 mô hình hóa sơ đồ SECO. Các nghiên
cứu trên cũng chỉ ra đặc trưng, lợi ích và thách thức của SECO: xây dựng các hệ
SECO là con đường đúng đắn, phù hợp với xu hướng chung và là sự đảm bảo sự tồn
tại của doanh nghiệp phần mềm trong môi trường sự cạnh tranh khốc liệt và đòi hỏi
sự sáng tạo, hợp tác để cùng tồn tại và phát triển.
Khai thác lợi ích
49
Người sử dụng
Sử dụng
Nhà CC hạ tầng, tài nguyên…
Nhà CC phần mềm/dịch vụ
Cung cấp tài nguyên
Quản lý/Chính sách/ Tiêu chuẩn/ Hỗ trợ
Sản xuất phần mềm
Đơn vị phát triển phần mềm
Nhà nước, chuẩn hóa, cơ quan chứng nhận, chuyên gia
Hình 2.4. Sử dụng UML mô hình hóa sơ đồ hệ sinh thái phần mềm
Trong đó, 5 tác nhân (actor) quyết định của SECO:
(1) Nhà cung cấp, đơn vị phát triển phần mềm (Software developers);
(2) Chính phủ, Nhà nước, các quy định tiêu chuẩn, chứng nhận kiểm định, các
chuyên gia đầu ngành (State, standards and certifications bodies);
(3) Nhà cung cấp dịch vụ tài nguyên (Nature): tài nguyên, không gian lưu trữ,
đường truyền, bảo mật hệ thống;
(4) Người sử dụng (Software users): người mua, đặt hàng/thuê sử dụng phần
mềm (Software As A Service - SaaS);
(5) Nhà cung cấp/Doanh nghiệp (Software vendor): là đối tác khai thác dịch
vụ thông qua hệ thống phần mềm, cùng cấp cho NSD dịch vụ đầu cuối;
Mô hình UML về SECO với 5 tác nhân nêu trên là một tập hợp các hệ thống
phần mềm, được hợp tác phát triển, có mối liên quan mật thiết lẫn nhau trong cùng
50
một môi trường vì lợi ích chung và riêng của hệ thống phần mềm đem lại cho mỗi
một tác nhân. Môi trường có thể tổ chức, công ty, xã hội, hay một liên kết cộng đồng
kỹ thuật nào đó.
2.2.3. Đặc điểm một hệ sinh thái phần mềm
Để xây dựng một hệ thống phần mềm, từ khi hình thành ý tưởng về sản phẩm
của mình, cần đặt vấn đề xây dựng SECO ngay từ đầu. Các nhà nghiên cứu đã phân
tích một số vấn đề liên quan đặc điểm SECO theo [64][65][54][57]:
Khi xây dựng một hệ thống phần mềm, người phát triển phần mềm nên xem
xét, phân tích kỹ mục tiêu, nhiệm vụ đặt trong mối quan 5 tác nhân; từ đó lựa chọn
thiết kế phần mềm dưới dạng “một sản phẩm” hay là “sản phẩm lõi + hệ sinh thái”.
Nói đến SECO, người phát triển phần mềm cần chú ý đến tính cộng sinh (sống
nhờ) phối ghép với hệ sinh thái khác, chẳng hạn như tận dụng Facebook, Yahoo,
Google… thay vì mình tự làm lấy toàn bộ hệ sinh thái của mình. Triển khai lập trình
giao diện ứng dụng API (Application Programming Interface) hay cơ chế plugin cho
sản phẩm/dịch vụ của mình. Từng bước tối ưu API, phát triển các dịch vụ bổ sung,
từ API - cơ chế plugin sản phẩm của mình.
Ngoài ra, để tạo cộng đồng tham gia, cần có cơ chế khuyến khích các lập trình
viên cùng tham gia vào hệ sinh thái của mình, đảm bảo hệ thống không bị “chết” vì
quá tải hay chậm chạp bởi chính tính cộng sinh hệ sinh thái của nó. Người phát triển
phần mềm cũng cần xem xét các yếu tố ảnh hưởng khác: nhân lực, kỹ thuật, công
nghệ, tiềm lực tài chính, thời gian sản phầm đưa ra thị trường. Nghiên cứu [64][65]
[54] và [57] tổng hợp, tóm tắt các đặc điểm của SECO như sau:
1. Tính kế thừa: Giống như đặc điểm của tự nhiên hệ sinh thái như hỗ sinh,
cộng sinh, hợp tác phát triển, kế thừa, phối ghép với các SECO khác.
2. Tính ổn định: Hệ sinh thái có kiến trúc ổn định: giao diện, quản lý phát
triển-tiến hóa, an ninh và độ tin cậy.
3. Tính mở: Đây là một mô hình phát triển mã nguồn mở, cộng đồng CNTT
cùng tham gia, có thể được sử dụng để đàm phán yêu cầu cho việc sắp xếp
nhu cầu với các giải pháp, các thành phần, danh mục đầu tư phát triển, tạo
khả năng cho quá trình đổi mới công nghệ.
51
2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm
Hiện nay, các SECO được ứng dụng và đem lại lợi ích khá lớn cho các tác
nhân: Thúc đẩy sự thành công của dòng sản phẩm phần mềm “đồng tiến hóa”, cùng
hưởng lợi ích với sự phát triển hệ sinh thái. Tạo lực hút cho nhân lực và cộng đồng
CNTT cùng tham gia phát triển, xây dựng và mở rộng. Giảm chi phí liên quan đến
việc phát triển, phân phối, bảo trì, bảo dưỡng hệ thống. Huy động chia xẻ kiến thức
hỗ trợ phân tích và hiểu được kiến trúc hệ thống phần mềm. Cho phép phân tích tốt
hơn, nắm bắt các yêu cầu phát triển và tăng cường trao đổi, kết nối giữa các tác nhân
liên quan. Cùng trợ giúp lẫn nhau để vượt qua những thách thức trong quá trình thiết
kế và bảo trì các ứng dụng phân tán. Cung cấp trợ giúp cho việc định hướng kinh
doanh, phát triển sản phầm thiết kế kiến trúc sản phẩm và xác định, phòng ngừa rủi
ro. Cung cấp thông tin cho người quản lý dòng sản phẩm liên quan, tạo tiềm năng
khai thác và cung cấp sản phẩm cho tập khách hàng.
Tuy nhiên, các SECO cũng có những thách thức, rủi ro về mặt ứng dụng [57].
Một SECO chậm chạp trong việc thay đổi công nghệ, cũ kỹ, rườm rà; không thích
nghi trước sự thay đổi của thị trường và thiếu khả năng liên kết dễ dàng giữa các tác
nhân; không hội đủ các tính chất đặc trưng: kế thừa, ổn định và tính mở sẽ đứng trước
nguy cơ rủi ro khi các tác nhân quay lưng do lợi ích của họ suy giảm.
2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES)
2.3.1. Hệ thống khai thác phần mềm
Xuất phát từ ý tưởng về hệ sinh thái phần mềm, luận án nghiên cứu, đặt vấn
đề xây dựng Hệ thống khai thác phần mềm - hướng phát triển như hệ sinh thái khai
thác CVT, hướng đến một ứng dụng phần mềm vừa có ổn định, vừa có tính mở, vừa
có tính kế thừa nhiều hệ thống khác để cùng phát triển.
Cụ thể là, xây dựng kho ngữ liệu CVT tận dụng nguồn dữ liệu trên Internet để
tập hợp, tìm kiếm CVT mới và nghiên cứu đánh giá tần số, tần suất xuất hiện CVT
sử dụng nguồn dữ liệu của hệ thống Yahoo.com, tức là cộng sinh trên đó để đề xuất
cách thống kê dữ liệu sử dụng CVT nhằm cung cấp một góc nhìn và cách đánh giá
CVT sử dụng trên Internet…
Luận án đặt ra mục tiêu là xây dựng hệ thống khai thác CVT như là một hệ
sinh thái CVT, nhằm tạo ra môi trường để NSD có thể khai thác, sử dụng, cập nhật
52
dữ liệu và đóng góp ý tưởng. Thông qua môi trường ngày, hệ thống khai thác CVT
sẽ có được tính kế thừa và phát triển.
2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt
Hệ thống khai thác chữ viết tắt là tập hợp thông tin nghiên cứu, sản phẩm phần
mềm cập nhật, xử lý, hiệu chỉnh, hình thành, khai thác và ứng dụng về CVT tiếng
Việt nhằm thực hiện trao đổi thông tin, dữ liệu với các hệ thống thông tin; đồng thời
thực hiện cung cấp và trao đổi với NSD thông qua một phương thức thống nhất trên
nền tảng web tại bất kỳ thời điểm nào và từ bất kỳ đâu.
Mô hình hệ thống khai thác CVT, viết tắt là AMES (Abbreviations
Management Exploit System). Cụ thể như hình 2.5
Trong mô hình này:
1. CSDL CVT: CSDL chứa các CVT được xây dựng trong chương 3 [9].
2. CSDL Luật sinh: CSDL chứa các Luật sinh (luật sản xuất) [39] mô
phỏng sự suy diễn tri thức CVT, tạo lập môi trường khai thác CVT được
xây dựng, có bổ sung và chỉnh sửa theo sự phát triển tự nhiên của ngôn
ngữ, trong đó có sự hình thành CVT.
3. CSDL khai thác: Tập hợp các loại văn bản mẫu có thể có để thử nghiệm
trong mô hình máy suy diễn, đó có thể là các tập Copus [23] có sẵn đã
được các nhà nghiên cứu xây dựng.
4. Chuyên gia, người tư vấn, người quản trị, người sử dụng: là các tác
nhân được nêu như trong mô hình UML của hệ sinh thái phần mềm.
53
Hình 2.5. Mô hình hệ thống khai thác chữ viết tắt tiếng Việt
2.3.3. Mô hình hệ thống khai thác chữ viết tắt
Sử dụng UML mô hình hóa (hình 2.6) minh họa những thành phần, công cụ
chi tiết để có cái nhìn tổng thể về xây dựng một hệ thống khai thác cần hướng đến, 5
tác nhân cụ thể:
(1) Tác nhân Phát triển phần mềm (Software developer): Đó là đơn vị phát triển
phần mềm, xây dựng, lập trình, tạo công cụ khai thác, cung cấp giao diện
kết nối.
(2) Tác nhân Chuẩn hóa (State, standards and certifications bodies): Là nhà
nghiên cứu ngôn ngữ học, XLNNTN, XLTV, chuyên gia tư vấn, những quy
định, quy tắc ngữ pháp tiếng Việt, phương pháp, thuật toán.
(3) Tác nhân Tài nguyên (Nature): Là nhà cung cấp hạ tầng tài nguyên, đường
truyền, không gian lưu trữ, đường truyền, kết nối Internet.
(4) Tác nhân Người sử dụng (Software users): Người sử dụng, người mua, đặt
hàng/thuê phần mềm.
54
(5) Tác nhân Đối tác sử dụng phần mềm (Software vendor): Đó là nhà cung cấp
dịch vụ hợp tác sử dụng hệ thống phần mềm, cung cấp cho NSD dịch vụ đầu
cuối, hai bên cùng chia sẻ lợi ích kinh tế và các lợi ích khác.
Hình 2.6. Mô hình UML hệ thống khai thác chữ viết tắt tiếng Việt
Với mô hình trên, triển khai từng bước và đề xuất cộng đồng cùng hợp tác tiếp
tục phát triển các công cụ chỉ mục, tra cứu, tìm kiếm, cập nhật; hình thành, trích rút,
tách CVT; phân tích, chuyển đổi, khử nhập nhằng, ứng dụng CVT trong xử lý văn
bản, suy đoán CVT, xử lý văn bản có CVT... Trong đó, chú trọng việc trao đổi thông
tin, dữ liệu, kết quả nghiên cứu, xử lý CVT tiếng Việt.
2.4. THỰC NGHIỆM XÂY DỰNG AMES
Trên cơ sở nghiên cứu đã thực hiện các chương 1, luận án triển khai thực
nghiệm xây dựng nguồn dữ liệu, công cụ phần mềm, từng bước hình thành nên
AMES.
55
2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt
Xây dựng kho ngữ liệu CVT tiếng Việt, bao gồm phân tích thiết kế CSDL,
triển khai cài đặt để thu thập dữ liệu CVT thủ công, tự động từ môi trường Internet.
Đề xuất giải pháp và xây dựng thuật toán cập nhật tự động CVT mới từ môi
trường Internet, tiếp tục cập nhật dữ liệu theo kịp sự biến động, tạo sinh mới CVT
trong thực tiễn.
Thực hiện biên tập dữ liệu, chuyên ngữ dữ liệu CVT tiếng Việt thông dụng
sang tiếng Anh, lưu trữ và công bố dữ liệu CVT.
2.4.2. Xây dựng công cụ khai thác chữ viết tắt
Triển khai thực nghiệm xây dựng công cụ khai thác CVT, bao gồm:
Xây dựng các công cụ ứng dụng CVT vào chỉ mục tìm kiếm, khai thác CSDL
chuyên ngành, ứng dụng CVT vào bộ mã chuyên ngành, đề xuất bộ mã danh mục
quốc gia.
Xây dựng thư viện CVT cung cấp cho NSD. Xây dựng công cụ tư vấn đặt
CVT thương hiệu (brandname) cho doanh nghiệp.
Xây dựng từ điển tra cứu trực tiếp chữ viết tắt trên máy di động, thực hiện
đồng bộ dữ liệu giữa website thư viện CVT và từ điển CVT trên máy di động.
Các kết quả xây dựng công cụ khai thác CVT sẽ từng bước minh họa thực
nghiệm xây dựng hệ thống khai thác chữ viết tắt AMES.
2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt
Luận án tiếp cận các hướng xử lý nhập nhằng CVT tiếng Việt:
Hướng thứ nhất, xử lý nhập nhằng CVT thực nghiệm văn bản trong lĩnh vực
chuyên ngành viễn thông: xây dựng vị từ và hàm nhận diện CVT trong văn bản; đề
xuất xây dựng cơ sở luật, thuật toán nhận diện và xử lý nhập nhằng CVT.
Hướng tiếp cận khác để xử lý nhập nhằng là đề xuất dựa vào phương pháp
thống kê chỉ số tần suất xuất hiện CVT. Chỉ số tần suất xuất hiện CVT cũng là cơ sở
cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa và nhận diện CVT.
56
2.5. TÓM TẮT CHƯƠNG 2
Chương này đã nghiên cứu đề xuất được 9 quy tắc hình thành, 6 đặc điểm hình
thành CVT và chỉ ra những yếu tố ảnh hưởng đến hình thành CVT tiếng Việt.
Đây là cơ sở cho việc xác định các quy tắc cấu tạo và sử dụng CVT tiếng Việt
mà từ trước đến nay chưa được các nhà khoa học nghiên cứu và tổng hợp đầy đủ.
Đồng thời kết quả này cũng cho thấy được CVT tiếng Việt được hình thành ngay
trong chính ngôn ngữ tiếng Việt (nội sinh), cũng được hình thành bằng cách vay
mượn từ tiếng nước ngoài (ngoại nhập), hoặc hình thành bằng cách kết hợp giữa nội
sinh và ngoại nhập.
Các nghiên cứu trên còn cho thấy sự biến động và phát triển của CVT tiếng
Việt là rất lớn, cần thiết phải xây dựng kho ngữ liệu CVT tiếng Việt.
Chương này đã đề xuất xây dựng được môi trường AMES nhằm khai thác
CVT. Trong các chương tiếp theo sẽ trình bày kết quả thực nghiệm và những đóng
góp cho môi trường AMES.
57
CHƯƠNG 3.
XÂY DỰNG NGUỒN TÀI NGUYÊN
CHỮ VIẾT TẮT
Trong chương này sẽ trình bày về xây dựng cơ sở dữ liệu CVT, các giải pháp thu
thập dữ liệu từ nhiều nguồn dữ liệu khác nhau, đề xuất và triển khai thuật toán tìm
kiếm CVT trên Internet.
Từ CSDL thu thập được, chương này tiếp tục trình bày đề xuất một số ứng dụng
th thực nghiệm trong ngành Viễn thông, CNTT.
3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT
Cở sở dữ liệu CVT tiếng Việt gồm các mục từ là các chữ viết tắt, gọi tắt là mục
từ viết tắt (MTVT). Mỗi MTVT bao gồm cách phát âm, nghĩa tiêu biểu tiếng Anh,
nghĩa tiếng Việt, lĩnh vực chuyên môn, một số ví dụ sử dụng, nguồn gốc, xuất xứ
CVT, chỉ dẫn sử dụng liên quan (nếu có). Các MTVT có thể có nhiều nghĩa khác
nhau tùy theo lĩnh vực sử dụng. Luận án tiến hành phân lớp, phân loại CVT theo lĩnh
vực sử dụng.
3.1.1. Mô hình quan hệ dữ liệu
Ứng dụng lý thuyết cơ sở dữ liệu [20] để xây dựng CSDL chính với các thông
tin chi tiết:
Cở sở dữ liệu CVT chứa thông tin về CVT gồm thông tin số thứ tự của CVT,
CVT, phiên âm (để có thể đọc được dễ dàng). Thực thể PhanLop dùng phân lớp theo
loại hình, lĩnh vực gồm thông tin mã lớp, tên phân lớp; NguonCVT gồm các thông tin
nguồn gốc cập nhật CVT, ngày cập nhật của người cập nhật trực tuyến hay địa chỉ
trang web; NgonNgu gồm các thông tin ngôn ngữ CVT là tiếng Việt, tiếng Anh, hay
mở rộng ra ngôn ngữ khác; HinhThuc gồm các thông tin hình thức hình thành, tạo
sinh CVT theo nhưng quy tắc nào, có thể giúp thống kê, đánh giá tần số, tần suất xuất
hiện hay dùng cho việc phân loại, xử lý dữ liệu CVT. Ngoài ra, còn có bảng dữ liệu
trung gian được xây dựng để phục vụ cho việc cập nhật dữ liệu, làm giàu kho dữ liệu.
Mô hình quan hệ dữ liệu được biểu diễn bằng lược đồ quan hệ hình 3.1. dưới đây:
58
NguonCVT
PhanLop
Nguon_ID MaCN HoTen DiaChi ......
n-1
NgonNgu
MaLop TenLop ...
MaNN TenNN ...
CVT
1-n
n-1
CVT_ID CVT PhienAm MaLop MaCN MaNN MaHT
HinhThuc
1-n
MaHT Nghia Vidu …
Hình 3.1: Mô hình quan hệ dữ liệu kho ngữ liệu CVT tiếng Việt.
Ví dụ như mục từ viết tắt KCS có mã ngôn ngữ (01) là tiếng Việt, có 2 nghĩa
tiếng Việt: nghĩa “Kiểm tra Chất lượng Sản phẩm” (phân lớp lĩnh vực sản xuất,
thương mại), nghĩa “Kinh cầu siêu” (phân lớp lĩnh vực tôn giáo). Trong tiếng Anh
(mã 02), mục từ viết tắt KCS có hơn 20 nghĩa khác nhau, chẳng hạn như: nghĩa
“Knowledge-Centered Support” trong lĩnh vực khoa học công nghệ, nghĩa “King's
Cross Station (London, UK)” trong lĩnh vực văn hóa36… Các bảng dữ liệu CVT tiếng
36 KCS tra cứu trên www.chuviettat.com/cvts/search/ và www.acronymfinder.com/Slang/KCS.html
Việt, tiếng Anh chi tiết được trình bày trong trong phần phụ lục 2.
59
3.1.2. Triển khai cài đặt
Để thống nhất với cách lựa chọn công cụ xây dựng CSDL là MySQL và PHP
nhằm xây dựng các ứng dụng phù hợp với công nghệ, thiết bị và các ứng dụng hiện
có, ta xây dựng mô hình CSDL theo cách tổ chức dữ liệu MySQL với sự trợ giúp của
phần mềm SQLyog và Navicat premium. Trên cơ sở mô hình logic dữ liệu và các
bảng thuộc tính, ta xây dựng cơ sở dữ liệu cho CVT tiếng Việt bằng MySQL có tên
là dulieucvt gồm các bảng: cvts (dữ liệu CVT), phanlop (còn gọi lĩnh vực hay phân
lớp CVT), nguoncncvt (nguồn cập nhật CVT), ngonngu (ngôn ngữ CVT) có quan
hệ với nhau như hình 3.2:
Hình 3.2. Quan hệ giữa các CSDL chữ viết tắt.
Bảng CVTs chứa thông tin về CVT gồm trường số thứ tự của CVT, trường
CVT, trường PhienAm (phiên âm) để có thể đọc được dễ dàng. Trường MaLop (mã
lớp) và trường MaCN (mã cập nhật) là hai khoá ngoài liên kết với hai bảng
phanlopcvt và nguoncncvt tương ứng... Bảng CVTs chứa tất cả CVT có được để
khai thác và tiếp tục cập nhật.Bảng phanlopcvt liệt kê các lớp CVT gồm MaLop (mã
lớp) và TenLop (tên lớp). Bảng nguoncncvt chứa các trường mã cập nhật, họ tên, e-
60
mail, mật khẩu... ngày cập nhật của người cập nhật trực tuyến CVT và nguồn cập nhật
hay địa chỉ trang web.
Ngoài ra, con có các bảng dữ liệu trung gian được xây dựng để phục vụ cho việc
cập nhật dữ liệu, làm giàu kho dữ liệu.Bảng thuthapviet phục vụ cho việc cập nhật
trực tuyến, làm giàu kho dữ liệu CVT tiếng Việt của NSD trên mạng Internet. Bảng
bao gồm các trường tương tự như bảng cvtviet (phụ lục 2). Bảng tttdviet phục vụ
cho việc cập nhật tự động làm giàu kho dữ liệu CVT tiếng Việt trên Internet hoặc từ
các tập tin văn bản. Bảng gồm các trường: cvt (chữ viết tắt), Cau (câu hay cụm từ
đầy đủ của CVT), Doan (đoạn văn bản chứa câu hay cụm từ viết tắt), NguonURL,
GhiChu (nguồn gốc CVT, website hay tập tin...), Ngay (ngày thu thập được CVT),
MaCN (mã cập nhật của người biên tập) - khoá ngoài liên kết với bảng nguoncncvt
(phụ lục 2).
Để đảm bảo an toàn dữ liệu, tính chính xác của thuật ngữ viết tắt, dữ liệu lưu ở
các bảng trung gian được biên tập lại sau đó mới đưa vào sử dụng chính thức trong
bảng cvts. Kết quả xây dựng, cài đặt CSDL như hình 3.2.
3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT
3.2.1. Thu thập dữ liệu thủ công
Giải pháp cập nhật thủ công thường được sử dụng để cập nhật dữ liệu khi xây
dựng bất kỳ một hệ thống CSDL nào. Nguồn dữ liệu được thu thập từ các nguồn khác
nhau như sách, từ điển, báo, tạp chí, văn bản pháp quy, báo cáo khoa học, hay từ
thực tiễn cuộc sống…Có chú ý lưu lại nguồn tham khảo CVT, người cập nhập, người
biên tập dữ liệu. Phương pháp thực hiện:
Trước đây, sử dụng hệ soạn thảo văn bản Winword để tiến hành cập nhật và
kiểm tra thủ công nội dung hệ thống CVT theo từng lĩnh vực sử dụng khác nhau. Các
CSDL của CVT trong Winword được xây dựng trước khi cập nhật có cấu trúc dạng
mẫu văn bản (document template) đã được phát triển ở Khoa CNTT, Đại học Đà
Nẵng [44][45]. Từ các CSDL văn bản Winword, tiếp tục chuyển đổi qua dạng XML
hoặc dạng CSDL khai thác sử dụng bằng MySQL.
61
Do số lượng CVT lớn, phân ra nhiều lĩnh vực khác nhau, để từng bước làm đầy
kho ngữ liệu CVT, đối với những CVT phát sinh trong thực tiễn, hiện nay ta sử dụng
cách cập nhật trực tuyến thủ công bởi hệ thống website hoàn chỉnh, thực hiện quản
trị và biên tập cập nhật, tiến đến cung cấp cho NSD cập nhật trực tuyến. Cách thu
thập thông tin trực tuyến là cách huy động nguồn lực và trí tuệ tập thể nhiều người để
làm giàu kho dữ liệu.
3.2.2. Thu thập dữ liệu tự động
Từ kết quả cập nhật thủ công, trực tuyến nêu trên, tiếp tục làm giàu CSDL của
CVT một cách tự động từ môi trường Internet hoặc các tập tin dữ liệu đã có. Đây là
giải pháp cập nhật tự động dữ liệu. Giải pháp cập nhật tự động giới hạn trong việc
tìm kiếm những CVT mới tiếng Việt.
Nguồn dữ liệu được thu thập từ các website trên mạng Internet, các tập tin dữ
liệu dạng *. HTM, tập tin dữ liệu văn bản phổ biến như *.DOC. Có lưu lại nguồn
tham khảo, trích dẫn CVT, người cập nhập, người biên tập dữ liệu.
Phương pháp thực hiện: Dựa vào các dấu hiệu nhận biết CVT trong một văn
bản, trích lọc ra các CVT mới để bổ sung vào CSDL. Hai phương pháp đề xuất:
1) Cập nhật CVT mới từ tập tin văn bản DOC
Dữ liệu văn bản hiện nay được soạn thảo và lưu giữ rất phổ biến bởi phần mềm
Winword. Việc thu thập CVT mới từ các văn bản word là khả thi. Có thể thực hiện
giải pháp thu thập các CVT mới từ trong các tập tin văn bản *.DOC. Thay vì phải tìm
từng cụm từ viết tắt, phương pháp đề xuất là “bán tự động”, dựa vào Macro và lập
trình VBA để thực nghiệm. Bằng cách mở tập tin Word, thực hiện một Marcro chọn
lọc các cụm từ trong cặp dấu ngoặc đơn (...), đưa về một bảng, từ đó tiếp tục biên tập,
chuyển đổi thành dữ liệu CVT chính thức. Macro này sẽ thực hiện các bước theo
thuật toán đã chỉ định như mục 1, phần phụ lục 3).
2) Cập nhật CVT mới tự động từ Internet
Luận án nghiên cứu, phát triển máy tìm kiếm CVT dựa vào công cụ máy tìm
kiếm đã được giới thiệu nguyên lý trong [11]. Ý tưởng hoạt động như sau: máy tìm
kiếm CVT nhận một danh sách URL, gửi yêu cầu đến Web Server và nhận lại một
62
trang HTML tương ứng với mỗi URL (tương tự chức năng View Source trong trình
duyệt Internet Explorer).
Bước tiếp theo, chương trình sẽ phân tích nội dung tập tin dạng HTML. Vận
dụng các hàm chức năng của các ngôn ngữ lập trình có hỗ trợ ứng dụng biểu thức
chính quy (Regular Expressions) để loại bỏ các thẻ HTML và các thẻ khác, chuyển
tập tin về dạng đơn giản hơn. Tiếp theo là xử lý tập tin theo kiểu xử lý chuỗi để bóc
tách nội dung văn bản cần tìm, lọc ra CVT mới để lưu vào CSDL, so sánh với CVT
trong CSDL để lưu giữ hoặc không, hoặc có những đánh giá cần thiết khác. Thuật
toán mô tả hoạt động của máy tìm kiếm CVT trong môi trường Internet như sau:
Mô tả thuật toán tìm kiếm CVT mới: Thuật toán sẽ thực hiện 4 vòng lặp:
(1) Vòng lặp thứ nhất mở tập tin trong danh sách liên kết tìm thấy của URL.
(2) Với mỗi tập tin được mở, vòng lặp thứ 2 đọc từng đoạn văn bản. Nếu nhận
thấy đoạn văn bản nào có dấu hiệu CVT nằm trong cặp dấu (...) thì thực hiện
vòng lặp thứ 3 đọc từng câu trong đoạn.
(3) Với mỗi câu được đọc, nếu nhận thấy câu văn bản nào có dấu hiệu CVT
nằm trong cặp dấu (...) thì thực hiện vòng lặp thứ 4 xét chọn lấy các cụm từ
nằm trong (...).
(4) Với mỗi một cụm từ được chọn (...), dùng các dấu hiệu nhận biết CVT để
loại bỏ các cụm từ không là CVT để trích chọn ra CVT. Từ đó trích chọn ra
nghĩa của CVT là gì, trích chọn ra câu hay đoạn chứa CVT, so sánh CVT tìm
được với dữ liệu đã biên tập, chưa biên tập. Lưu vào CSDL và in ra màn hình
kết quả tìm kiếm CVT.
Sau đó biên tập và lưu chính thức vào kho ngữ liệu CVT.
3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới
Ý tưởng thuật toán: Máy tìm kiếm CVT nhận một URL, gửi yêu cầu đến Web
Server, nhận lại một trang HTML tương ứng với mỗi URL; xử lý tập tin theo kiểu xử
lý chuỗi để bóc tách nội dung văn bản cần tìm, lọc ra CVT mới, so sánh với CVT
trong CSDL để lưu hoặc không, hoặc có những đánh giá cần thiết khác, thuật toán
đặt tên là SENVA - máy tìm kiếm chữ viết tắt tiếng Việt mới (Search Engines for
New Vietnamese Abbreviations).
63
Thuật toán: SENVA
Input: Địa chỉ URL Output: Dữ liệu CVT nhận được bảng TTTDVIET Begin
Kết nối và mở các CSDL làm việc trung gian Xác định URL làm việc Xác định DanhSach các liên kết trên URL để tìm kiếm CVT Khởi động bộ đếm CVT, các biến đánh giá CVT Repeat
Open một tệp HTML/PHP trong DanhSach
Read nội dung tệpHTML và xử lý bóc tách:
Repeat
Read từng đoạn trong tệp gán vào biến Doan
If
Xoá bỏ khoảng trắng đầu cuối
Xoá bỏ các thẻ HTML, PHP
Bóc tách dữ liệu
Trích các câu trong Doan gán vào biến MotCau
Repeat
If
- Trích ra được CVT, trích chọn nghĩa của CVT
- Trích chọn câu chứa CVT, So sánh với CSDL đã biên tập,
If
Trích CVT nằm trong (...) gán cho TuDuocChon
Repeat
chưa biên tập
- Lưu vào CSDL trung gian, cập nhật bộ đếm - In ra màn hình tham khảo
endif
Until
Endif
Until
Endif
Until
Until
End
64
Đánh giá thuật toán SENVA
Thuật toán xử lý nội dung tập tin dưới dạng chuỗi, ký tự; sử dụng bốn vòng lặp
lồng nhau có các điều kiện kết thúc lần lượt là: khi không còn một cụm từ được trích
chọn trong một câu (danh sách câu là hữu hạn), khi không còn một câu trong một
đoạn (danh sách đoạn là hữu hạn), khi không còn đoạn văn bản trong tệp và khi
không còn tệp trong danh sách hữu hạn các tệp đảm bảo tính kết thúc giải thuật.
Đánh giá độ phức tạp thuật toán: Do sử dụng bốn vòng lặp lồng nhau, độ phức
tạp của thuật toán là O(n4). Tuy nhiên, vòng lặp trong cùng (thứ 4) có chứa lệnh so
sánh CVT tìm được với CSDL đã có, tương ứng như một vòng lặp duyệt các mẩu tin
trong CSDL, sẽ làm tăng độ phức tạp giải thuật thành O(n5); cần cải tiến thuật giải
theo hướng loại bỏ sự so sánh trực tiếp mỗi CVT tìm được với CSDL đã có.
3.2.4. Thực nghiệm cài đặt thuật toán SENVA
Chương trình cài đặt bởi các mã lệnh PHP, các thẻ HTML trong trang web
thuthapv5.php với mã nguồn chi tiết trên website [74]. Ở đây luận án chỉ trình bày
những thủ tục chính trong phần phụ lục 3, và sử dụng chú thích bởi dấu // trước hoặc
sau dòng lệnh. Chương trình cài đặt sử dụng các biểu thức chính quy và các hàm PHP
để xử lý chuỗi. Ví dụ: $btcqdaungoac="/[^\(]+[\)$]/" là biểu thức chính
quy chọn chuỗi nằm trong cặp dấu ngoặc. Hàm:
preg_match_all($btcqdaungoac,$xetcau,$Upwords)
trích chuỗi trong dấu ngoặc từ câu hiện hành đang xét là lưu vào biến mảng hai chiều
$Upwords.
Thực hiện chương trình
Upload chương trình lên máy chủ: http://10.59.0.14. Đây là server ảo hóa trong
mạng điều hành sản xuất kinh doanh của VNPT Đà Nẵng. Tệp mã nguồn chương
trình chính lưu trữ trên C:\inetpub\wwwroot\thuthapCVT.php. Chương trình có thể
thực hiện tìm CVT mới tự động trên một website bất kỳ bằng cách: Kết nối Internet,
khởi động Internet Explorer (IE)/ Google Chrome. Sau đó: Gõ lệnh thực thi máy tìm
kiếm trên thanh Address theo dạng thức:
http://
65
Kết quả sẽ được nhận được là danh sách liên kết được duyệt trên trang chủ. Phần
sau là các CVT tìm thấy được được đánh số thứ tự, mỗi CVT có trích chọn nghĩa
CVT, đánh giá trùng lặp dữ liệu hay không và hiển thị câu, đoạn có chứa CVT - xem
như ngữ cảnh sử dụng CVT, để phục vụ cho biên tập dữ liệu.
3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT
3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành
Phân tích nhu cầu thực tế: Hàng ngày, tại Đài Thông tin Kinh tế Xã hội VNPT Đà Nẵng37 (Đài 108), mỗi điện thoại viên (ĐTV) chuyên nghiệp làm việc trong ca trực
thường xuyên nhận được khoảng vài trăm cuộc gọi đến từ khách hàng yêu cầu cung
cấp thông tin. ĐTV trực máy, lắng nghe, xác định nội dung yêu cầu rồi thao tác trên
máy tính để tìm thông tin, trả lời khách hàng.
Thực tế cho thấy, ĐTV dành hơn một nửa thời gian giao dịch để thao tác trên máy
tính: nhận diện được nội dung văn bản, gõ phím (tiếng Việt), tìm kiếm, xem xét và
thông báo ngay kết quả. Suốt tiến trình này, hoạt động thao tác xử lý văn bản, cập nhật
giá trị (khóa) tìm kiếm thường lặp đi, lặp lại, thường hay xảy ra nhập nhằng, không rõ
ràng… về tên gọi, địa chỉ, về vị trí địa lý hay vùng miền…
Với mục đích rút ngắn thời gian thao tác trên bàn phím, làm tăng hiệu năng hoạt
động của hệ thống và trợ giúp ĐTV giúp tăng năng suất lao động, giải pháp đề xuất
dựa trên ý tưởng vận dụng những kết quả nghiên cứu có tính hệ thống về CVT, kết
hợp với hệ thống CSDL giao dịch thường sử dụng của ĐTV: xây dựng vừa đủ các
quy tắc CVT để ứng dụng vào CSDL phục vụ hoạt động tìm kiếm chuyên nghiệp của
các ĐTV.
Khảo sát thực tế
Hoạt động giao dịch qua điện thoại: ĐTV là những người có chuyên môn nhận,
nghe điện thoại từ khách hàng yêu cầu, tìm kếm thông tin và trả lời ngay cho khách
hàng càng nhanh càng tốt. Số liệu hoạt động khai thác dữ liệu cung cấp cho khách
37VietNam Posts and Telecommunications Group: Tập đoàn Bưu chính Viễn thông Việt Nam.
hàng [2] được thống kê trong bảng 3.1 dưới đây.
66
Bảng 3.1. Thống kê số liệu tác nghiệp
1
Số ĐTV trong mỗi ca trực (8 giờ)
ĐTV
14
2
Tổng số cuộc gọi đến
Cuộc
59.046
3
Tổng số cuộc gọi DBĐT
Cuộc
37.788
4
Tổng thời gian giao dịch tối đa trong ngày làm việc
Phút
366
5
Thời gian xử lý cho một cuộc tìm kiếm trên DBĐT
Giây
100
6
Thời gian truy tìm thông tin trong CSDL một cuộc gọi
Giây
65
7
Số cuộc điện thoại phải xử lý trong ngày
Cuộc
220
Stt Nội dung tác nghiệp của ĐTV Đơn vị Giá trị
Từ bảng 3.1 có thể phân tích như sau: Trung bình mỗi ngày ĐTV nhận trên 160
cuộc gọi, nhưng vẫn có thể xử lý được hơn 220 cuộc, nếu ĐTV có thao tác hợp lý.
Trên 60% cuộc gọi yêu cầu truy cập DBĐT cung cấp địa chỉ, số điện thoại... (tỷ lệ tại
thời điểm thống kê 37.788/59.046 cuộc). ĐTV dành trên 50% thời gian (183/366 phút
làm việc theo ca) để truy tìm trong DBĐT. Mỗi cuộc gọi, ĐTV dành rất ít thời gian
(~40 giây) để thực hiện nghiệp vụ giao tiếp với khách hàng. Cấu trúc CSDL phục vụ
ĐTV tra cứu: Hình 16, phụ lục 5, minh họa hệ thống CSDL 108.
Kết quả thống kê có 24 nhóm danh mục CSDL được mô tả trong Bảng 3.2:
Bảng 3.2. Thống kê CSDL tác nghiệp
1
DBĐT
148.250
42
2
Tin nóng
5.914
36
3
Các nhóm khác
61.244
75
Tổng
215.408
153
Stt Nhóm danh mục Số bản ghi Dung lượng (MB)
Phân tích bảng 3.2 cụ thể hơn như sau:
Nhóm DBĐT gồm các CSDL địa phương (Đà Nẵng và 12 tỉnh/thành trong khu
vực) có cùng cấu cấu trúc gồm các trường: SO_MAY, TEN_CQ, DIA_CHI…; Nhóm
67
CSDL theo lĩnh vực (du lịch, kinh tế, văn hoá...) có cấu trúc riêng. Ví dụ, CSDL du
lịch có trường: MA_SO, TIEU_DE, NOI_DUNG. CSDL hàng tháng có khoảng 1.000
bản ghi mới (chiếm 0,46%) được bổ sung, cập nhật. Nhóm DBĐT chiếm 28% lượng
dữ liệu Đài 108. Hơn 60% yêu cầu ĐTV phải truy cập tìm kiếm.
Phân tích thực tiễn khai thác CSDL cho thấy: Khối lượng dữ liệu phục vụ ĐTV
tìm kiếm rất lớn; Hoạt động truy tìm thông tin lặp đi, lặp lại, gây nhàm chán, tiêu tốn
thời gian thao tác, gây tắc nghẽn cục bộ; ĐTV thường gặp lỗi tìm kiếm do trao đổi
ngắn, nhanh qua điện thoại với khách hàng, do sự khác biệt giữa khóa tìm kiếm với
nội dung dữ liệu trong CSDL 108 (lỗi chính tả, lỗi dùng từ địa phương...); ĐTV cần
nhiều thông tin (dù là gần đúng) cho một yêu cầu của khách hàng, ĐTV có thể tư vấn,
giải thích thêm với nhiều phương án trả lời, làm hài lòng khách hàng.
Giải pháp sử dụng CVT - chỉ mục tìm kiếm: Đối với các CSDL chuyên trách
phục vụ cho các ĐTV tìm kiếm, tra cứu thông tin phục vụ nhu cầu của khách hàng,
cần sử dụng CVT làm chỉ mục tìm kiếm để tăng hiệu năng khai thác theo các bước:
1. Lập trường chỉ mục CVT: Bổ sung vào CSDL các trường chứa nội dung các
CVT tương ứng. Ví dụ trường TEN_CQ, cần có TEN_CQ_CVT chứa nội
dung CVT đại diện tên cơ quan/ doanh nghiệp/ cá nhân...
2. Xây dựng các quy tắc chuyển đổi CVT: ĐTV phải thuộc các quy tắc. Lưu
ý: Số lượng quy tắc vừa đủ, không quá nhiều để dễ gợi nhớ.
3. Xây dựng các hàm hình thành CVT chuyển đổi CVT: Chuyển đổi nội dung
các bản ghi thành các CVT tương ứng. Đây là bước rút gọn dữ liệu.
4. Chỉ mục CSDL và cài đặt chương trình: Chỉ mục CSDL theo trường CVT,
cài đặt chương trình có chức năng tìm kiếm trên nó. Cần thiết kế các phím
nóng để kích hoạt nhanh chức năng tìm kiếm.
5. Khai thác CSDL dựa trên CVT: Khi tra cứu, tìm kiếm, ĐTV chi cần gõ nội
dung tìm kiếm theo CVT thay vì gõ cụm từ đầy đủ.
Triển khai ứng dụng
Xây dựng CSDL: Áp dụng giải pháp xây dựng lại CSDL 108 bằng cách bổ sung
trường dữ liệu CVT mới làm trường chỉ mục tìm kiếm. Cách bổ sung như sau: gọi F
là trường dữ liệu của CSDL, S là nội dung của F trong một bản ghi, khi đó trường F1
được bổ sung sẽ có nội dung là ABBRFUNC(S), với ABBRFUNC là hàm hình thành
68
CVT đã xây dựng ở trên. Các trường đã bổ sung: TBT (Thuê bao tắt) tương ứng với
TEN_CQ (chứa tên cơ quan, doanh nghiệp, cá nhân...). DCT (Địa chỉ tắt) tương ứng
với DỊA_CHI. Sau khi áp dụng các hàm ABBRFUNC, kết quả CVT có độ dài lớn
nhất là 18 ký tự. Ví dụ CTTHHNHTMCPPTTPHCM tương ứng với “Công ty Tài
chính Trách nhiệm hữu hạn Một thành viên Ngân hàng Thương mại Cổ phần Phát
triển thành phố Hồ Chí Minh”. Xây dựng các hàm ứng chuyển đổi sang CVT lưu vào
các trường CVT (ví dụ như hàm Function Chuviettat được nêu trong mục 2, phụ lục
3). Kết quả CSDL đã xây dựng trong hình 17, phụ lục 5, minh họa hệ thống CSDL
đã xây dựng.
Xây dựng ứng dụng: Nguyên tắc thiết kế ứng dụng chương trình tìm kiếm cho
ĐTV chuyên nghiệp khai thác cần phải đảm bảo:
- Việc chọn lựa CSDL theo tỉnh/thành giúp tìm kiếm dễ dàng, nhanh chóng.
- Thiết kế cửa số tìm kiếm DBĐT nằm trọn vẹn trong màn hình giao tiếp.
- Sử dụng các phím nóng kích hoạt nhanh các chức năng tìm kiếm, hay thao
tác thường lặp đi lặp lại. Chằng hạn: Phím F1 tìm kiếm theo tên thuê bao, F2
tìm kiếm theo địa chỉ, phím F5 tìm kiếm theo tên thuê tắt...
- Tìm kiếm hỗn hợp khác để khi cần kết hợp tìm kiếm chuẩn xác (hình 3.3).
Hình 3.3. Các chức năng tìm kiếm
69
Một số chức năng khác như sau: Tìm danh bạ theo địa chỉ tắt: thực hiện “Tìm
số điện thoại, hay tên cơ quan, tại K626/11 Trưng Nữ Vương”, ĐTV nhấn F6 kích
hoạt chức năng tìm kiếm, gõ vào “626TNV”, hệ thống trả về danh sách các cơ quan/cá
nhân cùng ở tại địa chỉ này. ĐTV lựa chọn một phương án trả lời.
Đánh giá kết quả đo đạt dựa trên kết quả thống kê số liệu tác nghiệp trước và
sau khi sử dụng giải pháp CVT trong CSDL 108 được nêu trong mục 3.4.2.
3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục
Lý thuyết phân tích và thiết kế CSDL đã chỉ ra các bước tiến hành phân tích và
thiết kế CSDL bao gồm phân tích dữ liệu và thiết kế CSDL quan hệ [19].
Đầu tiên là phân tích CSDL (a), là bước xác định các yêu cầu về dữ liệu, mô
hình hoá dữ liệu (xây dựng mô hình thực thể liên kết biểu diễn các yêu cầu về dữ
liệu). Tiếp theo là bước thiết kế CSDL quan hệ (b), thực hiện thiết kế logic CSDL
(xác định các quan hệ, chuẩn hoá các quan hệ, thiết kế vật lý CSDL, cài đặt vật lý chi
tiết trong hệ quản trị CSDL đã lựa chọn.
Thuộc tính định danh và CSDL danh mục: Thuộc tính định danh hay còn gọi
là định danh thực thể, hoặc là thuộc tính khoá, có giá trị phân biệt các thực thể khác
nhau. Việc xác định và định danh thực thể thoả mãn các tiêu chí: Tên gọi là danh từ,
có nhiều thể hiện, có duy nhất một định danh, có ít nhất một thuộc tính mô tả, có quan
hệ với ít nhất một thực thể khác. Thực chất đó là quá trình phân tích xác định CSDL
danh mục cơ sở, từ đó xác định liên kết giữa các thực thể.
Nhận xét: Thiết kế CSDL danh mục có tầm quan trọng trong xây dựng chương
trình, bảo trì và khai thác sử dụng.
Xây dựng CSDL danh mục trong Hệ thống ĐHSXKD chuyên ngành
Thực tế khi xây dựng hệ thống phần mềm điều hành SXKD chuyên ngành VT-
CNTT của VNPT Đà Nẵng, đã có 55 bảng CSDL danh mục cơ sở, trong tổng số gần
100 bảng CSDL. Khi bổ sung thêm dịch vụ, số bảng CSDL danh mục sẽ tăng lên tùy
theo đặc trưng dịch vụ bổ sung. Phân tích chi tiết các bảng CSDL danh mục cơ sở,
nhận thấy dữ liệu có số mẫu tin không lớn, các lập trình viên thường ít chú trọng đến
70
giá trị các trường mã hóa của CSDL danh mục, thường dùng kiểu số/ký tự để khai
báo, cấu trúc chung như bảng 3.4 dưới đây:
Bảng 3.3. CSDL danh mục chuyên ngành
1
ID_XYZ
C(2)
ID là mã hóa
2
ND_XYZ
C(100)
Tên chi tiết XYZ
STT Tên trường Kiểu dữ liệu Ý nghĩa
Trong đó, trường ID_XYZ thường được chọn lấy các giá trị gần như các giá trị
số: 01, 02, ... các giá trị này gần như là số hóa, ít gợi nhớ, gây khó khăn trong lập
trình, bảo trì, bảo dưỡng và khai thác. Trong lĩnh vực bưu chính, Bộ Thông tin Truyền
thông đã ban hành Bộ mã quốc gia và công bố trên [78] (hình 8, phụ lục 5), chủ yếu
là mã số hóa theo thông lệ quốc tế. Đối với ngành VT-CNTT hiện chưa có bộ mã
danh mục nào thống nhất ban hành toàn quốc.
Đề xuất ứng dụng CVT quy định bộ mã chuyên ngành VT-CNTT
Giải pháp đề xuất này có tính chất hành chính, tuy nhiên nó đã góp phần chuẩn
hóa dữ liệu cho CSDL danh mục, áp dụng cho toàn mạng lưới VT- CNTT, giúp cho
công tác quản lý, lập trình, bảo trì, bảo dưỡng phần mềm, mạng lưới và sử dụng
chương trình được thuận lợi. Trong đó, các dữ liệu mã hóa sử dụng CVT thường phải
(1) CVT mã hóa được một tổ chức ban hành, có phạm vi, giới hạn áp dụng.
(2) CVT mã hóa là duy nhất, không trùng lặp để tránh nhập nhằng.
(3) CVT mã hóa thường dùng thêm các ký tự theo một quy luật định sẵn.
thỏa mãn các điều kiện:
Ví dụ 1: Quy định Chuẩn hóa danh mục hình thức thanh toán
DM_HT_TTOAN áp dụng CVT trong cụm từ mô tả:
Chữ viết tắt cho hình thức thanh toán
Mô tả
TN
Tại nhà
CK
Chuyển khoản
Bảng 3.4. CSDL danh mục hình thức thanh toán
TM
Tiền mặt
UNC
Ủy nhiệm chi qua ngân hàng
UNT
Ủy nhiệm thu qua ngân hàng...
71
Ví dụ 2: Quy định mã thanh toán của khách hàng như bảng dưới đây:
Bảng 3.5. Bảng mã vùng thanh toán
Nhiều quy định mã hóa có sử dụng CVT đã được đề xuất ban hành và áp dụng
(bảng 1, phụ lục 4): Quy định đánh mã trong phần mềm điều hành sản xuất kinh
doanh cho các tỉnh/thành trong khu vực, quy định bộ mã mạng cáp đồng, quy định
bộ mã cột treo cáp, quy định bộ mã mạng cáp quang GPON...
3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia
Ngày nay, vai trò của CSDL quốc gia trong phát triển chính quyền điện tử, chính
phủ điện tử là rất quan trọng, hiện vẫn còn tình trạng không thống nhất về danh mục,
chia xẻ thông tin dùng chung trong các CSDL của các ngành.
Việc xây dựng CSDL quốc gia đóng vai trò quan trọng trong phát triển kinh tế,
xã hội bởi vì [84]: Cơ sở dữ liệu quốc gia là cơ sở dữ liệu lõi, được dùng chung, chia
xẻ sử dụng thuận tiện giữa các hệ thống thông tin của các Bộ, ngành, địa phương khác
nhau, phù hợp với yêu cầu quản lý. CSDL đóng vai trò như hạ tầng thông tin, tạo nền
tảng cho các hệ thống thông tin khác hoạt động và phát triển.
Một trong những yêu cầu căn bản của CSDL quốc gia là việc thống nhất, chuẩn
hóa Bộ mã danh mục dùng chung tầm mức quốc gia. Nghiên cứu CVT và sự ứng
dụng trong xây dựng bộ mã chuyên ngành, luận án đề xuất ý tưởng về một giải pháp
có tính chất tăng cường quản lý trong CNTT và truyền thông: Nhà nước cần có cơ
quan nghiên cứu ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng
CVT để có tính gợi nhớ, dễ hiểu, dễ sử dụng, nhất là đối với đội ngũ chuyên gia thiết
kế CSDL, lập trình viên, bảo trì, bảo dưỡng phần mềm, tạo điều kiện trao đổi chia xẻ
thông tin, khai thác CSDL quốc gia được dễ dàng và đồng bộ.
72
Chẳng hạn, cần ban hành Bộ mã CSDL quốc gia, sử dụng thống nhất trong mô
tả, xây dựng các ứng dụng phần mềm. Trong đó, yếu tố cần thiết và ưu tiên là sử dụng
CVT trong cấu trúc mã hóa CSDL danh mục, được quản lý thống nhất, bắt buộc dùng
chung bộ mã; tạo điều kiện để xây dựng CSDL lõi quốc gia, nhằm hướng đến xây
dựng chính phủ điện tử, chính quyền điện tử, thành phố thông minh.
Cấu trúc CSDL đề xuất:
Bảng 3.6. CSDL danh mục quốc gia chuyên ngành
1
ID_XYZ
C
ID là mã hóa sử dụng quy tắc hình thành CVT (ví dụ quy tắc 1, 2…)
2 ND_XYZ
Tên chi tiết XYZ danh mục
C
3
SOHOA_XYZ
Mã số hóa khác như mã vạch38,…
C
STT Tên trường Kiểu dữ liệu Cấu trúc
1. Bộ mã CSDL danh mục tỉnh/thành: Sử dụng tương tự bộ mã viễn thông
như: HNI (Hà Nội), DNG (Đà Nẵng)... Chi tiết: bảng 2, phụ lục 4.
2. Bộ mã CSDL danh mục thành phần dân tộc: KINH (dân tộc Kinh), BANA
(dân tộc Ba Na), GIRA (dân tộc gia rai),...
3. Bộ mã CSDL danh mục chuyên ngành: EDU: Giáo dục; YTE: Y Tế; ITC:
Công nghệ Thông tin và Truyền thông;...
4. Bộ mã CSDL danh mục học hàm, học vị, chức danh, nghề nghiệp, trình độ
văn hóa, năng lực chuyên môn...
5. Đối với từng ngành, từng lĩnh vực: tiếp tục ban hành các bộ mã CSDL
danh mục riêng. Ví dụ: Ngành Y Tế ban hành bộ mã danh mục ngành riêng
phần mềm khám chữa bệnh: Danh mục thuốc, danh mục thiết bị, danh mục
cơ sở y tế ... Ngành giáo dục: ban hành bộ mã danh mục mã trường học,
danh mục mã môn học, danh mục mã tài liệu sách giáo khoa (theo quy tắc
38 https://vi.wikipedia.org/wiki/Mã _vạch
1 thành lập CVT để ứng dụng trong quản lý thư viện)...
73
3.4. ĐÁNH GIÁ KẾT QUẢ
3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt
Quá trình cập nhật tự động CVT và biên tập kiểm tra thủ công nội dung, đến
thời điểm này được thống kê số lượng CVT tiếng Việt hiện có trong CSDL như bảng
3.7 với các phân tích kết quả dưới đây.
Phân tích kết quả: Trong kết quả gần 7.000 CVT thu thập được thống kê, cập
nhật tự động mới chỉ đạt 60%, tuy có nhiều loại CVT phát sinh và biến động không
ngừng. Tỷ lệ cập nhật tự động sẽ ngày càng ít đi do CVT trùng lặp đã lưu trữ trong
CSDL. Lĩnh vực giáo dục - đào tạo có CVT khá lớn, chủ yếu các CVT liên quan đến
mã trường học, mã ngành nghề... Lĩnh vực CNTT và truyền thông cũng có lượng
CVT khá nhiều, có sự phát triển mạnh các thuật ngữ viết tắt. Việc cập nhật thủ công
sẽ có tỷ lệ dần tăng lên do sử dụng website, khuyến khích NSD cập nhật.
Bảng 3.7. Thống kê kết quả dữ liệu chữ viết tắt
Loại
Chữ viết tắt thuộc lĩnh vực
Tổng cộng
cập nhật tự động
Tỷ lệ % cập nhật Tự động
cập nhật thủ công
Công nghệ thông tin và truyền thông Chính phủ, tổ chức chính trị xã hội
Tài chính, thương mại Tài nguyên môi trường
1 2 3 Khoa học công nghệ, kỹ thuật 4 Quân sự 5 Y học 6 Giáo dục 7 8 9 Giao tiếp cộng đồng 10 Tôn giáo 11 Tên riêng 12 Khác
350 120 253 120 255 2.378 140 130 125 150 75 120
1104 421 526 322 508 2.679 543 293 246 150 75 120
32% 29% 48% 37% 50% 89% 26% 44% 51% 100% 100% 100%
754 301 273 202 253 301 403 163 121 0 0 0
Tổng cộng
2.771
4.216
6.987
60%
So sánh với cơ sở dữ liệu CVT tiếng Việt [13] đã được Hội Ngôn ngữ học Việt
39Hội Ngôn ngữ học Việt Nam, "Danh sách chữ viết tắt xếp theo tần số"[13] (năm 2002)
Nam (ghi nhận được 1.151 đơn vị CVT39, với cách làm thủ công, thiếu quản lý, cập
74
nhật thường xuyên) thì giải pháp cập nhật CVT nêu trên đã ghi nhận được 4.216 đơn
vị CVT, bằng 366% so với [13]; bước đầu theo kịp sự phát triển CVT trong thực tế
và xu hướng sử dụng CVT.
Đánh giá các phương pháp: Phương pháp cập nhật CVT mới từ tập tin Word:
Thay vì phải tìm từng cụm từ viết tắt, phương pháp đề xuất là “bán tự động”, mở tập
tin Word, thực hiện một Marcro chọn lọc các cụm CVT; việc thực hiện này với dữ
liệu tập tin Word sẵn có, số lượng cập nhật CVT sẽ không lớn. Phương pháp cập nhật
CVT mới tự động từ Internet: cho thấy cập nhật tự động chỉ giới hạn trong việc tìm
kiếm CVT mới tiếng Việt. Số CVT mới được cập nhật tự động còn rất khiêm tốn, tỷ
lệ càng ngày sẽ càng ít đi do CSDL được làm giàu bằng nhiều phương pháp và đã có
CSDL. Một trong những nguồn CVT từ người sử dụng, do đó cần phải có giải pháp
cập nhật trực tuyến để có kho ngữ liệu CVT phong phú hơn.
Đánh giá cài đặt chương trình: Do chương trình chạy trực tuyến trên Internet,
nên cần cải tiến để tăng tốc độ xử lý: có thể bỏ qua việc so sánh từng CVT tìm được
với CVT có trong CSDL đã biên tập để giảm bớt việc truy nhập CSDL. Việc so sánh,
đối chiếu CVT có thể thực hiện được ở tại máy tính đơn. Cần thiết phải xây dựng một
hệ thống website thư viện CVT cung cấp chức năng vừa cho phép tra cứu, sử dụng
CVT, vừa cho phép cập nhật CVT. Đây cũng là cách thức tạo ra môi trường sử dụng
CVT ngày càng thuận lợi cho NSD.
Về ý nghĩa mở rộng thuật toán SENVA, ý tưởng cập nhật CVT mới tự động từ
Internet (máy tìm kiếm CVT) có thể được mở rộng, phát triển thành máy thống kê,
đánh giá tần số, tần suất sử dụng CVT. Điều này giúp ích cho việc biên soạn những
từ điển theo tần suất sử dụng, phục vụ cho việc đánh giá từ vựng tiếng Việt.
3.4.2. Kết quả ứng dụng khai thác dữ liệu chữ viết tắt
Đánh giá kết quả: Bảng 3.8 thống kê số liệu tác nghiệp thực tế sau khi sử
dụng giải pháp CVT trong CSDL 108 có so sánh với trước khi sử dụng giải pháp đã
thực hiện trong mục 3.3:
75
Stt
Nội dung
Đơn vị
So sánh
Bình thường
Sử dụng CVT
1 Tìm kiếm TBT trên DBĐT
Cuộc
22.673
22.673
-
2 Thời gian xử lý/cuộc/ĐTV
Giây
55
30
55%
3
Giây
100
75
75%
Thời gian xử lý tìm tên, địa chỉ trên DBĐT/cuộc
4 Khả năng ĐTV xử lý được số cuộc/ca trực Cuộc
220
293
133%
5
Giây
0
25
-
Thời gian tiết kiệm được khi gõ bàn phím / cuộc / ĐTV
6 Số cuộc tăng lên /cuộc/ĐTV
Cuộc
0
73
-
Bảng 3.8. Thống kê số liệu sử dụng giải pháp CVT
Kết quả phân tích sau khi so sánh Bảng 3.1 và Bảng 3.8: Tuy dung lượng dữ
liệu của CSDL mới (bổ sung hai trường TBT, DCT) có tăng 32% so với trước, nhưng
hoàn toàn phù hợp với năng lực máy chủ hiện có. Thời gian gõ phím của mỗi ĐTV
giảm đáng kể, chỉ cần 30 giây, thay vì mất 55 giây trong hệ thống cũ, rút ngắn 45%
thời gian. Với ca làm việc 8 giờ, ĐTV có trung bình 6 giờ nghe và tìm kiếm thông tin
trên CSDL, chỉ dành 1,8 giờ gõ bàn phím, xử lý được 293 cuộc, thay vì mất 3,3 giờ gõ
bàn phím, chỉ xử lý được 220 cuộc. Mỗi ca trực có 14 ĐTV, thời gian tiết kiệm được
tăng lên 14 lần. Như vậy: hiệu năng tìm kiếm sử dụng trường CVT làm chỉ mục và
gõ giá trị CVT giúp giảm thời gian gõ phím 45%; tăng hiệu năng làm việc ĐTV lên
133%, làm tăng năng suất lao động, giảm thiểu tắc nghẽn.
Mở rộng giải pháp: Những kết quả đạt được trong quá trình xây dựng và khai
thác CSDL có sử dụng CVT cho phép chúng ta tiếp tục hoàn thiện, từng bước đưa
vào phục vụ khai thác nhiều CSDL khác trong ngành viễn thông như: danh bạ cố
định, danh bạ di động..., đặc biệt khi thực hiện mở rộng Đài 108 Đà Nẵng cung cấp
dịch vụ 108 cho toàn khu vực miền Trung và Tây Nguyên với 20 tỉnh. Mở rộng ra
đối với các CSDL khác cho người chuyên trách tìm kiếm, tra cứu thông tin: Tổng đài
dịch vụ hành chính công, CSDL hỗ trợ và chăm sóc khách hàng nhiều ngành nghề
76
khác nhau, danh mục sách - tác giả trong thư viện online... có thể áp dụng CVT làm
trường chỉ mục tìm kiếm để tăng hiệu năng khai thác, tăng năng suất lao động của
người khai thác thông tin để phục vụ khách hàng.
Ngoài ra, các đề xuất ứng dụng CVT trong xây dựng CSDL danh mục và ứng
dụng CVT quy định bộ mã chuyên ngành VT-CNTT nêu trên nhằm mục đích góp
phần chuẩn hóa dữ liệu cho CSDL danh mục, áp dụng cho nhiều ngành, giúp cho
công tác quản lý, lập trình, bảo trì, bảo dưỡng phần mềm, mạng lưới và sử dụng
chương trình được thuận lợi. 3.5. TÓM TẮT CHƯƠNG 3
Chương này đã xây dựng được cơ sở dữ liệu CVT; đề xuất thuật toán SENVA;
xây dựng ứng dụng vào CSDL chuyên ngành VT-CNTT.
Các nghiên cứu trên có thể mở rộng ra đối với các CSDL chuyên trách tìm kiếm,
tra cứu thông tin: Tổng đài dịch vụ hành chính công, CSDL hỗ trợ và chăm sóc khách
hàng nhiều ngành nghề khác nhau, thư viện online...; có thể áp dụng CVT làm trường
chỉ mục tìm kiếm để tăng hiệu năng khai thác, tăng năng suất lao động.
Nghiên cứu trong chương này, bước đầu đã khẳng định được mối liên hệ giữa
lý thuyết ngôn ngữ học và những ứng dụng trong ngành VT-CNTT. Từ đó có những
so sánh, đối chiếu và kiểm nghiệm với những vấn đề lý thuyết đã nghiên cứu. Đồng
thời qua đó cũng đánh giá được hiệu quả thực tiễn ứng dụng CVT trong một số lĩnh
vực và làm cở sở cho bước nghiên cứu tiếp theo trong luận án.
77
CHƯƠNG 4.
XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT
Chương 4 đề xuất và xây dựng hệ thống khai thác CVT (AMES) có tính cộng
đồng. Thông qua AMES các nhà khoa học, NSD có thể tham gia cập nhật, kế thừa
và khai thác.
Nội dung chương này sẽ giới thiệu công cụ từ điển tra cứu CVT trên máy di
động, hệ thống website và công cụ tư vấn đặt tên CVT thương hiệu (brandname) cho
doanh nghiệp… minh họa một kết quả thực nghiệm xây dựng hệ thống khai thác CVT.
4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT
4.1.1. Lựa chọn công cụ lập trình
Để thống nhất với phần xây dựng CSDL trong hệ quản trị MySQL và một số
chương trình thu thập dữ liệu, ta tiếp tục chọn PHP để xây dựng thực nghiệm ứng
dụng web khai thác dữ liệu CVT. Trong PHP, sử dụng biểu thức chính quy để thành
lập biểu thức, dùng các hàm hỗ trợ để xử lý chuỗi. Trang web động có sử dụng kỹ thuật AJAX (Asynchronous JavaScript and XML)40 để minh hoạ việc xử lý dữ liệu
trên giao diện web.
4.1.2. Thiết kế chương trình
Thiết kế giao diện: Cũng như CSDL, bộ mã tiếng Việt Unicode cũng được lựa
chọn để thiết kế giao diện website. Chức năng của website:
- Cung cấp những thông tin chung nghiên cứu về CVT, kết quả tìm hiểu về
CVT như lịch sử, quy tắc thành lập;
- Tra cứu CVT theo hai dạng ngôn ngữ là tiếng Anh và tiếng Việt;
- Cập nhật, thu thập dữ liệu CVT;
- Thống kê số lượng CVT;
- Quản trị bao gồm biên tập, đăng ký thành viên...
40 https://vi.wikipedia.org/wiki/Ajax_(Lập_trình)
Mô hình hoạt động website như hình 4.1.
78
Quá trình xử lý
Đầu ra
Đầu vào
Không tìm thấy
CVT tiếng Việt
Tra cứu chính xác
Truy nhập trang web Tracứu
Giải thích
Tra cứu gần đúng
CVT tiếng Anh
CSDL Chữ viết tắt
Người sử dụng
Hình 4.1. Mô hình hoạt động của website tra cứu chữ viết tắt.
4.1.3. Kết quả xây dựng thư viện chữ viết tắt
Trang chủ đã được thiết kế và xây dựng với khung tiêu đề có liên kết tra cứu
CVT xếp theo vần A, B, C… để giúp NSD tra cứu nhanh CVT theo vần.
Kết quả tra cứu được hiện thị ngay bên dưới khung tra cứu, thuận lợi cho thao
tác tra cứu nhiều lần và tăng hiệu năng tìm kiếm của khai thác của NSD. Các chức
năng cấu hình, tra cứu, biên tập, cấu hình… minh họa trong các hình 2, 3, 4 trong
phần phụ lục 5. Thư viện CVT có địa chỉ www.chuviettat.com, cung cấp cho NSD
khai thác. Hình ảnh trang chủ Website như hình 4.2. dưới đây:
Hình 4.2. Trang chủ website thư viện chữ viết tắt
79
4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU
4.2.1. Tin nhắn thương hiệu là gì
Vài nét về quy định đặt tên doanh nghiệp: Theo quy định đặt tên doanh
nghiệp41, tên Tiếng Việt của doanh nghiệp bao gồm hai thành tố như sau:
Loại hình doanh nghiệp + Tên riêng
Trong đó tên riêng được viết bằng các chữ cái trong bảng chữ cái tiếng việt,
các chữ F, J, Z, W, chữ số và ký hiệu. Những điều cấm trong đặt tên doanh nghiệp:
Đặt tên trùng hoặt tên gây nhầm lẫn với tên của doanh nghiệp đã đăng ký theo quy
định; sử dụng tên cơ quan nhà nước, đơn vị vũ trang nhân dân, tên của tổ chức chính
trị...; sử dụng từ ngữ, ký hiệu vi phạm truyền thống lịch sử, văn hóa, đạo đức và thuần
phong mỹ tục dân tộc.
Tin nhắn thương hiệu: Để quảng bá và giới thiệu sản phẩm hay dịch vụ,
41Luật doanh nghiệp 2014
doanh nghiệp thường sử dụng thương hiệu của mình trong ấn phẩm truyền thông,
80
hoặc sử dụng tin nhắn đến máy di động khách hàng thông qua dịch vụ tin nhắn thương
hiệu (Short Message Services Brandname), gọi tắt là SMS BrandName. SMS
BrandName là một dịch vụ gửi tin nhắn hàng loạt, cho phép các doanh nghiệp có thể
triển khai các chương trình tiếp thị và chăm sóc khách hàng một cách hiệu quả với
chi phí thấp. Đặc điểm nổi bật của tin nhắn thương hiệu chính là thương hiệu của
Khách hàng được hiển thị tại mục người gửi (Sender) thay vì một số điện thoại di
động, qua đó làm tăng mức độ nhận biết của khách hàng đối với thương hiệu doanh
nghiệp [93]. Để sử dụng dịch vụ SMS Brandname, nhà cung cấp dịch vụ cần tư vấn
cho doanh nghiệp chọn lựa cho mình một Brandname. Brandname thực chất là CVT
hiển thị trên máy di động khi khách hàng nhận tin nhắn, chính là hình ảnh thương
hiệu, là “chính danh” của doanh nghiệp. Như vậy, việc đặt CVT làm Brandname, đại
diện cho doanh nghiệp phụ thuộc vào "tên doanh nghiệp". Tên riêng bao giờ cũng
nằm cuối của chuỗi tên doanh nghiệp, đặc điểm này giúp ta nhận diện thành phần tên
riêng để có tư vấn đặt tên Brandname hợp lý.
Quy tắc đặt tên SMS Brandname: Yêu cầu căn bản của Brandname là giới hạn
trong 11 ký tự (có thể phải tận dụng tối đa 11 ký tự, hạn chế tối đa ký tự trống). Cần
áp dụng các quy tắc tạo sinh CVT để đặt tên Brandname, nhằm phản ảnh nhận diện
thương hiệu của doanh nghiệp. Thực chất vấn đề đặt tên thương hiệu Brandname là
dùng CVT đại diện, trong CVT đó cần hội đủ các yếu tố đại diện, trợ giúp doanh
nghiệp phát triển thương hiệu.
4.2.2. Các bước xây dựng công cụ tư vấn đặt tên Brandname
Xây dựng công cụ tư vấn đặt tên Brandname qua các bước:
1) Bước 1: Xây dựng CSDL quản trị Brandname; tích hợp vào hệ thống CSDL
kho ngữ vựng chữ viết tắt.
2) Bước 2: Xây dựng quy tắc tạo sinh chữ viết tắt Brandname, mô phỏng dùng
công cụ lập trình tạo sinh.
3) Bước 3: Xây dựng công cụ phần mềm quản lý SMS Brandname, công cụ
tư vấn doanh nghiệp đặt tên và quản trị Brandname.
4) Bước 4: Triển khai áp dụng vào thực hiện hoạt động kinh doanh, cung cấp
cho khách hàng có nhu cầu sử dụng tin nhắn SMS Brandname.
81
Trong các bước đó, việc xây dựng công cụ tư vấn thông minh đặt tên
Brandname được đề xuất thực hiện theo quy trình: Khi có khách hàng hợp đồng sử
dụng brandname, nhà cung cấp dịch vụ tư vấn cách đặt tên bằng cách gõ tên đầy đủ
Doanh nghiệp/công ty... Chương trình tìm kiếm, so khớp trong CSDL, định vị tên
công ty gần đúng với tên công ty trong bảng Brandname, hiển thị ra Brandname, CVT
và khuyến nghị nên tránh đặt tên trùng với Brandname, CVT đã có (vì dễ gây nhầm
lẫn). Sau đó khuyến nghị vài cách đặt tên nào đó không trùng với các tên đã có trong
CSDL chữ viết tắt và Brandname đã lưu trữ của các doanh nghiệp đã có.
Sau đây là đề xuất thuật toán sử dụng tư vấn đặt tên CVT là Brandname.
4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu
Ý tưởng thuật toán Tư vấn đặt tên tin nhắn thương hiệu cho doanh nghiệp,
công ty - Consultant SMS brandname to the company (CSBCOM):
1) Phân tích chuỗi tên doanh nghiệp thành k chuỗi con: n1,.. nk.
2) Với từng chuỗi ni , tìm cách đưa ra các CVT, bằng cách học dữ liệu CVT
trong một tập huấn luyện lưu trữ các CVT có thể có của chuỗi ni . Nếu đã
có các CVT thì đưa ra sử dụng, nều không có các CVT, thì thành lập các
CVT của chuỗi ni (theo các quy tắc hình thành CVT); đồng thời lưu vào
tập huấn luyện để sử dụng lần sau.
3) Sau khi xử lý từng chuỗi ni, thực hiện tổ hợp kết quả theo thứ tự các chuỗi
n1,.. nk để đề xuất các CVT có thể có của chuỗi đầu vào.
4) So khớp trong bảng NGHIA_CVT_DATBIET để hiển thị các nghĩa tích
cực, nghĩa tiêu cực kèm theo, để giúp NSD có thể có diễn dịch ý nghĩa tích
cực hay tiêu cực, từ đó chọn lọc CVT làm các Brandname.
Thuật toán 1: Tạo sinh tên thương hiệu (CSBCOM)
Mô tả: Nhận chuỗi vào là tên doanh nghiệp, tư vấn đặt tên thương hiệu là các CVT cho doanh nghiệp sử dụng tin nhắn quảng bá, giới thiệu, chăm sóc khách hàng.
Input:
+ Chuỗi tên Doanh nghiệp/Công ty; địa phương, lĩnh vực
+ Tập các CVT có nghĩa đặc biệt: NGHIA_CVT_DACBIET + Kho ngữ liệu CSDL các Chữ viết tắt: CVTS
82
Output:
+ Hiển thị khung cửa số các CVT là các tên Brandname
+ Đưa ra ý nghĩa các tên Brandname có thể có (tích cực/tiêu cực)
Begin
- Khởi tạo tham số, biến (biến đếm, cấu trúc Cây lưu trữ từ/cụm từ phục vụ
lưu trữ khi phân tích String tên doanh nghiệp, cấu trúc mảng dữ liệu chứa
kết quả tư vấn)
- Tiếp nhận giá trị Input (String tên doanh nghiệp–sNameCompany) - Gọi hàm “Phân tích chuỗi”; - Tìm trong Từ điển dữ liệu chữ viết tắt:
Nếu tìm thấy thì gắn nhãn cho nút lá; Ngược lại: Gọi hàm "Xây dựng chữ viết tắt và Đánh trọng số"
cho các từ trong từ điển dữ liệu;
- Thực hiện phép toán tổ hợp trên tầng lá của Cây để cho ra kết quả tư vấn;
- Lưu trữ tại mảng đã khai báo; - Hiển thị khung cửa sổ các CVT là các tên Brandname
- Đưa ra ý nghĩa các tên Brandname có thể có (tích cực/tiêu cực)
End
Trong đó, hàm “Phân tích chuỗi” và hàm "Xây dựng chữ viết tắt và Đánh trọng
số" được xây dựng:
Hàm “Phân tích chuỗi”: Nhận chuỗi nhận vào tên doanh nghiệp, phân tích
chuỗi và tạo ra cây lưu trữ các chuỗi để chuẩn bị sử dụng quy tắc đặt tên CVT.
Input: Tên của doanh nghiệp - sNameCompany Output: Cây lưu trữ dữ liệu đã được phân tích - sTree
Begin
+ Đếm số từ đơn trong sNameCompany (Gọi là nCount) + Khởi tạo số nút của Cây nElement = int(nCount/2) – Số nguyên của phép chia
cho 2; + Khởi tạo biến đếm i = 1; While i < nElement do
+ Mỗi nút lá thứ i của Cây được gán giá trị =
substr(sNameCompany,i*2-1,i*2) (giá trị lớn nhất của i = nElement-1);
+ Tăng biến đếm i = i + 1; + Giảm từ trong sNameCompany =
substr(sNameCompany, i*2+1);
83
End While
+ Gán giá trị cho Nút lá thứ i = sNameCompany;
End.
Ghi chú: Trong hàm này, tạm thời áp dụng phân tích chuỗi đơn giản để thể hiện
thuật toán, có thể cải tiến và áp dụng tách từ tiếng Việt để phân tích chuỗi như nghiên
cứu [24] và [85] đã chỉ ra.
Hàm “Xây dựng chữ viết tắt và đánh trọng số”: Xây dựng chữ viết tắt và
đánh trọng số, tạo cơ sở lựa chọn tư vấn đặt tên thương hiệu cho doanh nghiệp(học
lại các từ đã có/chưa có trong từ điển).
Input: Cây dữ liệu - sTree
Output: sTree có gắn nhãn viết tắt và được đánh trọng số
Begin
While do
- Với mỗi nút trên sTree, tìm trong kho ngữ liệu CVT, kể cả trọng số
đang có trong CSDL viết tắt. Nếu tìm được thì:
Tương ứng mỗi từ tìm được sẽ là một nút lá tại sTree.Element
tương ứng (gồm cả nhãn viết tắt và trọng số);
Ngược lại, từ này chưa có trong từ điển thì: tạo từ viết tắt (Theo
quy tắc hình thành CVT), đưa vào sTree và CSDL từ viết tắt vừa
tạo với trọng số = 0(khởi tạo);
End While - Cập nhật trọng số cho các từ viết tắt trong sTree tìm được = Trọng số hiện
tại + 0.1 (0.1%); //Sau khi kết thúc vòng lặp trên, cây sTree sẽ có 3 tầng (Root là sNameCompany, các nút tầng 2 là các sTree.Element, các nút là
đến thời điểm này là kết quả của vòng lặp trên;
- So khớp trong bảng NGHIA_CVT_DACBIET để hiển thị các nghĩa tích
cực, và nghĩa tiêu cực kèm theo
- So khớp trong bảng CVTs để hiển thị các nghĩa CVT đã có trong CSDL
End: Trả về danh sách CVT Brandname sắp xếp theo trọng số giảm dần.
84
Bảng NGHIA_CVT_DACBIET lưu các CVT có nghĩa nào đó, khi đưa ra tư
vấn tên Brandname, sẽ rà soát, so khớp để lấy nghĩa tích cực, diễn dịch ý tưởng CVT,
lấy nghĩa tiêu cực để loại bỏ và khuyến nghị không nên sử dụng CVT này để tránh
Bảng 4.1. Bảng NGHIA_CVT_DACBIET
nhầm lẫn, hiểu sai hay nhập nhằng ý nghĩa CVT.
CVT Ý nghĩa
VINA HOAPHAT
1
PT
1 0 0
4U TANGTOC HATHU
1
HAPHA
Việt Nam, Vinaphone Hóa phát, không hòa thì phát Phát triển, phương trình, phương thức, phương thanh, phát thanh For U, vì bạn, cho bạn, Tăng tốc, tang tóc Hà Thu, Hận thù, Hạnh phúc, phẩm hạnh, hồng ân phát, phát hồng ân, hãy phát triển ...
..
Tích cực/ tiêu cực 1 1
HUAN_LUYEN là một bảng huấn luyện lưu các CVT hình thành trong quá
trình xử lý cấu trúc cây (sTree), các lá cây được sinh ra các CVT (quy tắc hình thành
CVT). So khớp CVT vừa hình thành với CVT đã có trong tập HUAN_LUYEN, tức
là quá trình "học máy" xem các CVT nào đã từng tồn tại hay chưa. Nếu đã có CVT
trong tập HUAN_LUYEN, đọc tất cả để sử dụng; nếu chưa có, thì CVT mới hình
Bảng 4.2. Bảng HUAN_LUYEN
thành được lưu trữ vào để sử dụng cho lần kế tiếp.
Cụm từ CVT tạo sinh Trọng số
Tích cực/ tiêu cực 1 1 1 1 0.01 0 0.05 0.04
Công ty Công ty Đà Nẵng Đà Nẵng .. CT COM DN DNG
Tập HUAN_LUYEN sẽ được bổ sung dần các CVT mới một khi sự so khớp
không phát hiện CVT đã được tạo sinh nào được sử dụng trước đó. Ví dụ: Cây minh
họa mô tả các bước của thuật toán. Đầu vào: Tên = ”Tập đoàn Bưu chính Viễn thông
Việt Nam”. Quá trình xử lý: Khởi tạo các biến, cấu trúc mảng (Arr) và cấu trúc Cây
85
(sTree), tiếp nhận giá trị ‘Tên doanh nghiệp” gán vào biến sNameCompany. Thuật
toán con 1: “Phân tích chuỗi”, sau khi kết thúc thuật toán này, sTree sẽ có giá trị như
hình 4.3. Thuật toán con 2 “Xây dựng CVT và đánh trọng số”, đầu vào của thuật toán
Tập đoàn Bưu chính Viễn Thông Việt Nam
Tập Đoàn
Bưu Chính
Viễn Thông
Việt Nam
Hình 4.3. Cây phân tích chuỗi.
Tập đoàn Bưu chính Viễn Thông Việt Nam
Trọng số
Chữ viết tắt
Tích cực (1)/ Tiếu cực = -1
Tập Đoàn
TD, 0.1,1
Inc, 0.2, 1
Grp, 0.1, 1
Bưu Chính
BC, 0.1,1
Post, 0.2, 1
VT, 0.1,1
Viễn Thông
Tel, 0.2, 1
VN, 0.3,1
Việt Nam
VINA, 0.1, 1
VNM, 0.1, 1
Hình 4.4. Cây phân tích chuỗi và giá trị trọng số
là sTree, Out, sTree có gán nhãn CVT và có trọng số như hình 4.4:
86
Giả sử với mỗi từ (4 nút lá của sTree) như trên “Tập đoàn”,”Bưu chính”, “Viễn
Thông” và “Việt Nam”, thuật toán sẽ tìm, so khớp trong kho dữ liệu, tập huấn luyện
và cho ra kết quả như hình 4.4. Từ kết quả hiện có của sTree, thực hiện phép toán tổ
hợp (có thứ tự) trên các nút lá ta được mảng (Arr), ta có thể kết hợp cộng thêm các
dấu phân cách, ký tự đặc biệt để tạo ra thêm các cụm CVT khác nhau... Kết quả:
Bảng 4.3. Kết quả tạo chữ viết tắt Brandname
Arr[] Brandname Tích cực/Tiêu cực
Trọng số = Trung bình cộng các giá trị 0.15 1 TDBCVT_VN 1
2 TDBCVT_VINA 0.1 1
3 TDBCVT_VNM 0.1 1
4 TDBCTel_VN 0.125 1
5 TDPostVT_VN 0.1 1
6 TDBCVTVN 0.1 1
7 TDBCVTVINA 0.1 1
... ... ... ...
Đánh giá thuật toán CSBCOM: Thuật toán CSBCOM có tính xác định: Các
bước của thuật toán được xác định một cách chính xác, các chỉ dẫn rõ ràng, có thể
thực hiện được; áp dụng được cho mọi bài toán cùng loại, với mọi dữ liệu đầu vào
như đã được mô tả. Thuật toán CSBCOM có tính hữu hạn, chủ yếu dựa trên kỹ thuật
xử lý chuỗi; các tập huấn luyện, tập nghĩa đặc biệt các CVT có bản ghi là hữu hạn,
quá trình so khớp, tạo sinh CVT là hữu hạn; việc tổ hợp có thứ tự các CVT tìm thấy
được đảm bảo giảm được số lượng tổ hợp (tùy ý), bảo đảm tính kết thúc sau một số
hữu hạn bước của giải thuật.
Độ phức tạp của thuật toán phụ thuộc vào số mục từ trong từ điển dữ liệu CVT.
Trong từ điển các mục từ đã được sắp xếp theo trật tự, vì vậy trong CSBCOM đã áp
dụng thuật toán tìm kiếm nhị phân để tìm từ trong từ điển dữ liệu CVT. Độ phức tạp
của thuật toán O(log2n), n là số mục từ trong từ điển dữ liệu CVT.
87
4.2.4. Cài đặt chương trình, kết quả thử nghiệm
Cài đặt thuật toán và chương trình quản lý SMS Brandname, thực hiện thử
nghiệm bằng cách sử dụng ngôn ngữ lập trình C#. Để tạo hệ thống khai thác CVT
hướng đến tính mở, tạo điều kiện dễ giao tiếp, bảo trì; chương trình đã triển khai lập
trình giao diện ứng dụng API (Application Programming Interface), đó là cơ chế
plugin cho các hàm khi cài đặt thuật toán CSBCOM. Từng bước tối ưu API để thực
sự dễ nắm bắt, đầy đủ, không chồng chéo, dư thừa; các lập trình viên có thể phát triển
các dịch vụ bổ sung để tạo các hàm sử dụng cơ chế plugin vào hệ thống khai thác để cùng chia xẻ kinh nghiệm, ứng dụng. Cài đặt hàm API trên một server42 độc lập với
server (hoặc máy tính nào đó có kết nối Internet) chứa phần mềm SMS Brandname.
Hàm API có cấu trúc:
GetSMSBrand(
Khi có được công cụ tư vấn, quản trị Brandname, việc thực hiện, triển khai dịch
vụ SMS Brandname thuận lợi, hiệu quả, tăng uy tín chất lượng dịch vụ. Quá trình
thực hiện từng bước làm đầy kho ngữ liệu CVT, trong đó có Brandname doanh
nghiệp; hỗ trợ doanh nghiệp quảng bá thương hiệu, đưa sản phẩm của mình đến công
chúng bằng công cụ marketing hiệu quả SMS Brandname. Kết quả thực hiện chương
trình với các chức năng tư vấn tự động Brandname trong hình 13 và 14, phụ lục 5.
Đo đạc kết quả thử nghiệm: Qua kết quả tư vấn dịch vụ Brandname 6 tháng từ
8/2019 đến 2/2020, với khoảng 118 doanh nghiệp (DN) đến đăng ký cung cấp dịch
vụ SMS Brandname tại đơn vị, kết quả thống kê được trong CSDL ở bảng 4.4:
Doanh nghiệp không chọn tên đã tư vấn
Tổng số Doanh nhiệp đã được tư vấn
Doanh nghiệp chọn đúng tên theo Brandname tư vấn
75
43
118
Doanh nghiệp chọn đúng Brandname tư vấn
33
6
39
Doanh nghiệp không chọn, (chọn lại, thay đổi lựa chọn)
42 Server: 10.59.10.250:81/CSSbilsource.asmx
Bảng 4.4. Thử nghiệm tư vấn Brandname và sự lựa chọn của doanh nghiệp
88
Tỷ lệ chính xác (Precision) chương trình đề xuất tên đúng như DN chọn trong
danh sách tư vấn là Precision = 75/(75+43) = 0,635 (tức khoảng 64%). Đây là tỷ lệ
xác suất chương trình tư vấn đặt tên Brandname là 64%. Đây là tỷ lệ chưa cao, cần
tăng giá trị này càng cao, càng tốt. Tuy nhiên, tỷ lệ này phụ thuộc vào dữ liệu học
máy của tập huấn luyện (HUAN_LUYEN, NGHIA_CVT_DACBIET) trong thực
hiện chương trình.
Nhận xét chung:
Những đề xuất, ứng dụng thực nghiệm nêu trên là bước đầu góp phần xây dựng
Hệ thống khai thác chữ viết tắt AMES. Cần thiết phải tích hợp nhiều hơn nữa các
công cụ cập nhật, xử lý, hiệu chỉnh, tạo sinh, ứng dụng… vào AMES. AMES từng
bước hướng đến thỏa mãn các tính chất đặc trưng của hệ sinh thái phần mềm: Tính
kế thừa, Tính ổn định và Tính mở; đồng thời hướng đến một phương thức thống nhất
trao đổi thông tin AMES với các hệ thống thông tin khác.
Việc triển khai lập trình giao diện ứng dụng API để khi cần, có thể hiệu chỉnh
hàm GetSMSBrand mà không cần biên dịch hay sửa chữa bất cứ dòng lệnh nào tại
nới máy tính chứa phần mềm SMS Brandname. Đây chính là tính mở và tiện dụng
của các hàm API thể hiện trong hệ thống AMES.
4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG
4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình
Để tạo hệ thống khai thác, tra cứu CVT, từ việc xây dựng hệ thống website, ta
mở rộng xây dựng thực nghiệm ứng dụng tra cứu CVT trên máy di động, trước mắt
là thực nghiệm đối với máy di động sử dụng hệ điều hành Android.
Cơ sở dữ liệu: Sử dụng cấu trúc đã thiết kế và kho ngữ liệu CVT sẵn có như đã
trình bày trong chương 2. Công cụ hỗ trợ quản trị CSDL phục vụ lập trình trên máy
di động là phần mềm SQLite Expert Personal 4.2 (64bit). Về cơ bản, CSDL sử dụng
lại các bảng dữ liệu như đã thiết kế trong chương 2. Các bảng dữ liệu có tên
CVT_FTS_... sinh ra trong quá trình xây dựng thuật toán, sử dụng kỹ thuật tìm kiếm
toàn văn (Full Text Search) được nêu trong mục 4.3.3. Ngôn ngữ lập trình: Ngôn
ngữ lập trình sử dụng Java, công cụ lập trình sử dụng Android Studio cùng với hệ
89
thống phần mềm giả lập máy di động Genymotion (các hình ảnh chi tiết trình bày
trong mục 3, phụ lục 8). Sau khi lập trình, sử dụng Android Studio biên dịch thành
tập tin chương trình, cài đặt trên máy di động, chạy như một ứng dụng thông thường.
Thiết kế chương trình: Ý tưởng thiết kế chương trình từ điển CVT trên máy di
động hướng đến môi trường khai thác thuận tiện cho NSD trên máy di động (khác
với thư viện CVT đã xây dựng có địa website www.chuviettat.com):
(1) Thứ nhất, chương trình sử dụng trên máy di động tra cứu CVT theo cách
thông thường, có chức năng tìm kiếm, tra cứu, thống kê...
(2) Thứ hai, chương trình thiết kế tối ưu hóa cho người sử dụng di động: chạy
thường trú trong bộ nhớ, sử dụng tính năng copy. Khi người dùng cần tra cứu trực
tiếp CVT trên file văn bản, email, website…, nhấn màn hình cảm ứng trên cụm CVT
để chọn khối, sau đó chọn copy vào vùng nhớ đệm, chương trình sẽ lấy dữ liệu CVT
trong vùng nhớ đệm, NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm
kiếm CVT, hiển thị dữ liệu tra cứu khung cửa sổ phía trên (vẫn giữ nguyên dữ liệu
cửa sổ bên dưới), sau đó có thể đóng cửa sổ hiển thị tra cứu và tiếp tục công việc.
4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt
Cập nhật dữ liệu mới đồng bộ về máy di động: CSDL trên máy di động (client)
sẽ liên kết với website www.chuviettat.com (lưu trữ trên server) để khi có CVT mới,
dữ liệu sẽ được cập nhật về máy di động như mô hình trong hình 4.5:
a) Chương trình client sẽ lưu lại ngày cập nhật dữ liệu sau cùng (ngày A).
b) Khi client gửi yêu cầu cập nhật dữ liệu (gửi ngày A), chương trình sẽ kiểm
tra trên CSDL tại server (www.chuviettat.com) và trả về dữ liệu mới được
thêm vào (từ ngày A trở đi).
Ngày cập nhật sau cùng
Dữ liệu mới
NSD
CSDL trên máy di động
CSDL trên www.chuviettat.com
Hình 4.5. Đồng bộ dữ liệu về máy di động
90
Dữ liệu tần số, tần suất trên hệ thống www.chuviettat.com
Chương trình được thiết kế không cập nhật dữ liệu này về client. Vì khi làm như
vậy, mỗi lần cập nhật dữ liệu trả về khá lớn và phải cập nhật lại toàn bộ dữ liệu tại
client. Hơn nữa, phần dữ liệu này chỉ phục vụ thống kê. Việc thống kê dữ liệu tần số
và tần suất toàn mạng sẽ được thực hiện trực tuyến (online) khi có kết nối mạng. Khi
nào thực hiện thống kê, client gửi yêu cầu lên server và server chỉ trả về dữ liệu đã
tính toán thống kê (dữ liệu rất nhỏ) cho client và hiển thị. Tại client trên máy di động
có tính toán thống kê tần số, tần suất (chẳng hạn trong top 10 CVT thường sử dụng)
của NSD. Mã lệnh chương trình được giới thiệu trong mục 3 phần phụ lục 3, tiếp theo
trình bày thuật toán chính.
4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển
Vài nét về kỹ thuật tìm kiếm toàn văn (Full Text Search): FTS là kỹ thuật tìm
kiếm toàn văn trên dữ liệu "Full text database", "Full text database" là cơ sở dữ liệu
chứa "toàn bộ" các ký tự (text) của một hoặc một số các tài liệu, bài báo, hoặc của
website [88]. Khác với kỹ thuật tìm kiếm rất cơ bản, đó là thông qua câu
lệnh LIKE của SQL:
Select column_name(s)
From table_name
Where column_name LIKE pattern;
Sử dụng từ khóa LIKE tìm kiếm ở trường đã định trước, do đó lượng thông tin
phải tìm giới hạn lại chỉ trong các trường đó của CSDL; độ phức tạp sẽ là tuyến tính
với số dòng, và số kí tự của từng dòng, hay chính là toàn bộ ký tự chứa trong trường
cần tìm kiếm.
Một kỹ thuật tìm kiếm khác, tốt hơn LIKE, mềm dẻo hơn, giảm độ phức tạp
hơn, đó chính là FTS. FTS khác biệt với các kỹ thuật tìm kiếm thông thường khác
chính là kỹ thuật chỉ mục (Inverted Index). Inverted Index là kỹ thuật chỉ mục (index)
theo đơn vị (term) thay vì chỉ mục theo từng dòng row(document) giống như
MYSQL; Inverted Index là một cấu trúc dữ liệu, nhằm mục đích liên kết (map) giữa
đơn vị (term), và các tài liệu (document) chứa đơn vị đó.
91
Thuật toán tìm kiếm CVT trên máy di động: Search abbreviations on mobile
devices - used Full Text Search (SAOM -FTS):
+ NSD nhấn giữ trên màn hình máy di động; + Chọn cụm CVT/hoặc copy CVT vào vùng nhớ đệm. + Hiển thị khung cửa số giải thích nghĩa CVT; + Thống kê số tần số, tần suất sử dụng.
Mô tả: SAOM-FTS là thuật toán tìm kiếm chữ viết tắt trên di động - sử dụng FTS. Người dùng tra cứu trực tiếp CVT trên file văn bản, email, tin nhắn, website… bằng cách nhấn màn hình cảm ứng trên cụm CVT để chọn khối (trên máy điện thoại di động), sau đó kích chọn biểu tượng từ điển CVT, kết quả tra cứu sẽ hiện thị.
Input: OutPut: Begin
If < Chưa tồn tại CSDL trong bộ nhớ hệ thống của điện thoại > Begin
- Khởi tạo CSDL CVT (T1) - Khởi tạo CSDL CVT phục vụ tìm nhanh (T2)
Begin
- Tách các CVT trong CSDL T1 bởi khoảng trống để có thể tìm chính xác đến
từng ký tự Ví dụ như "ABC"=> A B C
- Chuyển đổi các ký tự đặc biệt về dạng ∞ + (mã ASCII của ký tự) để tìm các
ký tự đặc biệt (AB# => A B ∞35)
- Lưu nội dụng CVT đã chuẩn hóa ở trên vào T2 là CSDL đã được định nghĩa và đánh index theo cơ chế FTS (Full-Text Searches): bảng CSDL được tích hợp sẵn FTS
End
- Sao chép toàn bộ các cơ sở dữ liệu T1 và T2 vào bộ nhớ hệ thống của điện thoại - Mở kết nối đến CSDL
End Else
- Mở kết nối đến CSDL
End If
While do
Begin - Lấy giá trị vùng nhớ đệm, gán vào biến X - Xóa các ký tự không phải là BMP (BMP= Basic Multilingual Plane, như ký tự
mặt cười ):
- Tách các ký tự của X bởi khoảng trống ("ABC"=> A B C):
- Chuyển đổi các ký tự đặc biệt của X về dạng ∞ + mã ASCII của ký tự (AB# =>
A B ∞35):
- < Tìm kiếm CVT X >
92
Begin
- Truy vấn trong CSDL T2 tất cả các CVT chứa X //chú thích mục (1) - Kết quả trùng khớp với tìm kiếm sẽ chứa tất cả các ký tự của X theo thứ
tự trước sau // mục (2).
- Kết nối với CSDL T1 để lấy đầy đủ thông tin, định nghĩa của các CVT
tìm được.
- Lưu danh sách các CVT tìm được vào mảng A.
End
- Tăng tần số và tần suất truy vấn của CVT X lưu vào dữ liệu thống kê trên
CSDL T1. Chú thích mục (3).
- Hiển thị nút thông báo có kết quả tìm kiếm CVT cạnh bên của màn hình điện
thoại và chờ NSD bấm/chạm tay vào If < NSD bấm/chạm vào nút thông báo >
Begin
- Thủ tục ẩn nút thông báo - Hiển thị danh sách giải thích chi tiết CVT tìm được (mảng A) trên màn
hình điện thoại.
- Lưu nhớ thông tin thống kê tần số và tần suất của các CVT trên hệ thống. - Hiển thị thống kê tần số và tần suất sử dụng của các CVT trên hệ thống
End Else - Nút thông báo sẽ tự động ẩn sau N giây (mặc định N = 5s, NSD có thể điều chỉnh trong chức năng cài đặt)
End If
End End While End
Mã nguồn chương trình và chú thích chúng tôi trình bày trong phần phụ lục 3.
4.3.4. Cài đặt và kết quả thực nghiệm
Sau khi xây dựng chương trình, thực hiện lệnh Build trong Android Studio, ta
có được ứng dụng có tên là: "ABC Acronym Dictionary". Sao chép tập tin lên máy
di động và cài đặt biểu tượng ABC Acronym Dictionary, hình ảnh ứng dụng chạy
93
trên máy di động giả lập trên máy tính (bởi Genymotion) như mục 5 phụ lục 5. Hình
ảnh ứng dụng thực tế chạy trên máy di động Samsung Not 3 như mục 6 phụ lục 5.
4.4. ĐÁNH GIÁ KẾT QUẢ
4.4.1. Đánh giá kết quả thực nghiệm AMES
Từ AMES, ta rút ra được những nhận xét, cũng là những bài học:
1. Nghiên cứu của luận án đã kết nối, liên thông theo đặc trưng chuyên ngành
khoa học máy tính đã chỉ ra, như quá trình thực hiện hình 4.6. dưới đây:
Thực tiễn sử dụng CVT + Lý thuyết ngôn ngữ học + Chuẩn hóa, xây
dựng công cụ khai thác => Hình thành hệ thống AMES
Hình 4.6. Tiếp cận nghiên cứu hình thành AMES
Nghiên cứu đã tiếp cận sử dụng CVT từ thực tiễn cùng với nghiên cứu
lý thuyết cơ sở ngôn ngữ học, từng bước chuẩn hóa quy tắc hình thành CVT,
xây dựng nguồn dữ liệu và công cụ ứng dụng khai thác CVT, hình thành hệ
thống khai thác CVT tạo lập môi trường trao đổi thông tin, thu thập, xử lý, lưu
trữ, khại thác CVT. Kết quả nghiên cứu này xem như là gạch nối nhỏ giữa lý
thuyết ngôn ngữ học với thực tiễn sử dụng và với chuyên ngành xử lý ngôn
ngữ tự nhiên trong CNTT của khoa học máy tính, góp phần cùng giải quyết
vấn đề CVT tiếng Việt được nhiều người quan tâm.
2. Đặc điểm AMES hướng đến SECO bởi các tính chất đặc trưng quan trọng
được quan tâm trong xây dựng công cụ khai thác AMES:
a) Tính kế thừa: Cộng sinh, hợp tác cùng phát triển, kế thừa, kết nối với các
hệ sinh thái phần mềm khác.
b) Tính ổn định: Hệ sinh thái có kiến trúc ổn định: Giao diện, quản lý phát
triển-tiến hóa, an ninh và độ tin cậy.
c) Tính mở: Mô hình phát triển mã nguồn mở, cộng đồng CNTT cùng tham
gia. Công cụ phần mềm của AMES được thiết kế cho nhiều tác nhân (nhà
cung cấp dịch vụ VT-CNTT) sử dụng, quảng bá, kết nối, hợp tác, tạo khả
năng cho quá trình đổi mới công nghệ, tăng năng suất lao động.
94
4.4.2. Đánh giá AMES đặc tả theo mô hình UML
Tổng hợp xây dựng AMES như hình 4.7 dưới đây với các chú thích (1), (2), (3)
(4) và (5) là các phần mềm và công cụ khai thác CVT đã xây dựng và cài đặt thực
•
•
•
nghiệm:
(4) Server lưu trữ hàm API: 10.59.10.250:81/CSSbilso urce.asmx
http://www.c huviettat.com Từ điển tra cứu máy tính, di động
•
(5) Cập nhật tự động CVT mới từ Internet; Xử lý nhập nhằng
(1) Công cụ tư vấn đặt tên Brandna me doanh nghiệp
(3) Phương pháp đánh giá tần số, tần suất CVT tiếng Việt
(2) Các hàm API:
GetSMSBrand(, )
Hình 4.7. Kết quả thực nghiệm AMES
(6) Đơn vị phát triển phần mềm: Đóng vai trò chủ yếu trong xây dựng, lập trình
phần mềm, công cụ khai thác CVT, cung cấp giao diện kết nối (hàm API)
và trao đổi thông tin.
(7) Nhà nghiên cứu ngôn ngữ học, chuyên gia tư vấn, quy định ngữ pháp CVT:
Nghiên cứu, xây dựng quy tắc hình thành CVT, dấu hiệu nhận biết CVT, đề
xuất quy định bảng danh mục CVT quốc gia; tham gia tạo các hàm API, đề
xuất phương pháp, xây dựng thuật toán, cập nhật CVT, đánh giá tần số và
tần suất CVT.
95
(8) Nhà cung cấp hạ tầng tài nguyên, đường truyền, không gian lưu trữ: Cung
cấp kết nối Internet, xây dựng hoặc thuê hệ thống Server lưu trữ hàm API,
chẳng hạn như server 10.59.10.250:81/CSSbilsource.asmx.
(9) Người sử dụng, người mua, đặt hàng/thuê phần mềm (SaaS): Đó là NSD từ
điển trên máy di động, thư viên website; NSD di động nhận tin nhắn
(brandname) từ nhà cung cấp dịch vụ quảng bá SMS brandname.
(10) Nhà cung cấp dịch vụ/Doanh nghiệp: Là các đối tác hợp tác sử dụng hệ
thống phần mềm, cung cấp cho NSD dịch vụ đầu cuối: Sử dụng Công cụ tư
vấn tin nhắn Brandname, hợp đồng các doanh nghiệp để cung cấp tin nhắn
cho NSD đầu cuối di động.
Bảng 4.5 dưới đây nêu lên kết quả so sánh các tác nhân, đặc điểm và công cụ
thực nghiệm xây dựng được thể hiện AMES hướng đến SECO:
Bảng 4.5. Kết quả so sánh các tác nhân và đặc điểm AMES và SECO
Chú thích
(1)
Tác nhân của SECO Tác nhân và đặc điểm của AMES Công cụ thực nghiệm của AMES
Software developer
Xây dựng, lập trình phần mềm, công cụ khai thác, cung cấp giao diện kết nối, trao đổi thông tin
(2)
Quy tắc hình thành CVT, các hàm API, phương pháp cập nhật tự động, đánh giá tần số tần suất CVT
State, standards and certifications bodies
(3) Nature
Server lưu trữ hàm API: 10.59.10.250:81/CSSbilsourc e.asmx; Kết nối Internet
(4)
Software users
NSD từ điển trên di động, website; NSD di động nhận tin nhắn (brandname) từ nhà cung cấp dịch vụ.
Đơn vị phát triển phần mềm; Có tính kế thừa (kỹ thuật FTS, API…) Ngôn ngữ học, chuyên gia tư vấn, Quy định ngữ pháp CVT, quy tắc hình thành… Có tính kế thừa tri thức CVT, tính mở Nhà cung cấp hạ tầng tài nguyên, đường truyền, không gian lưu trữ Có tính mở, tính ổn định, sử dụng nguồn lực của nhà CC dịch vụ chuyên nghiệp. Người sử dụng, người mua, đặt hàng/thuê phần mềm (SaaS). Có tính mở khi NSD cập nhật, khai thác CVT, tù điện có tùy biến cá nhân
(5)
96
Software vendor
Sử dụng Công cụ tư vấn tin nhắn Brandname, cùng các Doanh nghiệp cung cấp tin nhắn cho NSD đầu cuối di động.
Nhà cung cấp dịch vụ hợp tác sử dụng hệ thống phần mềm, cung cấp cho NSD dịch vụ đầu cuối. Có tính mở, kết nối đối tác cùng khai thác và phát triển.
Như vậy, AMES hình thành cung cấp môi trường khai thác CVT cho 5 tác
nhân với các đặc điểm, được hợp tác phát triển, có mối liên quan mật thiết lẫn nhau
trong cùng một hệ thống khai thác phần mềm, vì lợi ích chung và riêng của hệ thống
phần mềm đem lại cho mỗi một tác nhân. 4.5. TÓM TẮT CHƯƠNG 4
Chương 4 đã đề xuất xây dựng hệ thống khai thác AMES nhằm thông qua
AMES các nhà khoa học, NSD có thể tham gia cập nhật, kế thừa và khai thác CVT.
Kết quả so sánh các tác nhân AMES và SECO khẳng định ý nghĩa khoa học và ứng
dụng của nghiên cứu: Từ những hiện tượng sử dụng CVT, sự hình thành CVT trong
sự phát triển ngôn ngữ tự nhiên, luận án đã từng bước quy tắc hóa CVT, xây dựng
kho ngữ liệu, khai thác được kho ngữ liệu, phát triển các công cụ, ứng dụng. Từng
bước hình thành môi trường khai thác, chia xẻ giá trị lợi ích riêng đem lại cho mỗi
một tác nhân.
Chương này cũng đã trình bày chi tiết về công cụ từ điển tra cứu CVT trên
máy di động, xây dựng thư viện CVT, công cụ tư vấn đặt CVT thương hiệu
(brandname) cho doanh nghiệp. Trong đó, xây dựng thuật toán SAOM-FTS trong
công cụ từ điển chữ viết tắt trên máy di động, đồng bộ dữ liệu giữa website thư viện
chữ viết tắt và từ điển chữ viết tắt trên máy di động. Cùng với các kết quả thực nghiệm
trình bày trong các chương trước, chương này đã minh họa kết quả thực nghiệm xây
dựng hệ thống khai thác chữ viết tắt AMES.
97
CHƯƠNG 5.
XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT
Chương 5 tập trung phân tích và đề xuất hướng tiếp cận giải quyết vấn đề xử lý
nhập nhằng CVT. Tiếp cận phân tích ngữ cảnh văn bản, nhận diện tình huống sử
dụng CVT trong văn bản. Xây dựng vị từ và hàm nhận diện CVT trong văn bản, từ
đó đề xuất xây dựng cơ sở luật, thuật toán nhận diện và xử lý nhập nhằng CVT trong
văn bản, giới hạn thực nghiệm văn bản trong lĩnh vực chuyên ngành viễn thông.
Một hướng tiếp cận khác xử lý nhập nhằng là dựa vào chỉ số tần suất xuất hiện
CVT. Các CVT có chỉ số tần suất cao được ưu tiên gán ngữ nghĩa tương ứng, tính
phổ dụng CVT càng cao. CVT có tần suất xuất hiện ít và thấp thì ít phổ biến, có thể
là rất cá biệt. Từ ý tưởng này, luận án xây dựng thuật toán, thực nghiệm đánh giá
tần số, tần suất CVT và đưa ra một vài áp dụng thực tiễn.
5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT
5.1.1. Ngữ cảnh sử dụng chữ viết tắt
Trong thực tiễn công việc chuyên môn, tác giả đã lưu trữ, tập hợp 15 loại hình
mẫu văn bản phát hành của VNPT Đà Nẵng, với các mẫu có sẵn (mục 1, phụ lục 5).
Mỗi một mẫu văn bản có hàng trăm văn bản phát hành. Trong đó, người đọc và ký
duyệt văn bản là các nhà quản lý đơn vị. Thống kê sơ lược 100 văn bản:
Bảng 5.1. Bảng thống kê sử dụng chữ viết tắt (Mẫu báo cáo gửi đi)
1. VT
Viễn thông
100%
2. VBG
Văn bản giấy
100%
3. MDV
Mạng dịch vụ
70%
4. …
…
…
STT Sử dụng CVT Nghĩa CVT Tần suất sử dụng
Nhận xét:
1. Ứng với một ngữ cảnh văn bản (cụ thể là mẫu báo cáo gửi đi), CVT được
sử dụng khá thống nhất một số cụm CVT với tần suất sử dụng khá lớn.
98
2. Để đọc và xét duyệt văn bản trước khi ký kết, nhà quản lý nhận diện các
CVT dựa trên sự nhận biết cảm tính của mình, sự quen thuộc, sự lặp lại các
CVT. CVT có tần suất sử dụng càng cao càng dễ nhận biết.
3. Những CVT có tần suất sử dụng thấp, không quen thuộc thường bị yêu cầu
giải thích rõ ngữ nghĩa trong văn bản. Trong một văn bản, vẫn có sự sử
dụng CVT nhập nhằng. Ví dụ như hai CVT khác nhau cùng thể hiện cùng
một nghĩa; trường hợp này thường bị quy về sai chính tả.
Với phân tích nêu trên, cần xây dựng mô hình nhận diện CVT trong văn bản,
nhằm giúp nhận diện được CVT trong văn bản. Giải pháp thực hiện là xây dựng cơ
sở luật (luật sinh) và căn cứ trên ngữ cảnh văn bản, đề xuất xây dựng máy suy diễn
nhận diện CVT.
5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản
Xử lý vấn đề CVT tiếng Việt trong văn bản gặp phải những khó khăn như:
tính đa tạp ngôn ngữ, không nhất quán, lẫn lộn tiếng Anh, tiếng Việt, thiếu quy chuẩn,
không có định hướng, nhập nhằng ngữ nghĩa trong nhiều ngữ cảnh khác nhau. Vấn
đề đặt ra là làm thể nào để nhận diện CVT, mô phỏng sự suy diễn của NSD văn bản
để có được tri thức về CVT, tạo lập môi trường khai thác CVT thuận lợi hơn. Sau đây
là một số khả năng nhận diện tình huống NSD gặp CVT trong văn bản tiếng Việt:
Trường hợp 1: Nếu CVT đã biết, quen thuộc. Đó là CVT có tần suất sử dụng
cao, quen thuộc, NSD đọc và hiểu được dễ dàng. Có thể dựa vào chỉ số tần suất sử
dụng để nhận biết CVT thuộc dạng này.
Trường hợp 2: Nếu CVT mới lạ, chưa gặp bao giờ. Tình huống có thể xảy ra
các trường hợp:
1. CVT đã có định nghĩa: Trong văn bản đã có bảng các CVT chỉ dẫn đầy đủ,
hoặc đã có chỉ dẫn trong đoạn văn bản, NSD tra cứu để sử dụng, đọc và
hiểu ngữ nghĩa CVT. Hoặc có thể CVT đã được định nghĩa trước đó (nhưng
không có trong bảng CVT của văn bản), trường hợp này NSD sẽ gặp khó
khăn, xem như CVT chưa định nghĩa được phân tích dưới đây.
2. CVT chưa định nghĩa: Tình huống này, trong văn bản không có bảng định
nghĩa các CVT, NSD sẽ thực hiện:
a) Tra cứu CVT trên mạng (website, từ điển CVT trên máy di động). Nếu
99
tìm thấy, CVT hợp lý với ngữ cảnh văn bản, NSD có thể sử dụng để
đọc, hiểu ngữ nghĩa CVT; trường hợp tìm thấy CVT, nhưng lại có quá
nhiều ngữ nghĩa. Đây là tình huống nhập nhằng ngữ nghĩa CVT (tình
huống 1).
b) Trường hợp nếu tra cứu mà không tìm thấy CVT, NSD sẽ gặp khó khăn
trong xác định ngữ nghĩa. CVT có thể mới lạ, chưa định nghĩa, nhưng
lặp lại nhiều lần NSD có thể nhận diện dựa vào ngữ cảnh văn nhiều
đoạn văn hoặc cả văn bản. Đây là tình huống xác định không chắc chắn
ngữ nghĩa CVT (tình huống 2).
c) Trường hợp nếu tra cứu mà không tìm thấy CVT, CVT có thể hoàn toàn
mới lạ, chưa định nghĩa bao giờ, được viết tùy tiện vào văn bản, hiếm
khi viết lặp lại, NSD có thể nhận diện dựa vào ngữ cảnh một vài đoạn
văn của bản. Đây cũng là tình huống không xác định được ngữ nghĩa
CVT (tình huống 3)
Trong hai trường hợp đã nêu, cần bóc tách, nhận diện 3 tình huống NSD gặp
CVT trong văn bản tiếng Việt, cần thiết phải có giải pháp nhận diện và xử lý nhập
nhằng CVT.
5.1.3. Xây dựng mô hình nhận diện chữ viết tắt trong văn bản
Để có thể nhận diện được CVT trong văn bản (thủ công/tự động), giải pháp
triển khai là xây dựng cơ sở luật (luật sinh) và căn cứ trên ngữ cảnh văn bản, đề xuất
xây dựng máy suy diễn nhận diện thủ công, tự động CVT. Mô hình nhận diện CVT
trong văn bản đề xuất như hình 5.1.
Văn bản sau khi qua giai đoạn nhận diện lĩnh vực, thể loại, tính chất; phân tích
văn bản bằng cách tách câu, tách từ… ta tiếp tục xem xét tình huống gặp CVT:
100
Văn bản
Gặp CVT
Y
N
Quen thuộc
Tra cứu CVT
Nghĩa CVT
CSDL Bảng CVT
Tìm thấy hợp lý
Không tìm thấy
Tìm thấy không hợp lý
CVT tường minh
Đoán nhận, nhập nhằng ngữ nghĩa CVT, tạo mới CVT
Xử lý nhập nhằng CVT
Hình 5.1. Mô hình nhận diện CVT trong văn bản.
5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt
Từ mô hình nhận diện CVT trong văn bản nêu trên, đề xuất các bước nhận
diện một CVT, xử lý nhập nhằng CVT trong văn bản tiếng Việt chuyên ngành viễn
thông gồm:
1. Xây dựng CSDL CVT tiếng Việt, thư viện CVT trên Internet, từ điển tra cứu CVT trên máy di động, CSDL tần suất sử dụng CVT trên Internet, bảng mã danh mục CVT chuyên ngành.
2. Xây dựng các vị từ (Predicate) nhận diện các tình huống gặp phải CVT trong văn bản, sau đó xây dựng cơ sở luật nhận diện ngữ nghĩa, xử lý nhập
101
nhằng các CVT trên cơ sở xác định CVT xuất hiện trong câu, trong đoạn
và ngữ cảnh văn bản
3. Xây dựng máy suy diễn (MSD) hoạt động theo cơ chế quay lui nhận diện
CVT trong văn bản.
Bước 1 thực hiện xây dựng CSDL CVT tiếng Việt, thư viện CVT xây dựng trên
Internet trong, từ điển tra cứu CVT trên máy di động, xây dựng bảng mã danh mục
CVT chuyên ngành (phụ lục 2). Để đơn giản, ta gọi chung chúng là miền dữ liệu D
các CVT sẵn có. Sử dụng dạng tệp XML để xây dựng CSDL CVT có cấu trúc đơn
giản, dễ cập nhật. Tuy nhiên khi cài đặt trong máy, tệp XML được tổ chức dưới dạng
các mảng dữ liệu một chiều (hình 15, phụ lục 5).
Trong bước 2, xây dựng các vị từ dựa vào các dấu hiệu nhận biết CVT trong
một văn bản từ các quy tắc thành lập, sử dụng CVT:
(1) Văn bản có bảng định nghĩa trước các CVT: Đây là bảng dạng cột định
nghĩa n chữ viết tắt phân biệt, được trình bày trong phần đầu văn bản. Các CVT
thường được lặp lại nhiều lần, phổ biến, được giải thích rõ nghĩa và không có sự nhập
nhằng khi NSD đọc hiểu văn bản.
(2) Văn bản không có bảng định nghĩa trước các CVT: Các CVT được sử dụng
trong văn bản, nhận biết chúng bởi các dấu hiệu nhận biết nêu ở (3) dưới đây.
(3) Các dấu hiệu nhận biết CVT dùng trong văn bản:
a) CVT nằm trong dấu ngoặc đơn (..) ngay sau cụm từ viết đầy đủ khi
CVT được định nghĩa lần đầu, CVT này được sử dụng từ đó về sau.
b) Thông thường CVT là chữ in hoa (có số ít trường hợp viết chữ thường).
CVT là một từ có độ dài có thể đạt tới 15 ký tự.
c) CVT có các ký tự hay dấu đặc biệt và (&), dấu phân cách (/), dấu gạch
ngang (-), dấu chấm (.), kết hợp chữ và số, không dùng dấu cách…
d) CVT tiếng Việt phần lớn dùng phụ âm, không dùng các nguyên âm Â,
Ă, Ơ, Ê, Ô… không dùng các dấu thanh huyền, sắc, hỏi ngã, nặng.
Quá trình nhận diện từ được đề xuất bởi thuật toán trong mục tiếp theo dưới
đây. Ý tưởng thuật toán: Văn bản lấy từ kho dữ liệu văn bản sưu tập, hoặc có thể sử
dụng các tập Copus [23]. Văn bản được tách lần lượt từng đoạn, từng câu S để xử lý.
102
Máy suy diễn hoạt động theo cơ chế quay lui sử dụng cơ sở luật sẽ lần lượt trích từng
từ đơn W trong câu tùy theo ngữ cảnh. Từ đơn W sau khi xem xét các dấu hiệu nhận
biết CVT, xác định rõ CVT, ngữ nghĩa CVT, được cập nhật vào bảng CVT tường
minh, giải thích rõ ngữ nghĩa. Văn bản đầu ra sẽ được chuẩn hóa với Bảng các CVT
tường minh, đầy đủ, không còn sự nhập nhằng CVT, lưu vào kho dữ liệu văn bản đã
chuẩn hóa sử dụng CVT.
Trong bước 3, có thể sử dụng phương pháp khác như so khớp tối đa MMS
(Maximum Matching Segmentation) với CSDL đã được xây dựng trong bước 1 để
nhận diện ngữ nghĩa CVT. Ở đây, các mục tiếp theo trình bày các bước xây dựng
máy suy diễn, nhận diện CVT trong văn bản.
5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT
Để xây dựng cơ sở luật nhận diện từ trong câu, bước đầu tiên là xây dựng các
vị từ và các hàm xử lý liên quan.
Mỗi vị từ dạng P(X), hoặc P(f(X, Y)) có kết quả đúng/True nếu biến X hoặc
hàm f(X, Y) của vị từ thoả mãn điều kiện đang xét, trong đó X ϵ Di và Y ϵ Dj, Di và
Dj là các miền giá trị đã được xác định từ CSDL tập chữ cái tiếng Việt. Vị từ sẽ trả về
kết quả sai/False trong trường hợp ngược lại. Từ những phân tích dấu hiệu nhận biết
CVT, xây dựng các vị từ xác định vị trí của mỗi ký tự là điểm bắt đầu, điểm kết thúc,
hay nằm trong một từ.
5.2.1. Xây dựng các miền dữ liệu
D là tập các CVT (là miền dữ liệu) đã đươc xây dựng trong bước 1 nêu trên.
Với mỗi CVT thuộc D, có các thuộc tính ngữ nghĩa, tần số, lĩnh vực, tần suất xuất
hiện...
V = {A.. Y} là tập 29 chữ cái tiếng Việt in hoa.
A ={A.. Z} là tập chữ cái tiếng Anh in hoa.
P = {.,;:, !, ?, SP} tập các dấu ngắt câu, SP là dấu cách.
N ={0.. 9}.
NA ={A, Ă, Â, E, Ê, I, Y, O, Ô, Ơ, U, Ư} tập 11 nguyên âm đơn.
NAs ={Ă, Â, Ê, Ô, Ơ, Ư} tập 6 nguyên âm đơn có dấu.
103
Gọi =VAPN, * là tập mọi câu (chuỗi) có thể, tùy ý, được xây dựng
bằng cách ghép lần lượt (ký hiệu ghép/Concatenation) các ký tự của .
Từ đơn W(SP})* (không chứa SP). Ví dụ W=’H’’ộ’’i’ = “Hội”.
Một câu S * gồm các từ đơn Wi, i=1..L, với L là số từ có mặt trong S hay
độ dài của S không kể các dấu cách.
5.2.2. Xây dựng vị từ và hàm
Một vị từ là một hàm (function) luôn có giá trị trả về là đúng (true) hoặc sai
(false). Bảng 5.2. là vị từ và hàm được xây dựng cụ thể:
Bảng 5.2. Bảng vị từ và hàm
Vị từ Định nghĩa
1. Vị từ nhận diện CVT định nghĩa mới trong đoạn văn bản
BeginW(W)
EndW(W)
NumWowd(W, <=15)
CheckUpper(W)
CheckSign(W)
CheckSignSpec(W)
AcronymWord(S,W) Xác định từ W có chứa ký tự bắt đầu là "(" hay không Xác định từ W có chứa ký tự kết thúc là ")" hay không Vị từ xác định từ W có tổng số ký tự nhỏ hơn hoặc bằng 15 Vị từ xác định từ W là một từ viết hoa (có tất cả ký tự đề viết hoa) Xác định tất cả ký tự của W thuộc tập V \ NAs = {A.. Y} \ {Ă, Â, Ê, Ô, Ơ, Ư} Vị từ xác định từ W có thể chứa các ký tự đặc biệt trong tập {&, /, -,.} N={0..9} Vị từ nhận diện S là chuỗi chứa chữ viết tắt W trong một câu đang xét
Xác định X là đoạn văn bản Paragraph(X)
Xác định S là câu trong đoạn văn bản Sentence(S)
2. Vị từ xác định văn bản đầu vào có Bảng chữ viết tắt
TableAcromyn(X) Vị từ xác định văn bản X có Bảng T chữ viết tắt định nghĩa trước
3. Vị từ xác định chữ viết tắt có trong bảng
AcronymTable(W, T) Vị từ xác định W là chữ viết tắt trong Bảng T các chữ viết tắt
104
4. Vị từ nhận diện từ trong câu
S là một câu (string) trong văn bản đang rỗng EmptyString(S)
S là một từ đơn trong chuỗi S đang rỗng EmptyWord(W)
5. Vị từ tìm kiếm CVT trên miền dữ liệu CVT sẵn có
FindAcronym(W,D) Vị từ xác định W là các chữ viết tắt trong miền D chữ viết tắt
6. Vị từ xác định chữ viết tắt sử dụng nhập nhằng, nhận diện ngữ nghĩa
Ambiguous(W)
Conjecture(W) Vị từ xác định W là chữ viết tắt có nhập nhằng ngữ nghĩa Vị nhận diện W là chữ viết tắt có ngữ nghĩa nào đó
Vị nhận diện W là chữ viết tắt sử dụng hợp lý AcronymUsed_Ok(W)
7. Vị từ điều khiển
Vị từ kết thúc văn bản EoF()
Vị từ kết thúc đoạn văn bản EoP()
Vị từ báo gặp lỗi khi nhận diện CVT Error()
Kết thúc Finish()
8. Xây dựng các hàm xử lý ký tự và chuỗi
Con(W1, W2,... WL)
ConcatFirstLetter(S)
NumberAcrTable(T)
MaxFrequency(T,W)
NewAcronym(S,W) Ghép liên tiếp các từ đơn Wi, i=1..L. trả về từ ghép. Ví dụ: Con(‘N’, ‘V’)=”NV” Trả về từ ghép mọi chữ cái đầu của các từ đơn W có trong S sau khi loại bỏ các dấu ngắt câu (quy tắc 1 thành lập chữ viết tắt). Ví dụ: ConcatFirstLetter(“Hội đồng Nhân dân”) = “HĐND” Hàm trả về số n là tổng số các CVT đã được định nghĩa trên bảng T. Gán trọng số tần suất sử dụng các CVT trong bảng T là cao nhất bằng 1,0 Hàm trả về chữ viết tắt W mới định nghĩa của chuỗi S bằng cách loại bỏ ký tự đầu"(" và ký tự cuối ")" của W trong câu S.
AcronymT(T,W)
MeanNewAcr (S,W) Trả về chữ viết tắt W đã định nghĩa trong bảng T Hàm trả về câu S là ngữ nghĩa chữ viết tắt W định nghĩa trong dẫu hiệu nhận biết CVT
105
AddAcrnym(T,W) Khi có CVT định nghĩa mới (chưa có trong bảng T), hàm này bổ sung CVT mới vào Bảng T, số CVT trong bảng T tăng lên, bằng n + 1
Trả về câu S là ngữ nghĩa CVT W trong Bảng T MeanAcronym(T,W)
FindAcr(D,W,S)
CurentFrequency(D,W,F)
CurentContext (D,W,C) Hàm tìm kiếm chữ viết tắt W trên miền dữ liệu CVT sẵn có D, trả về ngữ nghĩa trong câu S, nếu không tìm thấy trả về câu rỗng Lấy giá trị trọng số tần suất sử dụng lớn nhất của các CVT có trùng lặp, nhập nhằng nghĩa trong D Lấy giá trị ngữ cảnh của CVT (thuộc tính lĩnh vực CVT, nguồn gốc sử dụng...) trong miền D
5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản
Hiện tượng nhập nhằng xảy ra khi: Một CVT thường có nhiều hơn một nghĩa,
có biểu hiện hiểu lầm, mơ hồ ngữ nghĩa của CVT. Tác động của nhập nhằng làm cho
người đọc, kể cả người viết, hiểu lầm, gặp sai sót, hay bế tắc.
Để khử nhập nhằng nghĩa CVT, các nhà nghiên cứu sử dụng nhiều thông tin
của ngữ cảnh ở nhiều cấp độ (hình thái, ngữ pháp, ngữ nghĩa,...) cùng với các luật suy
diễn ngữ nghĩa. Các luật suy diễn này tạo thành có thể từ thủ công hoặc từ quá trình
bán tự động - tự động hóa, hoặc có sự phối kết hợp giữa chúng. Luật suy diễn xây
dựng bằng tay đòi hỏi công sức lớn và khó có thể bao quát hết mọi trường hợp.
Trong văn bản, hiện tượng nhập nhằng CVT xảy ra trong các trường hợp:
(1) Trường hợp 1: Khi có CVT định nghĩa mới mà CVT này đã có trong bảng
T hiện hành: tức là tồn tại chữ viết tắt W thỏa mãn:
NewAcronym(S,W) =AcronymT(T,W)
và ngữ nghĩa chúng khác nhau:
MeanNewAcr (S,W) ≠ MeanAcronym(T,W)
(2) Trường hợp 2: Nếu trong trường 1 mà xảy ra:
MeanNewAcr (S,W) =MeanAcronym(T,W)
thì trong văn bản có sự định nghĩa CVT trùng lặp, không cần thiết, ta cũng
có thể coi là nhập nhằng định nghĩa, sử dụng CVT trong văn bản.
(3) Trường hợp 3: Nếu phát hiện W là thỏa các dấu hiệu nhận biết CVT trong
106
văn bản, tức là các vị từ sau đây có giá trị True: NumWowd(W, <=15),
CheckUpper(W), CheckSign(W), CheckSignSpec(W). Xác định khả
năng W là CVT; và nếu không tìm thấy W trong bảng T và không có định
nghĩa trước đó, thì đây cũng là sự nhập nhằng, không rõ nghĩa CVT. Việc
tra cứu W trên miền D (tập CSDL CVT sẵn có):
a) Nếu tìm thấy có thể đưa ra nhận diện CVT. Trường hợp CVT có
nhập nhằng ngữ nghĩa, ta dựa vào tần suất sử dụng cao nhất để có
thể chọn CVT đề xuất, nhận diện.
b) Nếu không tìm thấy thì không thể chỉ ra ngữ nghĩa CVT là gì, có
cảnh báo việc sử dụng CVT này chưa chính xác trong văn bản.
5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT
5.3.1. Xây dựng cơ sở luật
Từ các vị từ và các hàm trên đây, tiếp tục xây dựng cơ sở luật:
{Rk, k=1, 2… }
Mỗi luật gắn nhãn Rk có dạng P(X) Q(X) được biểu diễn theo câu lệnh điều
kiện:
Rk: If <Điều kiện> Then
Trong đó:
P(X) = <Điều kiện>, hay giả thiết, gồm các vị từ liên kết với nhau bởi các phép
toán logic And và/hoặc Or.
Còn Q(X) =
đúng True, thì
Cơ sở luật gồm các luật lần lượt như sau:
1. Luật xác định có định nghĩa CVT mới W trong câu S:
R1: If BeginS(W)And EndS(W)
And NumWowd(NewAcronym(S,W))<=15)
And CheckUpper(NewAcronym(S,W))
And CheckSign(NewAcronym(S,W))
And CheckSignSpec(NewAcronym(S,W))
107
Then AcronymWord(S,W)
Với W là một từ thỏa mãn các dấu hiệu nhận biết CVT, nằm bên trong câu S
đang xét. NewAcronym(S,W) trả về W là hàm bóc tách CVT mới định nghĩa.
AcronymWord(S) trả về kết quả là có CVT định nghĩa mới trong câu đang xem xét.
2. Luật xác định sử dụng CVT trong bảng câu văn bản S:
R2: If Not BeginS(W)And Not EndS(W)
And NumWowd(NewAcronym(S,W), <=15)
And CheckUpper(NewAcronym(S,W))
AndCheckSign(NewAcronym(S,W))
AndCheckSignSpec(NewAcronym(S,W))
Then AcronymWord(S,W)
3. Luật xác định CVT mới định nghĩa có "nhập nhằng" trong bảng T:
R3: If AcronymWord(S)
And (NewAcronym(S,W) = AcronymeT(T,W))
And (MeanNewAcr (S,W) ≠ MeanAcronym(T,W))
Then Ambiguous (W)
Luật này xác định nghĩa CVT nhập nhằng, trùng lặp.
R4: If AcronymWord(S)And(NewAcronym(S,W) = AcronymT(T,W))
And (MeanNewAcr (S,W) = MeanAcronym(T,W))
Then Ambiguous(W)
Luật này chỉ ra định nghĩa CVT trùng lặp, không cần thiết, ta cũng có thể coi
là nhập nhằng định nghĩa, sử dụng CVT.
R5: If Not BeginS(W)AndNot EndS(W)
And NumWowd(W, <=15) And CheckUpper(W)
And CheckSign(W)And CheckSignSpec(W)
And (NewAcronym(S,W) ≠ AcronymT(T,W))
And (MeanNewAcr (S,W) ≠ MeanAcronym(T,W))
Then Ambiguous(W)
Luật này chỉ ra việc sử dụng CVT mà không có định nghĩa trước đó, là sự
108
nhập nhằng, không rõ nghĩa. Hoặc có thể rút gọn luật này dựa vào luật R2 ở trên.
R6: If AcronymWord(S,W)And
And (NewAcronym(S,W) ≠ AcronymT(T,W))
And (MeanNewAcr(S,W) ≠ MeanAcronym(T,W))
Then Ambiguous(W)
4. Luật xem xét W là CVT nhập nhằng, so khớp trên miền D để có thể nhận diện
ngữ nghĩa CVT được hay không:
R7: If Ambiguous(W)And FindAcronym(W,D)
Then Conjecture(W)
Luật này tra cứu W trên miền D (tập CSDL CVT sẵn có), nếu tìm thấy có thể
đưa ra nhận diện CVT.
R8: If Ambiguous(W) AndNot FindAcronym(W,D)
Then Not Conjecture(W)
Luật này tra cứu W trên miền D (tập CSDL CVT sẵn có), nếu không tìm thấy
thị không đủ cơ sở để chỉ ra ngữ nghĩa CVT.
5. Các luật xử lý nhận diện CVT sử dụng hợp lý hay không:
R9: If NotAmbiguous (W)
Then AcronymUsed_Ok(W)
Luật này xem xét CVT đang sử dụng W là hợp lý.
R10: If Ambiguous (W)
Then NotAcronymUsed_Ok(W)
Luật này xem xét CVT đang sử dụng W là không hợp lý.
6. Luật điều khiển:
R11: If EoF()Or Error()
Then Finish()
R12: If Error()AndNot EoF()
Then Finish()
R13: If NotEoF()And EmptyString(S)And EmptyWord(W) Error()
Then Finish()
109
5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt
Văn bản đầu vào sẽ được tách lần lượt từng đoạn, từng câu, gọi là S để xử lý.
Xây dựng máy suy diễn cơ chế quay lui (back chaining) theo ý tưởng như sau:
Máy suy diễn sẽ xem xét từng từ W của câu S (từ trái qua phải), khi gặp W
thỏa mãn dấu hiệu nhận biết CVT sẽ nhận diện CVT, làm rõ ngữ nghĩa nhờ cơ sở luật
đã xây dựng. Để đơn giản cách trình bày, ta quy ước gọi AcronymBase là CSDL chữ
viết tắt (trong miền D dữ liệu đã xây dựng), Rules là cơ sở luật đã xây dựng,
AcronymTable là bảng CVT đã định nghĩa trong văn bản đầu vào. Cơ chế hoạt động
của máy gồm bốn thủ tục chính lần lượt là:AcronymSetup(W), Setup1(Rules),
Setup2(Rule, Symbols), WordAcronymSetup(Symbols).
Máy suy diễn được khởi động bằng cách gọi một trong các thủ tục này. Chẳng
hạn, để nhận diện một từ W (trích ra từ câu vào S), sử dụng lời gọi AcronymSetup(W).
Cơ chế suy diễn lùi của máy là so sánh phần kết luận của các luật với các sự kiện cần
xác định là từ W cần nhận diện tại mỗi thời điểm đang xét. Phần kết luận (phần bên
phải) của các luật là phần khởi động tiếp tục theo chu kỳ chọn luật.
Chẳng hạn khi gọi AcronymSetup(W), vị từ BeginS(W) vàEndS(W) xác định
W có dấu hiệu là định nghĩa mới CVT. Nếu luật R1 được sử dụng và được khởi động
{ Khởi động CSDL chữ viết tắt tiếng Việt, được xem là các sự kiện (Facts) }
thì sự kiện thiết lập W là CVT bởi vị từ AcronymWord(S,W):
Procedure AcronymSetup(W)
[1]
If WAcronymTableThen Return(“Success”, Conjecture(W)=.T.)
[2]
Return(Setup1(W))
{ Khởi động cơ sở luật nhận diện chữ viết tắt, nhận diện nhập nhằng}
Procedure Setup1(Rules)
[3]
If Rules = Then Return(“Failure”)
[4]
ARule Chọn một luật ARule từ Rules
(luật gặp đầu tiên, từ trên xuống danh sách luật R1.. Rn)
[5]
Rules Rules { ARule }
//Phép gán giá trị loại trừ luật vừa chọn để có Tập luật mới
[6]
If (AcronymWord(S,W) and Ambiguous(W)) Then
// W là chữ viết tắt và xuất hiện nhập nhằng
[7]
110
If Setup2(ARule) = “Success” Then Return(“Success”,
Conjecture(W)=.T.)
[8]
Return(Setup1(Rules)) // Khởi động luật
{ Nhận diện W chữ viết tắt nhập nhằng, xác định sử dụng trong câu vào S có phù
hợp hay không }
Procedure Setup2(Rule, W)
[9]
If Conjecture(W) Then Return(“Success”,
Conjecture(W)= .T.) // Chữ viết tắt W có thể nhận diện
[10] WordAcronymSetup (W)
{ Xử lý tách lấy cụm chữ viết tắt trong từ (W), lấy ngữ nghĩa CVT }
Procedure WordAcronymSetup (Symbols)
[11]
If W = Then Return(“Success”)
[12] W NewAcronym(S,W)
[13]
If AcronymSetup (W) = “Failure” Then Return(“Failure”)
[14] Return(WordAcronymSetup (W))
Hình 5.2. Cơ chế hoạt động của máy suy diễn nhận diện chữ viết tắt.
Độ phức tạp thuật toán: Gọi n là độ lớn của CSDL chữ viết tắt tiếng Việt, n = ||
AcronymBase || và m là độ lớn của cơ sở luật, m = ||RuleBase||, máy suy diễn hoạt
động theo cơ chế quy lui có độ phức tạp đa thức xấp xỉ O(n*m) cho mỗi chu kỳ nhận
diện một chữ viết tắt từ câu vào S.
5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt
Mục 5.3.2 đã mô phỏng cơ chế hoạt động máy suy diễn nhận diện CVT trong
văn bản chuyên ngành viễn thông. Sau đây là mở rộng đề xuất thuật toán nhận diện
và xử lý nhập nhằng CVT trong văn bản tiếng Việt.
Ý tưởng: Trong mô hình trên, văn bản lấy từ kho dữ liệu sưu tập. Văn bản được
tách lần lượt từng đoạn, từng câu S, tách bảng định nghĩa CVT lưu vào mảng để xử
lý. Với mỗi câu S vào, đọc từng từ đơn W. Nếu phát hiện chúng thỏa các dấu hiệu
nhận biết CVT, xem xét chúng có phải CVT, từ đó tìm ra ngữ nghĩa CVT. Văn bản
đầu ra sẽ được chuẩn hóa với bảng các CVT tường minh, đầy đủ, không còn sự nhập
111
nhằng CVT, lưu vào kho dữ liệu văn bản đã chuẩn hóa sử dụng CVT.
Input: Tập tin văn bản
Output: Văn bản nhận diện đầy đủ CVT, chuẩn hóa CVT
Begin
Open các CSDL D
Khởi động bộ đếm CVT, mảng hai chiều T,L và các biến
Open một tệp Văn bản
Nếu văn bản có bảng chữ viết tắt, gán vào mảng hai chiều T(i,j)
Repeat
Read từng đoạn trong tệp gán vào biến Doan
Read câu S trong đoạn
Repeat
Read từng từ W trong câu S
If
If
If
Trích CVT trong cặp dấu (...):CVT
Trích Ngữ nghĩa CVT trong câu S: NguNghia
Bổ sung CVT vào Bảng T: t(i+1,j+1) = t(CVT, NguNghia)
CVT này được làm rõ ngữ nghĩa, bản T có thêm CVT.
Else
CVT này được nhận diện trong bảng T đã định nghĩa,
Endif
Else
Tìm kiếm CVT trên CSDL D;
- Nếu có, chọn lọc Danh sách các CVT, gán vào mảng L(i,j)
Chọn lọc CVT với điều kiện có ngữ nghĩa L(j) của W tần suất sử dụng
cao nhất trong và sử dụng kỹ thuật FTS để xác định L(j) tương đồng ngữ
nghĩa với câu S.
- Nếu không tìm thấy, cảnh báo sử dụng CVT không phù hợp.
Endif
Endif
112
Until
Until Eof()
End
Thuật toán có sử dụng kỹ thuật tìm kiếm toàn văn FTS (Full Text Search). FTS
là kĩ thuật tìm kiếm trên "Full text database", ở đây "Full text database" là cơ sở dữ
liệu chứa "toàn bộ" các kí tự (text) của một hoặc một số các tài liệu, bài báo.
Đánh giá độ phức tạp thuật toán: Do sử dụng bốn vòng lặp lồng nhau, độ phức
tạp của thuật toán là O(n4). Tuy nhiên, vòng lặp trong cùng (thứ 4) có chứa lệnh so
sánh CVT tìm được với CSDL đã có, tương ứng như một vòng lặp duyệt các mẩu tin
trong CSDL, làm tăng độ phức tạp giải thuật thành O(n5); cần cải tiến thuật giải theo
hướng loại bỏ sự so sánh trực tiếp mỗi CVT tìm được với CSDL đã có.
5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng
Trong thực tế, có nhiều khả năng xảy ra nhập nhằng CVT khi xem xét một văn
bản tiếng Việt. Đề tài tập trung giải quyết vấn đề nhập nhằng CVT xảy ra. Mô hình
CSDL
Chữ viết tắt
Văn bản
đầu vào
Khử bỏ
nhập nhằng CVT
Văn bản
xử lý
nhập nhằng
CVT
Cơ sở luật
khử nhập nhằng
giải pháp được đề xuất như sau :
Hình 5.3. Mô hình kết hợp xử lý nhập nhằng CVT trong văn bản.
Trong mô hình (hình 5.3), văn bản chưa xử lý nhập nhằng có thể bao gồm ba
loại tệp văn bản (.html,.doc,.text); văn bản này được tách thành đoạn, từng câu, từ.
Sau đó kiểm tra từng từ, nếu có dấu hiệu nhận biết CVT, sẽ kiểm tra theo thuận toán
113
trình bày trong mục 5.3.3 để kết hợp với cơ sở luật đã xây dựng và CSDL chữ viết tắt
để khử bỏ nhập nhằng. Việc thực hiện khử một phần các hiện tượng nhập nhằng CVT
đối với văn bản tiếng Việt còn dựa trên các vấn đề:
a) Sử dụng một cơ sở luật để nhận diện CVT nhập nhằng.
b) Dựa trên tiêu chuẩn thống kê được tần số, tần suất sử dụng CVT.
Như vậy, trong một ngữ cảnh một loại hình văn bản chuyên ngành (hạn hẹp),
việc xử lý nhập nhằng CVT có thể dựa trên cơ sở luật để xử lý nhập nhằng, nhận diện
CVT. Vậy trong ngữ cảnh dữ liệu lớn và phức tạp như môi trường Internet, việc xử
lý nhập nhằng CVT, người sử dụng nhận diện CVT cần dựa trên các tiêu chí nhất
định.
Ngành ngôn ngữ học [46] sử dụng khái niệm tần số sử dụng ngôn ngữ để đưa
ra tần số sử dụng CVT như [13]. Từ ý tưởng đó, trên cơ sở lý thuyết xác suất, thống
kê [16], các mục tiếp theo trình bày kết quả nghiên cứu, đề xuất các khái niệm, xây
dựng giải pháp đánh giá tần số, tần suất sử dụng CVT trên mạng Internet để cung cấp
chỉ số hướng đến xử lý nhập nhằng CVT.
5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG
Trên cơ sở lý thuyết ngôn ngữ học [17][28][30] và lý thuyết xác suất thống kê
[16], luận án vận dụng và đưa ra thống kê tần số sử dụng CVT bằng cách kế thừa dữ
liệu CVT trên hệ thống tìm kiếm chuyên nghiệp (như Google, Yahoo…). Từ đó, tìm
cách tính toán, đánh giá tần số sử dụng, tần suất xuất hiện của CVT, đưa ra một chỉ
số tham khảo mức độ sử dụng CVT, làm chỉ số đánh giá CVT.
5.4.1. Tần số chữ viết tắt
Hiện nay, chưa có nhiều công trình, bài báo nghiên cứu đầy đủ đến vấn đề này,
đặc biệt là về tiếng Việt (Kinh). Một số công trình nghiên cứu thu thập và xây dựng
cơ sở dữ liệu CVT tiếng Việt [13] đã thống kê được các CVT thông dụng, nhưng
chưa thống kê được tần suất xuất hiện, nghiên cứu này ghi nhận được 1.151 đơn vị
CVT43, có thống kê tần số xuất hiện, nhưng hầu như không đưa ra các CVT trùng
43Hội Ngôn ngữ học Việt Nam, "Danh sách chữ viết tắt xếp theo tần số" [13] (năm 2002)
nhau và tần suất xuất hiện của chúng. Ở đây, không nói rõ căn cứ, tiêu chí thống kê
114
nào để đưa ra tần số sử dụng CVT. Với cách làm thủ công, thiếu công cụ quản lý, cập
nhật thường xuyên thì cách đánh giá tần số sử dụng là gặp nhiều khó khăn, bất cập;
không theo kịp sự phát triển CVT trong thực tế và xu hướng sử dụng. Một nghiên cứu
về thực trạng của hiện tượng viết tắt từ ngữ [21][26], bằng cách khảo sát tư liệu thực
tế trên 10 tờ báo với phương pháp thống kê thủ công đã đưa ra một số kết luận: Tư
liệu thống kê cho biết tần số sử dụng của từng dạng viết tắt, từ đó cho thấy xu hướng
(theo tần số) cố định hóa các dạng tắt, gợi ý cho việc đưa ra các giải pháp chuẩn hóa
chữ viết tắt trên văn bản.
Các tập Corpus cũng có thể cho phép đánh giá tần số sử dụng CVT tương đối
tập trung. Sử dụng tập Corpus có tên là VNTQcorpus(big).txt - kế thừa kết quả nghiên
cứu [23], tập này có kích thước ~240 Mb, số lượng câu khoảng 1.750.000 câu, trích
xuất từ khoảng 13.000 bài báo trên Internet. Bằng kỹ thuật tìm kiếm thông thường
trên tệp văn bản (TXT), tác giả chỉ tìm thấy hai chữ viết tắt UBND (Ủy Ban Nhân
Dân), không tìm thấy CVT khá phổ biến là KCS (Kiểm tra Chất lượng Sản phẩm),
hay HTX (Hợp tác xã). Điều này chứng tỏ nếu dựa trên các tập Corpus, rất khó có
thể đưa ra tần số, tần suất CVT một cách tiệm cận với thực tế vốn có.
5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt
Luận án xây dựng khái niệm về tần số sử dụng, tần suất xuất hiện CVT tiếng
Việt trên Internet. Ta gọi một bảng số liệu các CVT là bảng có N chữ viết tắt (là bảng
CSDL CVT), nhưng chỉ có k chữ viết tắt khác nhau là x1, x2, …, xk.
Khái niệm tần số sử dụng CVT trên Internet là giá trị số biểu thị kết quả trả
về khi thực hiện tra cứu trên hệ thống tìm kiếm chuyên nghiệp (Internet) trong phạm
vi nào đó tại một thời điểm. CVT xi xuất hiện ni lần khi tìm thấy trên chương trình
tìm kiếm chuyên nghiệp, với 1 ≤ i ≤ k, ta nói ni là tần số sử dụng của CVT xi.
Phạm vi, tiêu chí tìm kiếm tần số sử dụng: Công cụ tìm kiếm có chức năng tìm
kiếm mở rộng, chuyên sâu, theo tiêu chí nào đó (tên miền, gần đúng, chính xác…).
Dựa vào đặc điểm này, có thể đánh giá tần số sử dụng CVT trong một phạm vi nhất
định. Ví dụ, công cụ tìm kiếm cho phép tìm CVT trong phạm vi tên miền .vn. Tiêu
chí tìm kiếm tần số sử dụng trên Internet: Để có kết quả tần số sử dụng có giá trị
chính xác; ta định nghĩa tiêu chí tìm kiếm chính xác, tức là là bọc chuỗi từ khóa cần
115
tìm trong dấu ngoặc kép (""). Các phạm vi giới hạn, tiêu chí tìm kiếm được
định nghĩa chi tiết, công bố trong bài báo số [3].
Nhận xét: Giá trị tần số sử dụng này không phải là duy nhất, luôn biến động
bởi cập nhật thông tin liên tục từ Internet. Số lần sử dụng là trùng lặp, mỗi sự xuất
hiện trên Internet có thể xem như một lần sử dụng, tần số được tăng lên 1 đơn vị.
Khái niệm tần suất xuất hiện CVT tiếng Việt trên Internet
Tần suất xuất hiện CVT tiếng Việt trên Internet là tỷ số giữa tần số sử dụng
CVT trên môi trường Internet và tổng các tần số sử dụng của các CVT trong bảng thống
kê tần số sử dụng CVT đang xem xét trong một đơn vị thời gian, một phạm vi thống
kê nào đó. Hay nói cách khác, với một bảng số liệu thống kê các chữ viết tắt có N giá
trị nhưng chỉ có k giá trị khác nhau x1, x2, …,xk.
Giá trị chữ viết tắt xi xuất hiện ni lần (1 ≤ i ≤ k), ni là tần số của chữ viết tắt xi
Tỉ số fi = là tần suất xuất hiện của của chữ viết tắt xi , với:
n1 + n2 + … + nk = N ; f1 + f2 + … + fk = 1
Hoặc nói cách khác: Tỉ số fi = * 100 được gọi là tần suất xuất hiện của chữ
viết tắt xi , với: n1 + n2 + … + nk = N ; f1 + f2 + … + fk = 100
Ví dụ: Với cách định nghĩa trên, trong phạm vi chỉ định tại một thời điểm, tần
số sử dụng CVT và tần suất xuất hiện CVT được mô tả trong bảng dưới đây:
Bảng 5.3: Tính toán tần suất xuất hiện CVT trong một phạm vi chỉ định
STT Chữ viết tắt Tần suất (%)
1
2
3
4
5
6 fi
f2
f3
f4
f5
f6
100% Phát triển (PT)
Phạm trù (PT)
Phương thức (PT)
Phát thanh (PT)
Phương trình (PT)
Phương Thanh (PT)
Tổng cộng Tần số
(trong phạm vi)
n1
n2
n3
n4
n5
n6
N
116
Với bảng có tổng N giá trị sử dụng của k (k=6) CVT khác nhau, tần số sử dụng
CVT thứ i là các giá trị ni tương ứng. Tần suất xuất hiện CVT “PT” trong phạm vi CVT
sử dụng đã chỉ định trên Internet theo nghĩa “Phát triển” là f1, theo nghĩa “Phương trình”
là f3, theo nghĩa “Phương Thanh” là f6, ...
5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt
CSDL CVT (mục 3.4.1) được xem như bảng dữ liệu đầu vào cần đánh giá tần
suất sử dụng CVT.
Giải pháp đánh giá tần số CVT tiếng Việt trên Internet: Các bước đề xuất tìm
kiếm cập nhật dữ liệu tính toán tần số sử dụng CVT trên Internet:
1) Bước 1: Chuẩn bị bảng dữ liệu CVT, thiết kế các trường lưu giữ kết quả
tần số sử dụng.
2) Bước 2: Thiết lập phạm vi, giá trị cần tìm kiếm CVT trên hệ thống website
tìm kiếm chuyên nghiệp.
3) Bước 3: Xây dựng chương trình tìm kiếm giả lập như thao tác tìm kiếm từ
người sử dụng.
4) Bước 4: Thực hiện chạy chương trình tìm kiếm, ghi nhận thời gian, giá trị
tìm kiếm CVT vào CSDL.
5) Bước 5: Phân tích dữ liệu, dánh giá, sắp xếp và lưu trữ, công bố.
6) Bước 6: Sau một chu kỳ (3 tháng hoặc 6), lặp lại các bước 4, 5.
7) Bước 7: So sánh dữ liệu, đánh giá sự biến động giá trị tần số sử dụng sau
một chu kỳ thời gian.
Giải pháp đánh giá tần suất xuất hiện CVT tiếng Việt trên Internet: Sau khi
có kết quả cập nhật dữ liệu tính toán tần số sử dụng CVT trên môi trường Internet,
cách đánh giá tần suất xuất hiện CVT tiếng Việt như sau:
1) Bước 1: Sắp xếp dữ liệu tần số sử dụng CVT.
2) Bước 2: Chọn lọc các CVT trùng lặp, đa nghĩa.
3) Bước 3: Lựa chọn phạm vi tần số xuất hiện để thực hiện tính toán tần suất
xuất hiện CVT theo công thức:
117
fi = *100
Trong đó: N: Tổng số các CVT giống nhau nhưng có ngữ nghĩa
khác nhau, ni là tần số sử dụng của chữ viết tắt xi
4) Bước 4: Sắp xếp CVT theo giá trị fi giảm dần, lưu trữ, nhận xét, công bố.
5) Bước 5: Sau một chu kỳ (3 hoặc 6 tháng), lặp lại các bước 2, 3, 4.
6) Bước 6: So sánh dữ liệu, đánh giá sự biến động giá trị tần suất xuất hiện
sau một chu kỳ thời gian.
5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm
Thuật toán ghi nhận, đánh giá tần số CVT trên Internet (Assessment frequency
Vietnamese abbreviations on the Internet, viết tắt là AFVAI).
1) Thuật toán AFVAI
Input: File dữ liệu CVT, phạm vi tìm kiếm trên yahoo.com
Output: File dữ liệu tần số sử dụng CVT theo các tiêu chí.
Begin
Open CSDL làm việc trung gian
Thiết lập các tiêu chí, phạm vi tìm kiếm
Lựa chọn và Khởi động trình duyệt.
Repeat
Read CVT của file đầu vào
Truyền tham số trình duyệt tìm kiếm
giá trị CVT trong phạm vi, tiêu chí
Open tệp HTML sau khi có kết quả tìm kiếm trả về
Read file HTML
Dùng Biểu thức chính quy tìm giá trị số
"(.*) kết quả "
So khớp và Lưu giữ giá trị vào bảng theo phạm vi
tương ứng
Lưu giữ ngày tìm kiếm
Until .
Hiển thị Bảng kết quả, Lưu kết quả vào File
End.
118
2) Triển khai thực nghiệm và đánh giá kết quả
Triển khai thực nghiệm giải pháp theo các bước đã nêu, chọn hệ thống tìm
kiếm chuyên nghiệp để khai thác dữ liệu CVT là Yahoo.com, sử dụng ngôn ngữ lập
trình C# để triển khai xây dựng chương trình. Chương trình nhận danh sách CVT
trong CSDL đầu vào, khởi động trình duyệt Browser (Google Chrome hoặc Firefox),
truyền tham số tìm kiếm CVT, phạm vi, tiêu chí tìm kiếm. Chương trình tự động hóa
tìm kiếm. Sau khi tìm kiếm xong nhận lấy kết quả tệp mã nguồn (source code dạng
html) từ trang web, đọc kết quả tìm kiếm được và lưu vào CSDL. Chương trình bao
gồm các lớp (class) trình bày chi tiết trong bài báo số [3].
Đánh giá độ phức tạp thuật toán: Do sử dụng một vòng lặp lồng nhau, độ phức
tạp của thuật toán là O(n). Tuy nhiên, lệnh so khớp CVT tìm được với CSDL đã có,
tương ứng như một vòng lặp duyệt các mẩu tin trong CSDL, làm tăng độ phức tạp
giải thuật thành O(n2). Ngoài ra độ phức tạp còn phụ thuộc kết nối mạng Internet và
“cộng sinh” vào hệ thống tìm kiếm Yahoo.com, cho nên thuật toán trên chủ yếu sử
dụng trong thực nghiệm để phân tích kết quả.
Thực hiện chương trình và cập nhật dữ liệu tần số sử dụng CVT
1) Chạy chương trình, tiêu chí tìm kiếm chính xác cả cụm từ (bọc chuỗi từ khóa
trong dấu ngoặc kép "…"), trong các phạm tìm kiếm đã định nghĩa. Chương
trình chính chạy trong khung cửa sổ Main (hình 18 phụ lục 5).
2) Giao diện chương trình khi thực hiện xong đưa ra kết với các giá trị tìm kiếm
được là các tần số CVT sử dụng theo từng phạm vi đã định nghĩa (các cột).
Thực hiện Save as để lưu kết quả ra File CSV phục vụ cho lưu trữ và xử lý
tính toán tần suất xuất hiện CVT (hình 5.7):
Hình 5.4. Kết quả thực hiện chương trình cập nhật tần số sử dụng CVT
119
3) Kết quả hình 5.4 cho thấy, trong phạm vi N_VN1, chữ viết tắt PT với nghĩa
“Phát triển” có tần số sử dụng định nghĩa 184 lần (thời điểm 24/03/2016), với
nghĩa “Phương trình” có tần số sử dụng định nghĩa 184 lần…, chữ viết tắt PT
có tần số sử dụng lên đến 345.000 lần.
4) Ghi chú: Chương trình thực nghiệm là sự mô phỏng thao tác người sử dụng
tìm kiếm theo cách thủ công để Yahoo.com chấp nhận cho phép tìm kiếm
CSDL. Do đó, các tệp đầu vào cần phải tách dữ liệu mức độ vừa phải (nên
dưới 50 dòng) để Yahoo không từ chối phục vụ. Để chạy chương trình số
lượng lớn dữ liệu, cần phải sử dụng nhiều máy tính, trong nhiều khoảng thời
gian để có kết quả như mong đợi.
5.4.5. Kết quả thực nghiệm và đánh giá
Sử dụng nhiều máy tính chạy chương trình, trong nhiều khoảng thời gian. Dữ
liệu đầu vào có 4.542 mẫu tin (với hơn 2.300 mẫu CVT thông dụng chọn lựa trong
CSDL đã có), tách thành gần 100 File dữ liệu đầu vào. Dữ liệu đầu ra với gần 100
file tương ứng, sau đó được ghép lại bảng dữ liệu tổng thể tần số sử dụng CVT.
Sau khi có bảng dữ liệu tần số sử dụng CVT, thực hiện tính toán tần suất sử
dụng theo các bước đã đề xuất trong giải pháp trên đây. Trước mắt, kết quả đưa ra
120
được hơn 30 bảng tần suất xuất hiện các CVT với những cụm viết tắt giống nhau. Ví
dụ: Kết quả tính toán tần suất chữ viết tắt PT trong phạm vi N_VN1 tại 2 thời điểm
khác nhau là ngày 15/03/2016 và 25/03/2016:
Ngày 15/3/2016
Ngày 25/03/2016
Bảng 5.4. Kết quả thực hiện tính toàn tần số sử dụng, tần suất xuất hiện CVT
STT
Chữ viết tắt
N_VN1
N_VN1 Tần suất %
Tần suất
%
Phương trình (PT)
Phát triển (PT)
Phương Thanh (PT)
Phát thanh (PT)
Phương thức (PT)
Phạm trù (PT)
Tổng cộng
1
2
3
4
5
6
PT
63
30
2,9
2,5
1,5
0,0
100
63,1
30,2
2,8
2,5
1,5
0,0
100
382
182
16
14
9
0
603
333.000
385
184
17
15
9
0
610
345.000
Phân tích bảng trên, với 6 giá trị ngữ nghĩa khác nhau chữ viết tắt PT:
1) Tần số sử dụng gia tăng sau 10 ngày, chữ viết tắt PT tăng từ 333.000 lên
345.000, tức là tăng số lần sử dụng lên 12.000 lần; CVT gia tăng chứng tỏ
2) Tần suất sử dụng của Phương trình (PT) tại thời điểm 15/03/2016 là
sự sử dụng CVT ngày càng nhiều trên mạng Internet.
63,04%; Phát triển (PT) là 30,03%, Phương Thanh (PT) là 2,97%... Đến
ngày 25/3/2016, tần suất biến đổi nhưng không đáng kể. Chữ viết tắt PT có
tần suất sử dụng là 345.000 lần; tuy nhiên chữ viết tắt PT theo ngữ nghĩa
“Phương trình” chiếm tần suất sử dụng cao nhất 63,11% với tần số sử dụng
định nghĩa là 385 lần. Giá trị này cho thấy ngữ nghĩa “Phương trình” của
chữ viết tắt PT là phổ biến hơn cả. Chỉ số cao nhất này chỉ dấu với một chữ
viết tắt PT, ngữ nghĩa “Phương trình” là có xác suất xuất hiện cao nhất.
Nhờ chỉ số tần suất này, vấn đề xử lý nhập nhằng ngữ nghĩa CVT có một
hướng tiếp cận giải quyết, tức là chọn ngữ nghĩa CVT theo tần suất sử dụng
3) Công bố trên www.chuviettat.com [74] về kết quả tần số, tần suất xuất
cao nhất.
hiện các CVT, dự kiến sẽ công bố giá trị tăng giảm tần suất sau một thời
121
gian; sắp xếp giảm dần theo giá trị tần suất. Đưa ra cảnh bảo các giá trị
giảm (CVT là nhãn hiệu, thương hiệu). NSD có công cụ để tự đánh giá là
các CVT mình đang sở hữu; chức năng tra cứu CVT sẽ bổ sung thêm giá
4) Tương quan giữa thị phần dịch vụ và chỉ số tần suất xuất hiện chữ viết tắt:
trị tần suất xuất hiện và thời gian đánh giá.
Bằng phép so sánh, đối chiếu, ta nhận thấy có sự tương quan tần suất CVT
với những chỉ số thị phần hay xếp hạng thương hiệu; chẳng hạn các ví dụ
dưới đây:
- Ví dụ 1: Tần suất xuất hiện 8 cụm CVT (là thương hiệu thức ăn
nhanh) so sánh với thị phần thương hiệu bàn luận trên mạng xã
hội trong hình 19, bảng 1, phụ lục 5.
- Ví dụ 2: Tần suất xuất hiện 5 CVT (là thương hiệu nhà mạng di
động) so sánh với thị phần dịch vụ các nhà mạng di động tương
ứng (nguồn số liệu: Bộ Thông tin Truyền thông), bảng 5.5:
Bảng 5.5. Tương quan tần suất CVT và thị phần dịch vụ
STT NGHIAVIET N_VN1
Tần
suất %
1 Viettel
687.000
Thị phần
%
43,5
So sánh
Prec
0,43
32,2
2 MobiFone
688.000
31,8
0,50
32,3
3 VinaPhone
489.000
17,5
0,57
22,9
4 Vietnamobile
127.000
4,1
0,59
6,0
5 GMobile
140.000
2.131.000
6,6
100
3,2
100
0,67
6.570%
5.960%
Viettel
32.238%
22.947%
MobiFone
VinaPhone
Vietnamobile
32.285%
GMobile
122
Hình 5.5. Biểu đồ tần suất CVT là thương hiệu di động trên Internet
Sự tương quan giữa chúng cho phép tiếp cận: Dựa vào tần suất xuất hiện CVT
(là thương hiệu, nhãn hiệu) có thể đưa ra chỉ số lượng hóa, sử dụng để dự đoán thị
phần, mức độ phát triển thương hiệu, nhãn hiệu. Doanh nghiệp có thể tham khảo chỉ
số này để đánh giá việc quảng bá, truyền thông của mình.
Lấy ý tưởng từ chỉ số tỷ lệ chính xác (Precision), lập tỷ lệ so sánh giữa Tần
suất và Thị phần như cột thứ 6 của bảng 5.5. Kết quả nhận thấy tỷ lệ Precision này
tăng dần đối với những doanh nghiệp có thị phần nhỏ dần: Điều này hợp lý bởi các
doanh nghiệp mới ra đời hay nhỏ hơn, ít lợi thế cạnh tranh hơn, thị phần phần thấp
thông thường gia tăng quảng bá thương hiệu; hay nói cách khác là xác suất về tần
suất xuất hiện trên truyền thông lớn hơn.
Nhận xét kết quả thực nghiệm
1. So sánh với phương pháp đánh giá tần số CVT theo Hội ngôn ngữ học Việt
Nam [11][9] và tần số CVT xuất hiện trong Corpus, phương pháp này có
những ưu điểm nhất định. Dựa trên nguồn dữ liệu sẵn có của các hệ thống
website tìm kiếm chuyên nghiệp, chúng ta có thể trích lọc các thông tin
hữu ích về tần số sử dụng và tần suất xuất hiện CVT (công cụ phần mềm
thống kê này thể hiện tính cộng sinh của AMES).
123
2. Về kết quả tần số, tần suất xuất hiện các CVT, công bố giá trị tăng giảm
tần suất sau một chu kỳ thời gian (3-6 tháng); sắp xếp giảm dần theo giá trị
tần suất. Đưa ra cảnh bảo các giá trị giảm (CVT là nhãn hiệu, thương hiệu).
NSD có công cụ để tự đánh giá là các CVT mình đang sở hữu. Sau một chu
kỳ thời gian sẽ có bổ sung giá trị tăng/giảm tần suất xuất hiện.
3. Tương quan giữa thị phần dịch vụ và chỉ số tần suất xuất hiện chữ viết tắt:
Bằng phép so sánh, đối chiếu, đưa ra sự tương quan tần suất CVT với
những chỉ số thị phần hay xếp hạng thương hiệu (hình 5.7 và 5.8). Sự tương
quan giữa chúng cho phép đưa ra cách tiếp cận: dựa vào tần suất xuất hiện
CVT (thương hiệu, nhãn hiệu) có thể lượng hóa, sử dụng để dự đoán thị
phần, mức độ phát triển thương hiệu của doanh nghiệp.
4. Một số hạn chế của giải pháp: còn phụ thuộc vào dữ liệu có được trên
yahoo.com, chương trình là sự mô phỏng tự động việc tìm kiếm thủ công.
Nếu dữ liệu đầu vào lớn, cần nhiều thời gian, nhiều máy tính để chạy
chương trình và ghi nhận dữ liệu. Dữ liệu trên Interrnet sử dụng bảng mã
tiếng Việt nhiều loại là rào cản cho dữ liệu chưa đầy đủ, chuẩn xác.
5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt
Với giải pháp đề xuất, luận án đưa ra những ứng dụng, cụ thể:
1. Sự gia tăng tần suất (sau một khoảng thời gian đánh giá) cho thấy bước
phát triển và sử dụng CVT, đặc biệt đối với thương hiệu, nhãn hiệu; chứng
tỏ sự lặp lại, sự quan tâm của truyền thông; lưu trữ, quan sát chỉ số này
giúp cho việc tư vấn phát triển, nhận diện thương hiệu. Sự giảm tần suất
CVT cho thấy việc truyền thông có chiều hướng giảm. Việc này có ý nghĩa
ứng dụng trong tư vấn doanh nghiệp phát triển truyền thông.
2. Với mỗi phạm vi sử dụng, tần số xuất hiện CVT giúp tư vấn chọn lựa
phương thức truyền thông để đạt hiệu quả mong đợi. Chẳng hạn CVT là
thương hiệu xuất hiện nhiều nhất trên tên miền .com thì quảng bá trên
website có tên miền này sẽ hiệu quả hơn.
3. Bằng phép so sánh, đối chiếu, rút ra sự tương quan tần suất CVT với những
chỉ số thị phần, xếp hạng thương hiệu. Sự tương quan giữa chúng cho phép
124
dựa vào tần suất xuất hiện CVT đưa ra chỉ số lượng hóa trong phát triển
thương hiệu, thị phần của doanh nghiệp.
4. Chỉ số tần suất xuất hiện: Cho phép một cách tiếp cận xử lý nhập nhằng
ngữ nghĩa, nhận diện CVT dựa trên chỉ số tần suất CVT. Các CVT có chỉ
số tần suất fi cao được ưu tiên gán ngữ nghĩa tương ứng, tính phổ dụng
CVT càng cao, có sức sống trong thực tiễn. CVT có tần suất xuất hiện ít
và thấp thì ít phổ biến, cũng có thể là rất cá biệt.
5.5. TÓM TẮT CHƯƠNG 5
Chương 5 đã phân tích và đề xuất giải quyết vấn đề xử lý nhập nhằng CVT.
Triển khai đề xuất hai hướng tiếp cận xử lý nhập nhằng CVT.
Hướng thứ nhất xử lý nhập nhằng CVT có nội dung trọng tâm là xây dựng vị
từ và hàm nhận diện CVT trong văn bản, từ đó đề xuất xây dựng cơ sở luật, thuật toán
nhận diện và xử lý nhập nhằng CVT trong văn bản, giới hạn nghiên cứu và thực
nghiệm văn bản trong lĩnh vực chuyên ngành viễn thông.
Hướng tiếp cận khác để xử lý nhập nhằng luận án đề xuất dựa vào chỉ số tần
suất xuất hiện CVT, tức là tần suất CVT cực đại. Triển khai ý tưởng này, xây dựng
giải pháp và thuật toán AFVAI, thực nghiệm đánh giá tần số, tần suất CVT trên mạng
Internet và đưa ra một vài ứng dụng thực tiễn. Chỉ số tần suất xuất hiện CVT cũng là
cơ sở cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa và nhận diện CVT dưạ
vào tần suất CVT cực đại có được.
Ý tưởng và thực nghiệm kết quả nghiên cứu cho phép đề xuất một phương
pháp thống kê ngôn ngữ học trên Internet, để quan sát và phân tích các hiện tượng
phát triển ngôn ngữ. Chẳng hạn như tìm những từ, cụm từ mới xuất hiện, có thống kê
tần suất xuất hiện (theo định kỳ thời gian), lưu trữ phân tích; từ đó quan sát được mức
độ quan tâm của truyền thông và sử dụng chúng, giúp ta thấy được sự phát triển của
từ vựng trong ngôn ngữ học.
125
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Phần này tóm tắt nội dung luận án, đánh giá những kết quả đạt được, đóng
góp khoa học và thực tiễn ứng dụng, đồng thời nêu lên những hạn chế và hướng phát
triển nghiên cứu trong tương lai của luận án.
1. KẾT LUẬN
1.1. Tóm tắt nội dung luận án
Luận án trình bày kết quả nghiên cứu lý thuyết của tác giả về ngôn ngữ, nguồn
gốc phát triển, những nhân tố làm cho ngôn ngữ biến đổi và phát triển; nêu lên những
vấn đề về XLNNTN đặt trong bối cảnh chung để tiếp cận nghiên cứu vấn đề ngữ
nghĩa và nhập nhằng ngữ nghĩa. Tìm hiểu sự biến đổi phát triển ngôn ngữ tiếng Việt
thông qua hai vấn đề: Sự biến đổi từ vựng và Sự biến đổi ngữ nghĩa. Đây là cơ sở lý
luận của ngôn ngữ học để luận án tiếp cận nghiên cứu vấn đề nguồn gốc, sự hình
thành CVT tiếng Việt, khẳng định có ý nghĩa khoa học và thực tiễn: Hệ thống từ vựng
của ngôn ngữ luôn biến đổi phát triển, trong đó phương thức viết tắt, tạo lập các chữ
viết tắt làm xuất hiện các từ ngữ mới. Từ đó phân tích các hạn chế, phát hiện đặt vấn
đề cần nghiên cứu của luận án: Hiện tượng nhập nhằng trong xử lý tiếng Việt, tiếp
cận xử lý vấn đề chữ viết tắt tiếng Việt.
Tiếp theo, lần lượt trong các chương 2, 3, 4 và 5, nội dung đã đi sâu nghiên
cứu vấn đề CVT trong thực tiễn với lịch sử hình thành, nhu cầu sử dụng, đề xuất khái
niệm ngữ nghĩa CVT, sự biến đổi ngữ nghĩa CVT, đề xuất khái niệm sự nhập nhằng
ngữ nghĩa CVT và xử lý nhập nhằng CVT. Từ đó, nghiên cứu sự hình thành CVT
thông qua việc mô hình hóa, xem xét kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp
và xây dựng được các quy tắc thành lập CVT. Để tạo lập môi trường nghiên cứu và
khai thác CVT, tác giả đề xuất xây dựng AMES - hệ thống khai thác CVT, hướng đến
một giải pháp tạo ra môi trường khai thác có tính cộng đồng, nhiều người sử dụng
cùng tham gia.
Triển khai thực nghiệm xây dựng AMES bằng cách xây dựng nguồn tài
nguyên CVT tiếng Việt, triển khai phương pháp thu thập dữ liệu (thủ công, tự động),
thực nghiệm thuật toán tìm kiếm và cập nhật CVT mới trên mạng Internet về CSDL
126
đã xây dựng; triển khai giải pháp xử lý nhập nhằng CVT, trong đó có hướng tiếp cận
xử lý nhập nhằng dựa vào chỉ số tần suất xuất hiện CVT. Xây dựng thuật toán, cài
đặt và thực nghiệm đánh giá tần số, tần suất CVT, đưa ra một số ứng dụng thực tiễn
cho doanh nghiệp. Xuyên suốt quá trình nghiên cứu và thực nghiệm, tác giả đã xây
dựng từng bước các công cụ phần mềm, hình thành nên hệ thống AMES - là môi
trường khai thác CVT, tạo lập hệ thống khai thác CVT ngày càng thuận lợi, tạo cơ
hội trao đổi, chia xẻ kinh nghiệm, kết quả nghiên cứu và áp dụng thực tiễn.
1.2. Các kết quả đạt được
Qua quá trình thực hiện mục tiêu nghiên cứu đã đặt ra, luận án đã có 4 đóng
góp khoa học và thực tiễn ứng dụng, cụ thể với 7 nội dung đánh dấu từ (1) đến (7)
như sau:
1. Phát hiện và xây dựng kho ngữ liệu chữ viết tắt
Xây dựng kho ngữ liệu CVT tiếng Việt (1). Kho ngữ liệu được cập nhật từ nhiều
nguồn dữ liệu khác nhau theo sự biến động và phát triển CVT trong thực tiễn với
phương pháp thủ công/tự động. Dữ liệu được từng bước chuẩn hóa và phân lớp.
Hiện nay đã có khoảng 7.000 CVT tiếng Việt (có cả CVT nội sinh và ngoại
nhập) đã biên tập lưu trữ trong CSDL, từng bước chuyển song ngữ (Việt - Anh)
những CVT thông dụng.
2. Tổng kết các quy tắc hình thành chữ viết tắt, xây dựng hệ thống khai
thác chữ viết tắt
Xây dựng các quy tắc hình thành CVT, từng bước chuẩn hóa quy tắc thành
lập, sử dụng CVT, góp phần phát triển ngôn ngữ tiếng Việt (2): Luận án đã tiếp cận
nghiên cứu sự hình thành CVT thông qua việc mô hình hóa sự hình thành, xem xét
kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp để xây dựng và công bố 9 quy tắc
hình thành CVT. Tổng hợp các yếu tố ảnh hưởng đến hình thành CVT, so sánh với
những quy định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ dấu hiệu nhận biết CVT
trong văn bản.
Xây dựng AMES, hệ thống khai thác và xử lý CVT tiếng Việt (3): Luận án đề
xuất AMES, mô hình hóa hệ thống khai thác CVT. Đó là môi trường khai thác CVT
tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm, được triển khai thực nghiệm để
tạo lập kết nối giữa các đối tượng NSD, chuyên gia nghiên cứu, doanh nghiệp, lập
127
trình viên, nhà cung cấp hạ tầng với nhau, kết quả cụ thể: Sử dụng hạ tầng viễn thông,
kết nối thu thập dữ liệu, hệ thống từ điển, đồng bộ dữ liệu, người sử dụng khai thác,
hàm API kết nối người lập trình, nhà cung cấp dịch vụ viễn thông gửi SMS đến các
mạng di động qua gateway định sẵn, doanh nghiệp sử dụng tư vấn đặt tên SMS
Brandname thông qua website…
3. Xử lý nhập nhằng chữ viết tắt
Xử lý nhập nhằng CVT (4): Luận án xây dựng 27 vị từ điều khiển, nhận diện
CVT trong văn bản; xây dựng 12 hàm xử lý chuỗi; lập 12 luật trong cơ sở luật làm
căn cứ xây dựng máy suy diễn nhận diện CVT và triển khai thử nghiệm trong văn
bản chuyên ngành viễn thông. Đề xuất giải pháp và xây dựng công cụ thống kê tần
số, tần suất CVT tiếng Việt. Chỉ số tần số, tần suất giúp nhà nghiên cứu quan sát, lưu
trữ, thống kê và phân tích các hiện tượng phát triển ngôn ngữ tiếng việt nói chung và
CVT nói riêng qua từng thời điểm. Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho
phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa CVT.
4. Ứng dụng và khai thác chữ viết tắt
Tạo lập từ điển CVT trên máy tính, máy điện thoại di động (5): Sử dụng nguồn
44 và Từ điển CVT trên máy di động45. Hai hệ thống này có sự đồng bộ dữ liệu với
tài nguyên CVT tiếng Việt để xây dựng hai hệ thống từ điển: Website thư viện CVT
nhau đảm bảo thống nhất chung nguồn dữ liệu; tuy nhiên có sự tùy biến cá nhân khi
sử dụng CVT trên máy di động. Thuật toán tìm kiếm CVT nêu trên có sử dụng kỹ
thuật tìm kiếm toàn văn FTS cho phép NSD tra cứu nhanh chóng, nhận biết CVT
nhập nhằng ngữ nghĩa.
Xây dựng các ứng dụng khác như (6): Xây dựng ứng dụng máy tìm kiếm CVT
mới, đề xuất và xây dựng công cụ quảng bá thương hiệu Brandname cho doanh
nghiệp, công cụ tư vấn đặt tên Brandname cho doanh nghiệp (tránh trùng lặp, nhập
nhằng ngữ nghĩa), từ điển CVT trên máy di động … Các ứng dụng này là những thành
phần trong hệ thống AMES. Xây dựng 4 thuật toán và triển khai thực nghiệm có kết
44 http://www.chuviettat.com
45 ABC Acronym Dictionary
quả: Thuật toán SENVA - cập nhật tự động CVT mới từ Internet, thuật toán SAOM-
128
FTS - cài đặt từ điển chữ viết tắt trên di động, CSBCOM - tư vấn thương hiệu, thuật
toán AFVAI - ghi nhận tần số CVT trên Internet.
Xây dựng công cụ thống kê CVT và đề xuất chuẩn hóa sử dụng CVT ở phạm
vi chuyên ngành và quốc gia (7): Luận án xây dựng khái niệm tần số, tần suất CVT
trên Internet, đề xuất giải pháp và xây dựng thực nghiệm công cụ thống kê CVT tiếng
Việt, làm cơ sở đánh giá, lượng hóa chỉ số sử dụng và sự phát triển CVT trong thực
tiễn. Với công cụ này, tác giả đề xuất ý tưởng về một giải pháp tiếp cận thống kê ngôn
ngữ học trên Internet để quan sát và phân tích các hiện tượng phát triển ngôn ngữ nói
chung.
Luận án còn đề xuất chuẩn hóa sử dụng CVT ở phạm vi quốc gia: Cần thiết
phải xây dựng và ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng
CVT có tính gợi nhớ, dễ hiểu, dễ sử dụng, tạo điều kiện trao đổi chia xẻ thông tin,
khai thác CSDL quốc gia được dễ dàng và đồng bộ.
Tóm lại, luận án tìm hiểu nền tảng lý thuyết thực hiện đề tài: Xác lập cơ sở lý
thuyết ngôn ngữ học, XL NNTN và thực tiễn sử dụng CVT; xây dựng CSDL, thuật
toán, triển khai thực nghiệm đạt kết quả, hướng đến khai thác, ứng dụng. Luận án có
ý nghĩa thực tiễn: Xây dựng được kho ngữ liệu CVT, xây dựng nguồn dữ liệu,
phát triển môi trường nghiên cứu XL CVT tiếng Việt, xây dựng các công cụ khai thác
CVT, góp phần nâng cao chất lượng một số dịch vụ của ngành VT, CNTT.
1.3. Hạn chế của luận án
Bên cạnh những đóng góp, luận án còn có những hạn chế nhất định:
Vấn đề xử lý nhập nhằng CVT chỉ giới hạn trong chuyên ngành VT-CNTT,
chưa mở rộng triển khai cho mọi loại hình văn bản; một số thuật toán, một số hàm
chưa thật sự tối ưu do sự phức tạp của vấn đề nghiên cứu; việc xây dựng AMES chưa
hoàn thiện bởi nhu cầu cần nhiều công cụ phần mềm hơn nữa, cần có sự trao đổi, hợp
tác của các chuyên gia, nhiều tác nhân tham gia.
Nghiên cứu CVT liên quan đến chuyên ngành ngôn ngữ học, tuy luận án đã
có cố gắng công bố nội dung nghiên cứu trong hội thảo chuyên ngành [8], nhưng tác
giả nhận thấy cần có sự đầu tư nghiên cứu chuyên môn lý thuyết ngôn ngữ học sâu
129
hơn nữa, đồng thời cần có sự góp ý, phản biện và thẩm định của các chuyên gia ngôn
ngữ học.
Ngoài ra, cần phải nghiên cứu thêm, đặt bài toán CVT trong miền dữ liệu
(domain) để có phương pháp xử lý nhập nhằng CVT hợp lý. Tìm hiểu thêm Word
Embedding (tên gọi chung cho các mô hình ngôn ngữ và các phương pháp học theo
đặc trưng trong XLNNTN) để giải quyết tốt hơn các vấn đề đặt ra.
2. HƯỚNG PHÁT TRIỂN
Luận án tiếp tục phát triển nghiên cứu các vấn đề sau:
1. Nghiên cứu, mở rộng trao đổi hợp tác với các nhà nghiên cứu chuyên ngành
ngôn ngữ học giải quyết: Chuẩn hóa quy tắc hình thành CVT.
2. Tiếp tục nghiên cứu sâu hơn khái niệm hệ sinh thái phần mềm, các đặc
trưng, phương pháp mô hình hóa…; đề xuất giải pháp khuyến khích phát
triển, xây dựng dự án phần mềm hướng đến SECO, hướng đến SaaS
(Software as a Service). Ứng dụng SECO trong triển khai các dự án phần
mềm của đơn vị chuyên ngành VT- CNTT.
3. Phát triển hệ thống khai thác CVT từ AMES đến SECO: Tìm hiểu sâu đặc
trưng, thách thức SECO; hợp tác phát triển AMES thực sự có tính mở, ổn
định, kết thừa; chuẩn hóa việc mô hình hóa hệ sinh thái phần mềm bằng
UML, I*, hoặc Petri nets.
4. Thực nghiêm tối ưu các hàm, các luật nhận diện CVT, hình thành CVT,
máy suy diễn nhận diện CVT. Nghiên cứu công cụ tắt hóa văn bản, cải tiến
thuật toán công cụ tư vấn Brandname hướng đến tư vấn thông minh cho
NSD, tự động hóa công cụ tính toán tần suất CVT, tư vấn thị phần dịch vụ
mở rộng một chuyên ngành khác. Bổ sung thêm đánh giá độ đo khoa học
chuẩn (Recall, Precision).
5. Cần nghiên cứu thử nghiệm cài đặt thêm phần nhận diện CVT (có sử dụng
Machine Learning (Recurrent neural network) để dự đoán trên tập Vector
Embedding ngữ nghĩa, kết hợp với các quy tắc tạo sinh CVT từ kết quả
nghiên cứu chương 2 của luận án.
130
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ
[1] Nguyen Nho Tuy, Phan Huy Khanh. Abbreviations Applicationin 108 VNPT
Service Exploitation in Da Nang City, IJISET (International Journal of
[2] Nguyễn Nho Túy, Phan Huy Khánh. Giải pháp ứng dụng chữ viết tắt chỉ mục
Innovative Science, Engineering & Technology) Vol. 3 Issue 1, January 2016.
cơ sở dữ liệu phục vụ tìm kiếm khai thác dữ liệu, Tạp chí KHCN ĐHĐN, Số
[3] Nguyễn Nho Túy, Phan Huy Khánh, Đặng Huy Hòa. Đánh giá tần số sử dụng
9(106).2016, trang 97-101.
chữ viết tắt tiếng Việt trên Internet, Tạp chí KHCN ĐHĐN, Số 9(106). 2016,
[4] Nguyen Nho Tuy, Phan Huy Khanh. Developing database of Vietnamese
trang 81-86.
abbreviations and some applications, Nature of Computation and
[5] Nguyen Nho Tuy, Phan Huy Khanh. New Automatic Search and Update
Communication, Springer, ICTCC2016, Kien Giang, pp 373-383.
Algorithms of Vietnamese Abbreviations, World of Computer Science and
[6] Nguyễn Nho Túy, Phan Huy Khánh, Lê Văn Anh. Giải pháp tư vấn đặt tên và
Information Technology Journal (WCSIT),Vol. 6, No. 1, 1-7, 2016.
sử dụng tin nhắn thương hiệu cho doanh nghiệp. Kỷ yếu Hội nghị Quốc gia
lần thứ X về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Đà
[7] Nguyễn Nho Túy, Phan Huy Khánh. Xây dựng môi trường khai thác chữ viết
Nẵng 2017, trang 226-232.
tắt tiếng Việt, Kỷ yếu hội thảo khoa học quốc gia CITA2017, Đà Nẵng 2017,
[8] Nguyễn Nho Túy, Phan Huy Khánh, Nguyễn Thị Minh Tuyết. Một góc nhìn
trang 160-167.
về sự hình thành CVT, hướng đến xây dựng cơ sở dữ liệu và khai thác dữ liệu
CVT tiếng Việt. Kỷ yếu Hội thảo Quốc tế “Ngôn ngữ học Việt Nam - những
chặng đường phát triển và hội nhập quốc tế”, ĐHSP Đà Nẵng, 2018, trang
1021-1035.
131
TÀI LIỆU THAM KHẢO
[1] Chim Văn Be (2005). Ngữ pháp tiếng Việt. Giáo trình đào tạo ĐH Cần Thơ.
[2] Đài 108 VNPT Đà Nẵng. Biểu mẫu thống kê, hệ thống CSDL quản lý giám sát
nghiệp vụ, sản lượng, chất lượng dịch vụ. Số liệu sử dụng nội bộ, 08/2015.
[3] Đoàn Thị Tâm (2012). Hệ thống từ ngữ chỉ người trong tiếng Ê đê. Luận án tiến sỹ
ngữ văn. Đại học Sư phạm TP Hồ Chí Minh.
[4] Đỗ Hữu Châu (2003). Đại cương ngôn ngữ học - Tập 2. NXB Giáo dục.
[5] Đỗ Quang Chính (1972). Lịch sử chữ Quốc ngữ 1620-1659. NXB Tôn Giáo.
[6] Đào Thanh Tĩnh, Trần Ngọc Anh, Nguyễn Phương Thái (2011). Một phương pháp
hiệu quả khử nhập nhằng theo ngữ cảnh trong bài toán tách từ tiếng Việt. Tạp chí
Khoa học và Kỹ thuật Số 145 - Học viện KTQS.
[7] Đinh Điền (2005). Giáo trình Xử lý ngôn ngữ tự nhiên. ĐHQG TP HCM.
[8] Đinh Văn Chi (2010). Từ điển chữ viết tắt thường dùng trong y học. NXB Y học.
[9] Hồ Tú Bảo. Đề tài VLSP - Nhánh đề tài Xử lý văn bản (trực tuyến),
http://vlsp.hpda.vn:8080/demo/ (truy cập: 20/12/2017)
và Công
học
[10] Hồ Tú Bảo, Lương Chi Mai (2008). Xử lý tiếng Việt trong CNTT, Viện CNTT. Viện
Khoa
chỉ:
tiến Nhật Bản. Địa
nghệ Tiên
http://www.ebook.edu.vn/?page=1.39&view=2155 (truy cập: 20/12/2016)
[11] Hoàng Hiệp (2004). Xây dựng công cụ tìm kiếm bằng PHP và MySQL. Tạp chí Bưu
chính Viễn thông và CNTT ( kỳ 2).
[12] Hoàng Thị Mỹ Lệ (2017). Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong
dạy và học tiếng Ê Đê. Luận án Tiến sỹ, Đại học Đà Nẵng.
[13] Hội Ngôn ngữ học Việt Nam (2002). Danh sách chữ viết tắt xếp theo tần số. Hà
Nội 2002.
[14] Lại Nguyên Ân (2012). Phan Khôi và cuộc tranh luận về sử học trên Đông Pháp
thời báo 1928. Website: phebinhvanhoc.com.vn/phan-khoi-va-cuoc-tranh-luan-ve-
su-hoc-tren-dong-phap-thoi-bao-1928/ (truy cập 18/11/2018)
[15] Lã Minh Hằng (2004). Chữ Nôm trong bối cảnh văn hoá khu vực. Hội nghị Quốc tế
về chữ Nôm, ngày 12-13/11/2004, Hà Nội.
[16] Lê Bá Long (2006). Lý thuyết xác suất thống kê toán. Giáo trình Học viện Bưu
chính Viễn thông Việt Nam.
[17] Lê Đình Tư & Vũ Ngọc Cân (2009). Nhập môn ngôn ngữ học. Giáo trình ĐH Quốc
Gia, Hà Nội.
[18] Lê Nhân Đàm (1997). Từ điển chữ viết tắt thông dụng. NXB Giáo dục.
TIẾNG VIỆT
[19] Lê Nhân Đàm (2010). Từ điển chữ viết tắt quốc tế và Việt Nam. NXB Giáo dục.
[20] Lê Tiến Vương (2002). Nhập môn Cơ Sở Dữ Liệu. NXB Thống kê, Hà Nội
[21] Lê Thị Bích Chi (2012). Nghiên cứu đăc trưng ngôn ngữ của hiện tượng viết tắt
Việt
chiếu
tiếng
tiếng
điện
Anh
thư
đối
với
tử
trong
Link:http://www.udn.vn/app/webroot/svnckh2012/PDF/TB20-03.pdf
[22] Lương Chi Mai (chủ nhiệm) (2005). Đề tài “Nghiên cứu và phát triển một số sản
phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”, mã số KC.01.01/06-10.
Đề tài nghiên cứu KH&CN - chương trình Trọng điểm cấp Nhà nước, Hà Nội.
[23] Lưu Tuấn Anh
(2012). Download dữ
liệu các
link:
tập Corpus,
http://viet.jnlp.org/download-du-lieu-tu-vung-corpus (truy cập: 20/04/2017)
[24] Lưu Tuấn Anh và Yamamoto Kazuhide. Ứng dụng phương pháp Pointwise vào bài
toán tách từ cho tiếng Việt: http://viet.jnlp.org/dongdu (truy cập: 20/04/2017)
[25] Ngô Trung Việt (1987). Vấn đề chữ Việt trên máy tính, Tạp chí Khoa học Tính toán
và Điều khiển, số 3.
[26] Nguyễn Bảo (1999). “Viết tắt trên báo hiện nay”. Tạp chí NN&ĐS số 4.
[27] Nguyễn Tài Cẩn (1981). Ngữ pháp tiếng việt. NXB ĐH và THCN, Hà Nội, năm 1981.
[28] Nguyễn Thiện Giáp (1998). Dẫn luận ngôn ngữ học. NXB Giáo dục, Hà Nội.
[29] Nguyễn Quang Hồng (2003). “Nói tắt và viết tắt từ ngữ trong tiếng Việt”, Tạp chí
NN&ĐS số 1+2.
[30] Nguyễn Thị Thu Thuỷ , Nguyễn Hữu Chỉnh (2005). Tổng quan về ngôn ngữ và
ngôn ngữ học. Giáo trình đào tạo ĐH Cần Thơ.
[31] Nguyễn Thị Thu Thủy (2005). Từ vựng tiếng Việt. Giáo trình ĐH Cần Thơ.
[32] Nguyễn Thanh Việt, Đỗ Kim Bằng (1999). Thuật ngữ viết tắt Viễn thông. NXB Bưu
điện.
[33] Nguyễn Thị Trúc. Dẫn luận ngôn ngữ (2000). ĐHSP Đà Nẵng.
[34] Nguyễn Như Ý (chủ biên) (1999). Đại từ điển tiếng Việt. NXB VH-TT.
[35] Nguyễn Như Ý (1994). Từ điển chữ viết tắt. NXB VH-TT.
[36] Nguyễn Như Ý (1994). Từ điển chữ viết tắt các tổ chức kinh tế xã hội Việt Nam.
NXB Thế giới.
[37] Nguyễn Quang Hồng (2003). “Nói tắt và viết tắt từ ngữ trong tiếng Việt”, Tạp chí
NN&ĐS số 1+2.
[38] Nguyễn Văn Lợi (2018). Sự hình thành cách ghi thanh điệu chữ Quốc ngữ. Website
http://vienngonnguhoc.gov.vn/bai-viet/su-hinh-thanh-cach-ghi-thanh-dieu-chu-
quoc-ngu_701.aspx (truy cập 11/08/2018).
[39] Ninh Khánh Duy, Nguyễn Văn Quý (2017). Biểu diễn ngữ cảnh trong khai triển
chữ viết tắt dùng tiếp cận học máy. Tạp chí Khoa học Công nghệ Đại học Đà Nẵng
số 5(114)2017.
132
[40] Ninh Khánh Chi, Ninh Khánh Duy (2017). Chuẩn hóa văn bản tiếng Việt dựa trên
bộ quy tắc. Kỷ yếu hội thảo khoa học quốc gia CITA2017, Đà Nẵng 2017.
[41] Phan Huy Khánh (2005). Giáo trình Hệ chuyên gia. Trường Đại học Bách Khoa -
Đại học Đà Nẵng.
[42] Phan Huy Khánh, Phạm Thị Thùy Linh (2013). Xử lý nhập nhằng tiếng Việt và ứng
dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập - Luận văn.
[43] Phan Huy Khánh, Lê Thanh Duy (2011). Xử lý nhập nhằng trong tìm kiếm văn bản
tiếng Việt. Tạp chí Thông tin KH&CN - Trường CĐCN, ĐH Đà Nẵng. Số: 1.
[44] Phan Huy Khánh (2003). Xây dựng cơ sở dữ liệu từ vựng đa ngữ sử dụng dạng
thức văn bản RTF Winword. Kỷ yếu Hội thảo Khoa học Quốc gia ICT. Hà Nội.
[45] Phan Huy Khánh (2004). Sử dụng công cụ lập trình macro VBA xây dựng các tiện ích
xử lý văn bản. Kỷ yếu Hội nghị Khoa học Lần thứ 3, Đại học Đà Nẵng 2004.
[46] Trần Thanh Ái (2013). Ngôn ngữ học xã hội: Những quan niệm và khuynh hương,
Tạp chí Khoa học Trường Đại học Cần Thơ, Phần C: Khoa học Xã hội, Nhân văn
và Giáo dục: 25 (2013): 79-95
[47] Trần Tư Bình (2013). Viết tắt chữ việt trong ngôn ngữ @. Website:
http://chuvietnhanh.sourceforge.net/ (truy cập 18/8/2017)
[48] Trần Tư Bình, Ngô Đình Học, Nguyễn Vĩnh Tráng (2011). Chữ Việt nhanh. NXB
Trẻ Hà Nội.
[49] Võ Xuân Quế (1998). Nghiên cứu chữ viết tắt “Trung ương”. Tạp chí NN&ĐS, số
4.
[50] Joseph
thời @”. Website:
(2012).
Ruelle
Việt
“Tiếng
http://chuvietnhanh.sourceforge.net/TiengVietThoi@.htm (truy cập 20/8/2018)
133
TIẾNG ANH
[51] Brill E. (1995). Transformation-based error-driven learning and natural language
processing: A case study in part of speech tagging. Computational linguistics, No
21 (vol 4), pp. 543-565.
[52] Daniel Jurafsky & James H. Martin (2001). Speech and Language Processing,
Prentice Hall.
[53] Daelemans et al (1996). A memory-based part of speech tagger generator. Fourth
Workshop on Very Large Corpora, ACL SIGDAT, pp. 14-27.
[54] David G. Messerschmitt and Clemens Szyperski (2003). Software Ecosystem:
Understanding an Indispensable Technology and Industry. Cambridge, MA, USA:
MIT Press.
[55] Dien Dinh and Kiem Hoang. (2003). POS-tagger for English-Vietnamese bilingual
corpus, proceeding of HLT-NAACL (North American Association for Computational
Linguistics)-03 Workshop “Building and Using Parallel Texts”, Canada, pp. 88-95.
[56] Gobinda G. Chowdhury (2003). Natural language processing, Annual Review of
Information Science and Technology. 37. pp. 51-89.
[57] HaCohen-Kerner, Ariel Kass and Ariel Peretz (2008). Combined One Sense
Disambiguation of Abbreviations. ACL 2008, Proceedings of the 46th Annual
Meeting of the Association for Computational Linguistics, Columbus, Ohio, USA,
Short Papers.
[58] Joshua J.V., Alao D.O., Okolie S.O., Awodele O. (2013). Software Ecosystem:
Features, Benefits and Challenges. (IJACSA) International Journal of Advanced
Computer Science and Applications, Vol. 4, No. 8, pp: 242-247.
[59] Khanh Phan Huy (1998). Edition structurale des documents multilingues et
application au vietnamien dans Grif. Rapport de recherche No 186, Université de
Lille 1 (186), pp 1-15.
[60] Khanh Phan Huy (2002). A Survey on Vietnamese Language Processing and
Multilingual Processing, Proceeding of NECTEC Conference, Phuket, ThaiLan,
pp. 13-14.
[61] Manuel Zahariev D. (2004). Acronyms. Simon Fraser University, USA.
[62] Philipp Koehn, Hieu Hoang, et al. (2007). Moses: Open source toolkit for statistical
machine translation, Proceeding of the 45th annual meeting of the Association for
Computational Linguistics-ACL on interactive poster and demonstration sessions.
pp. 177-180.
[63] Stuart Yeates, David Bainbridge (2000). Using compression to identify acronyms
in text. University of Waikato Hamilton, New Zealand.
[64] Sidorov N.A., Grineko O.O. (2013). Software Ecosysytem Modeling. National
Aviation University.
[65] Slinger Jansen, Eko Handoyo, Carina Alves (2015). Scientists’ Needs in Modelling
Software Ecosysytems. Proceedings of the International Workshop on Software
Ecosystems Utrecht University, the Netherlands.
[66] Trieu Thi Ly Ly, Nguyen Van Quy, Ninh Khanh Duy, Huynh Huu Hung, Dang
Duy Thang (2017). Representing context in abbreviation expansion using machine
learning approach. FAIR - Fundamental and Applied IT Research (FAIR’10). pp.
816-822.
[67] Wilks Y., Stevenson M. (1997). Sense Tagging: Semantic Tagging with a Lexicon.
In Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics:
Why, What and How?, Washington, D.C.
[68] Xu, Hua, Peter D. Stetson, and Corol Friedman (2012). Combining Corpus-derived
Sense Profiles with Estimated Frequency Information to Disambiguate Clinical
Abbreviations. AMIA Annual Symposium proceedings. Vol. 2011. American
Medical Information Association.
[69] Xu, Sun and Houfeng Wang (2006). Chinese Abbreviation Identification Using
International
Abbreviation-Template Features and Context
Information.
134
Conference on Computer Processing of Oriental Languages, Springer, Berline,
Heidelberg, 2006.
[70] Yarovsky D. (1992). Word-Sense Disambiguation Using Statistical Models of
Roget`s Categories Trained on Large Corpora. In Proceedings, COLING-92.
[71] Yonghui Wu, et al (2012). A comparative study of current clinical natural
language processing systems on handling abbreviations in discharge summaries.
AMIA
Annual Symposium proceedings. Vol. 2012. American Medical
Information Association.
[72] Yonghui Wu, et al (2015). Clinical Abbreviation Disambiguation Using Neural
Word Embeddings. Proceedings of BioNLP 15.2015.
[73] Yonghui Wu, et al (2011). Detecting Abbreviations in Discharge Summaries using
Machine Learning Methods. AMIA Annual Symposium proceedings. Vol. 2012.
American Medical Information Association.
135
TRANG WEB TIẾNG VIỆT
[74] http://www.chuviettat.com (Website thư viện CVT của tác giả xây dựng)
[75] http://www.chuviet.net/ Truy cập thông tin “Diễn đàn ngôn ngữ Việt thời @”.
[76] http://chuvietnhanh.sourceforge.net/, Tải tập tin sách Chữ Việt Nhanh từ
cập
(truy
http://chuvietnhanh.sourceforge.net/Sach-ChuVietNhanh.pdf
20/9/2017).
[77] http://www.web2vietnam.com/2011/02/14/the-age-of-ecosystems/Thời Của Các
“Hệ Sinh Thái” (truy cập: 15/04/2017)
[78] http://postcode.vn/default.aspx?page=newsdetail&newsid=9
(truy
cập:
08/12/2018)
[79] https://vanhay.edu.vn/nghi-luan-xa-hoi-suy-nghi-ve-cau-chuyen-nguoi-cap-cuu/
(truy cập: 10/03/2018, 4/11/2018)
[80] https://vdict.com/ (tra cứu từ điển, ngữ nghĩa CVT, truy cập thường xuyên)
[81] https://dict.laban.vn (tra cứu từ điển, ngữ nghĩa CVT, truy cập thường xuyên)
[82] http:// www.tudienlong.com (sử dụng tra cứu các CVT tiếng lóng tiếng Việt, tìm
kiếm chữ viết tắt mới, truy cập thường xuyên)
[83] https://vi.wikipedia.org/wiki/ (sử dụng tra cứu các khái niệm hệ sinh thái phần
mềm, XLNNTN… truy cập thường xuyên)
[84] http://aita.gov.vn/tin-tuc/1615/ (thông tin số liệu thống kê, truy cập: 15/06/2016)
[85] http://viet.jnlp.org/cac-cong-cu-xu-ly/trich-loc-tieng-viet-tu-html
(truy
cập:
10/06/2016 về các công cụ trích lọc tiếng Việt)
[86] http://www.vietlex.com/help/about_corpus.htm. Giới thiệu Kho ngữ liệu tiếng
Việt-Vietnamese Corpus. VietLex (truy cập: 25/04/2017)
[87] http://dinte.gov.vn/index.php/tin-tuc/47-tin-cong-nghe-thong-tin/1081-hoi-thao-
ngay-internet-2016-internet-day-2016. Cục Công nghệ Thông tin (2016), Hội thảo
Ngày Internet 2016, (trực tuyến) (truy cập: 5/03/2017)
[88] https://kipalog.com/posts/Full-Text-Search--Tu-Khai-Niem-den-Thuc-Tien--
Phan-1 (truy cập 05/11/2016).
[89] https://vov.vn/xa-hoi/giao-duc/vien-truong-vien-ngon-ngu-hoc-noi-ve-cai-tien-
chu-viet-tieng-viet-711720.vov (truy cập 23/09/2018)
[90] https://vi.wikipedia.org/wiki/Xử_lý_ngôn_ngữ_tự_nhiên (truy cập 15/08/2018)
[91] https://vi.wikipedia.org/wiki/Chữ_viết (truy cập 23/09/2018)
[92] https://vtc.vn/de-xuat-cai-tien-chu-viet-tieng-viet-gay-tranh-cai-5-ly-do-phan-bac-
d365592.html (truy cập 23/09/2018).
[93] https://danang.vnpt.vn/products/index/sms-brandname.html (truy cập 11/08/2018).
136
TRANG WEB TIẾNG ANH
[94] http://www.acronymfinder.com (tra cứu các CVT tiếng Anh và nhiều ngôn ngữ
khác, truy cập thường xuyên).
[95] http://www.abbreviations.com (tra cứu các CVT tiếng Anh và nhiều ngôn ngữ
khác, truy cập thường xuyên).
[96] https://en.wikipedia.org/wiki/Software_ecosystem (truy cập 5/03/2017).
I
PHỤ LỤC
Phụ lục 1. Câu chuyện “Người ăn cắp cừu” [79]
Tại một đất nước vào thời kỳ lập quốc, ở một xứ kia, có hai anh em nhà nọ bị
bắt quả tang đang ăn cắp cừu. Dân làng đã họp bàn để trừng phạt. Mọi người đã
đồng ý hình phạt khắc trên trán của hai tội nhân hai chữ viết tắt ST (Sheep Theft), có
nghĩa là "Kẻ ăn cắp cừu".
Người anh không chịu nổi sự sỉ nhục đã trốn sang một vùng đất khác để chôn
chặt dĩ vãng. Nhưng anh không thể xóa nhòa được hai chữ viết tắt trên trán của mình.
Bất cứ một người lạ mặt nào cũng đều tra hỏi anh về ý nghĩa của hai chữ ấy. Không
chịu nổi sự nhục nhã, anh lại rời bỏ nơi cư ngụ để tiếp tục lang thang. Cuối cùng
mòn mỏi trong cay đắng, anh đã bỏ mình nơi đất khách quê người.
Còn người em tự nhủ với mình rằng: "Mình không thể bỏ trốn chỉ vì ăn cắp
mấy con cừu. Mình phải ở lại đây và phải tự mình tạo lại niềm tin của những người
xung quanh và nơi chính bản thân mình". Với quyết tâm đó, anh đã ở lại ngôi làng
của mình. Vài năm sau, anh đã xây dựng cho mình một sự nghiệp cũng như danh
thơm của một người thanh liêm chính trực.
Nhưng cho dù năm tháng có qua đi, hai chữ ST vẫn còn in đậm trên vầng trán
của anh... Ngày kia, có một người lạ mặt hỏi một cụ già trong làng về ý nghĩa của
hai chữ viết tắt ấy. Cụ già suy nghĩ một hồi rồi mới trả lời: "Tôi không nhớ rõ lai lịch
của hai chữ viết tắt ấy, nhưng cứ nhìn vào cuộc sống của người đó, tôi nghĩ rằng hai
46 Theo English Study,[34], viết tắt là St. thường đặt trước tên người hay tên thiên thần, ví dụ như St. Paul, St.Vincent
chữ viết ấy có nghĩa là Thánh thiện (Saint)46.
II
Phụ lục 2. Các bảng dữ liệu
Các bảng sau đây mô tả các thuộc tính dữ liệu, sử dụng để thiết kế bảng dữ
liệu, xây dựng nguồn tài nguyên CVT tiếng Việt đã được trình bày trong chương 3.
Bảng 1. Các thuộc tính dữ liệu chữ viết tắt CVTs
Thuộc tính
Giải thích
stt
Chỉ số mục từ viết tắt
cvt
Mục từ viết tắt
PhienAm
Phiên âm dùng để phát âm
MaLop
Phân lớp sử dụng
MaCN
Người biên tập, cập nhật
MaNN
Ngôn ngữ tiếng Việt/ tiếng Anh/...
NghiaViet
Nghĩa tiếng Việt của chữ viết tắt
NghiaAnh
Nghĩa tiếng Anh của chữ viết tắt
Nghia_n
Nghĩa ngôn ngữ thứ n
Bảng 2. Các thuộc tính phân lớp dữ liệu chữ viết tắt PhanLopCVT
Thuộc tính
Giải thích
MaLop
Phân lớp sử dụng
TenLop
Tên lớp theo lĩnh vực sử dụng
Bảng 3. Các thuộc tính liên quan đến nguồn gốc cập nhật CVT
Thuộc tính
Giải thích
STT
Chỉ số người cập nhật
MaCN
Mã hoá người biên tập cập nhật dữ liệu
HoTen
Họ và tên người cập nhật dữ liệu
DiaChi
Địa chỉ người cập nhật dữ liệu
DienThoai
Điện thoại
Email
Email
NguonURL
Website cá nhân
NgayCN
Ngày cập nhật
III
Phụ lục 3. Một số thuật toán, mã lệnh sử dụng trong các chương trình
1) Thuật toán tìm kiếm chữ viết tắt trong tập tin WORD
Thuật toán tìm kiếm CVT trong tập tin văn bản, thực hiện trích lọc tự động
các cụm CVT và lưu vào CSDL (sử dụng cập nhật dữ liệu CVT thủ công).
Input: Tập tin Word (*.doc) bất kỳ
Output: Dữ liệu CVT nhận được ở tập tin kq.doc
Begin
- Chọn cửa sổ văn bản nguồn
- Tìm dấu ngoặc đóng: “)”
- Chọn khối văn bản đến đầu dòng.
- Copy khối văn bản vào bộ nhớ đệm.
- Chọn của sổ văn bản kq.doc
- Dán kết quả thêm vào cuối văn bản kq.doc
- Tăng biến i=i+1
Open tập tin nguồn *.doc; về đầu văn bản *.DOC đang mở.
Open tập tin để lưu kết quả: kq.doc
- Tách các câu, các cụm từ phân cách dấu chấm,
dấu phẩy trong tập tin văn bản nguồn thành các phân đoạn (paragraph);
- Tách các câu ngoặc đóng “)” thành các “)^P” dấu ngoặc và phân đoạn.
- Chọn khối văn bản các đoạn này
- Đếm tổng số các CVT nhiều nhất có thể có: TongCVT
- Vòng lặp:
i =1
While i <= TongCVT Do
EndWhile
Chọn của sổ văn bản kq.doc
Chuyển đổi dữ liệu thành bảng có hai cột
Ghi lại tập tin kq.doc
Sau khi thực hiện trích lọc tự động các cụm từ năm trong cặp dấu (...), có thể sử
dụng thêm Macro chuyển đổi dữ liệu về tập tin *.TXT, để tiếp tục biên tập lại dữ liệu.
Thuật toán đề xuất mở tập tin nguồn *.doc bất kỳ, sau đó mở tập tin kq.doc để lưu
giữ kết quả trích lọc thông tin, đảm bảo mục đích trực quan, dễ sử dụng đối với người
thu thập dữ liệu
End:
Nhận xét:
IV
Trong nội dung sử dụng chữ viết tắt trong CSDL chuyên ngành (mục 3.3.1.), ứng
dụng xây dựng CSDL CVT cho Đài 108 đã sử dụng hàm chuyển đổi mọi CVT có dấu
tiếng Việt sang CVT không dấu, viết hoa để giúp các điện thoại viên giảm thiểu thao tác
gõ bàn phím, tăng hiệu năng sử dụng phần mềm tra cứu danh bạ. Sau đây là mã lệnh đầy
đủ của hàm đã xây dựng:
2) Hàm chuyển đổi chữ viết tắt
Funtion Chuyen_doi_CVT
Option Explicit
Const sViet As String =
"µ¶·¸¹¨»¼½¾Æ©ÇÈÉÊËÌÎÏÐѪÒÓÔÕÖרÜÝÞßáâãä«åæçèé¬êëìíîïñòóô-
õö÷øùúûüýþ¡¢£¤¥¦®§"
Const sKhongdau As String =
"aaaaaaaaaaaaaaaaaeeeeeeeeeeeiiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAEO
OUdD"
//Khai báo chuỗi chuyển đổi chữ viết không có dấu
Function chuviettat(strInput As String) As String
Dim i As Integer
Dim sData As String
Dim sOuput As String
chuviettat = ""
sData = Trim(Khongdau(strInput))
If sData = "" Then Exit Function
sOuput = Mid(sData, 1, 1)
For i = 2 To Len(sData)
If Mid(sData,i,1) <> " " And Mid(sData,i-1,1) = " " Then sOuput =
sOuput + Mid(sData,i,1)
Next i
chuviettat = UCase(sOuput)
End Function
//Hàm chuyển đổi chữ viết không có dấu
Function Khongdau(sCodau As String) As String
Dim L As Integer
Dim i As Integer,j As Integer, s As String
L = Len(sCodau)
For i = 1 To L
j = InStr(1,sViet,Mid(sCodau,i, 1))
If j > 0 Then s = s & Mid(sKhongdau,j,1)
Else s = s & Mid(sCodau,i,1)
End If
Next i
Khongdau = s
End Function
V
3) Thuật toán, mã lệnh dùng trong từ điển CVT trên máy di động
Phụ lục này trình bày thêm một số thuật toán, đoạn mã lệnh và danh mục các
tập tin đã sử dụng lập trình từ điển CVT trên máy di động (mục 5.3.4.) bằng Java
trong Android Studio:
a) Mã lệnh khai báo lớp màn hình chính chương trình AcroDictActivity.java
* Lớp màn hình của chương trình
public class AcroDictActivity extends AppCompatActivity
implements NavigationView.OnNavigationItemSelectedListener,
SearchView.OnQueryTextListener, View.OnClickListener {
private final String TAG = "AcroDictActivity";
private SearchView searchView;
private RecyclerView rvListSearchResult;
private List searchResultList;
private List resultDetailList;
private SearchResultAdapter searchResultAdapter;
private ResultDetailAdapter resulDetailtAdapter;
private DbAdapter dbAdapter;
private RecyclerView rvListResultDetail;
private int mCurrentPos = -1;
private OnClickCallback mOnClickCallback;
private TextView txtNoDataFound;
private FloatingActionButton fabThemTuMoi;
private FloatingActionButton fabTimKiem;
private LineChart lcToDay;
private OnChartValueSelectedListener mOnLineChartValueSelected;
private PieChart pcTopTen;
private LinearLayout llChartting;
private FloatingActionButton fabHomeScreen;
private FloatingActionsMenu fabAction;
private boolean isShowFromQuickWindow;
private int fabMode;
private FloatingActionButton fabEmptyTrash;
private CatLoadingView mCatLoading;
private SharedPreferences preferences;
VI
b) Mã lệnh truy vấn trong CSDL tất cả các CVT chứa X:
// (SELECT * FROM T1 WHERE T1.CVT MATCH X)
String sqlQuery = "" +
"SELECT [T].[" + COL_CVT_FTS_ID_CVT + "], \n" +
" [C].[" + COL_CVTS_CVT + "], \n" +
" CASE [C].[" + COL_CVTS_ID_LANG + "] WHEN 0 THEN [C].[" +
COL_CVTS_NGHIAVIET + "] WHEN 1 THEN [C].[" + COL_CVTS_NGHIAANH
+ "] ELSE [C].[" + COL_CVTS_NGHIAVIET + "] END NGHIA_NGAN, \n" +
" [C].[" + COL_CVTS_LUOTXEM + "], \n" +
" [C].[" + COL_CVTS_IS_FAVORITE + "] \n" +
"FROM [" + TABLE_CVT_FTS + "] [T]\n" +
" INNER JOIN [" + TABLE_CVTS + "] [C] ON [C].[" + COL_CVTS_ID_CVT
+ "] = [T].[" + COL_CVT_FTS_ID_CVT
+ "]\n" +
"WHERE [T].[CVT] MATCH " +
DatabaseUtils.sqlEscapeString(StringUtil.convert2SqliteSearchFormat(value)) + "
AND [C].[" + COL_CVTS_ENABLED + "] = 1" + " ORDER BY LENGTH([C].["
+ COL_CVTS_CVT + "])" + " LIMIT " + QUERY_LIMIT;
c) Tăng tần số và tần suất truy vấn của CVT X lưu vào dữ liệu thống kê trên
// DbAdapter.getResultDetailById()
CSDL bảng T1, mã lệnh:
if (idList.size() >0) {
//update luotxem – Cập nhật lượt xem, tra cứu CVT
String listOfId = TextUtils.join(",", idList);
String sqlUpdate = "" +
"UPDATE\n" +
" [" + TABLE_CVTS + "]\n" + "SET\n" + " [" + COL_CVTS_LUOTXEM + "] =
[" + COL_CVTS_LUOTXEM + "] + 1\n" + "WHERE\n" +
" [" + COL_CVTS_ID_CVT + "] IN (" + listOfId + ")";
db.execSQL(sqlUpdate);
//update thongke – Cập nhật thống kê người sử dụng di động
String currentDate = sdfIn.format(new Date());
sqlUpdate = "" +
"UPDATE\n" +
" [" + TABLE_THONGKE + "]\n" +
"SET\n" +
VII
" [" + COL_THONGKE_TAN_SO + "] = [" + COL_THONGKE_TAN_SO + "] +
1\n" +
"WHERE\n" +
" [" + COL_THONGKE_NGAY_THANG + "] = " +
DatabaseUtils.sqlEscapeString(currentDate) + "\n" +
"AND [" + COL_THONGKE_ID_CVT + "] IN (SELECT [F1].[" +
COL_CVT_FTS_ID_CVT + "]\n" +
"FROM [" + TABLE_CVT_FTS + "] [F1]\n" +
"WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" +
COL_CVT_FTS_CVT + "] || '\"'\n" +
" FROM [" + TABLE_CVT_FTS + "] [F]\n" +
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" +
" AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH
([F].[" + COL_CVT_FTS_CVT + "])\n" +
" FROM [" + TABLE_CVT_FTS + "] [F]\n" +
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + "))";
db.execSQL(sqlUpdate);
//insert new thongke – Chèn bảng thống kê mới cho người sử dụng di động
sqlUpdate = "" +
"INSERT OR IGNORE INTO [" + TABLE_THONGKE + "]\n" +
" ([" + COL_THONGKE_NGAY_THANG + "], \n" +
" [" + COL_THONGKE_ID_CVT + "], \n" +
" [" + COL_THONGKE_TAN_SO + "])\n" +
" SELECT " + DatabaseUtils.sqlEscapeString(currentDate) + ", \n" +
" [F1].[" + COL_CVT_FTS_ID_CVT + "], \n" +
" 1\n" +
" FROM [" + TABLE_CVT_FTS + "] [F1]\n" +
" WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" +
COL_CVT_FTS_CVT + "] || '\"'\n" +
" FROM [" + TABLE_CVT_FTS + "] [F]\n" +
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" +
" AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH
([F].[" + COL_CVT_FTS_CVT + "])\n" +
" FROM [" + TABLE_CVT_FTS + "] [F]\n" +
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")";
db.execSQL(sqlUpdate);
VIII
Phụ lục 4. Bảng mã danh mục ứng dụng và đề xuất.
Trong mục 3.3.2. về ứng dụng chữ viết tắt trong xây dựng CSDL danh mục, tác giả
đã xây dựng bảng mã danh mục các phần tử mạng điều hành sản xuất kinh doanh, đề
xuất ban hành thống nhất, đã đưa vào áp dụng thực tiễn, quy định các lập trình viên đơn
vị tuân thủ bảng mã danh mục. Ví dụ như:
Bảng 1. Danh mục CVT phần tử mạng điều hành sản xuất kinh doanh
1
Mã tỉnh/thành ABC
Theo quy định chung thống nhất trong Tập
đoàn: DNG: Đà Nẵng, QNM: Quảng Nam
4
Mã thanh toán DNG000000001
+ <09 chữ số>
2
CNSDxxx
xxx: 001 => 999
Mã tổng đài
CSND
Tên CSND
Cáp đồng: DAI001 => DAI999
3
DAI +
(=Mã tủ cáp
Cáp quang: DAI001DF => DAI999DF
gốc t ại đài)
5
Mã tủ cáp
+ + +
TCxxxAn hoặc
H001An
tuyến>
6
Mã outdoor
CSNDxxxDFn
+ +
CSNDxxxn
Cáp gốc: + > +
Mã sợi cáp
7
đồng
CSNDxxxA1-n
Cáp ngọn: + <- +
cáp đi vào tủ>
Cáp gốc: 001DFn/m
Cáp gốc: +
> +
8
Mã sợi cáp
quang
Cáp ngọn: 001DFn-
Cáp ngọn: +
< -> +
m
STT Tên mã Chữ viết tắt Ghi chú
IX
Bảng 2. Danh mục mã vùng điện thoại
STT
Tỉnh/TP
Mã số
STT
Tỉnh/TP
Mã số
Tên chữ
viết tắt
Tên
chữ
viết tắt
AGG
An Giang
1
33 Khánh Hoà
KHA
76
58
BRU
2
34 Kiên Giang
KGG
64
77
Bà Rịa Vũng
Tàu
Phú Thọ
Phú Yên
Bạc Liêu
BLU
Bắc Kạn
BKN
Bắc Giang
BGG
Bắc Ninh
BNH
BTE
Bến Tre
Bình Dương BDG
BDH
Bình Định
BPC
Bình Phước
BTN
Bình Thuận
CMU
Cà Mau
CBG
Cao Bằng
Cần Thơ
CTO
TP. Đà Nẵng DNG
DLK
ĐắkLắk
DNG
Đăc Nông
DBN
Điện Biên
DNI
Đồng Nai
DTP
Đồng Tháp
GLI
Gia Lai
HGG
Hà Giang
HNM
Hà Nam
HNI
Hà Nội
HTY
Hà Tây
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
21
23
24
25
KTM
LCU
LSN
LCI
LDG
LAN
NDH
NAN
NBH
NTN
PTO
PYN
QBH
QNM
QNI
QNH
QTI
STG
SLA
TNH
TBH
TNN
THA
781
281
240
241
75
650
56
651
62
780
26
71
511
50
50
23
61
67
59
19
351
4
34
60
23
25
20
63
72
350
38
30
68
210
57
52
510
55
33
53
79
22
66
36
280
37
Hà Tĩnh
HTH
26
58
HUE
39
54
35 Kon Tum
Lai Châu
36
Lạng Sơn
37
Lào Cai
38
Lâm Đồng
39
40
Long An
41 Nam Định
42 Nghệ An
43 Ninh Bình
44 Ninh Thuận
45
46
47 Quảng Bình
48 Quảng Nam
49 Quảng Ngãi
50 Quảng Ninh
51 Quảng Trị
Sóc Trăng
52
Sơn La
53
Tây Ninh
54
Thái Bình
55
Thái Nguyên
56
Thanh Hoá
57
Thừa Thiên
Huế
Tiền Giang
Trà Vinh
Tuyên Quang
Hải Dương
Hải Phòng
Hậu Giang
Hoà Bình
Hưng Yên
HDG
HPG
HGG
HBH
HYN
27
28
29
30
31
59
60
61
62 Vĩnh Long
63 Vĩnh Phúc
TGG
TVH
TQG
VLG
VPC
320
31
71
18
321
73
74
27
70
211
HCM
32
64 Yên Bái
YBI
8
29
TP. Hồ Chí
Minh
X
Phụ lục 5. Hình ảnh, màn hình giao diện và chức năng
Thư viễn biểu mẫu văn bản sử dụng thông kê các loại văn bản để khảo sát, nhận
diện tình huống sử dụng CVT trong thực tế tại đơn vị (mục 3.3.4.). Khảo sát này giúp đề
xuất giải pháp xử lý nhập nhằng CVT trong một lĩnh vực VT-CNTT tại đơn vị.
1) Thống kê mẫu văn bản của Viễn thông Đà Nẵng
Hình 1. Thư viện biểu mẫu văn bản
.
Giới thiệu kết quả xây dựng website thư viện CVT (minh họa thêm cho mục 5.3.3.),
hiện đã được đưa vào sử dụng như hình 1, hình 2 và hình 3 dưới đây:
Hình 2. Trang quản trị và cấu hình thư viện CVT
2) Hình ảnh giao diện kết quả xây dựng Website
XI
Trang chủ thư viện CVT được thiết kế với nhiều chức năng, trong đó có các
Hình 3. Trang chủ thư viện chữ viết tắt.
liên kết sắp xếp theo vần ABC giúp tra cứu được nhanh chóng.
Chức năng tra cứu CVT được thiết kế cho phép tra cứu chính xác hoặc gần đúng.
Quá trình tìm kiếm, sử dụng cũng được hệ thống website lưu trữ để có những số liệu
thống kê như CVT được xem nhiều nhất…
Hình 4. Kết quả tra cứu chữ viết tắt.
XII
3) Công cụ lập trình Android Studio và Genymotion giả lập máy di động
Hình ảnh công cụ giả lập để triển khai thực nghiệm lập trình xây dựng từ điển
Hình 5. Sử dụng môi trường phát triển tích hợp Android Studio lập trình
Hình 6. Công cụ Genymotion giả lập máy di động
tra CVT trên máy di động (làm rõ thêm mục 4.3):
Danh mục các tệp Java đã thiết kế cho từ điển CVT trên máy di động
Hình 7. Danh mục các tệp Java đã thiết kế
XIII
Hình 8. Cấu trúc Mã bưu chính
4) Cấu trúc Bộ danh mục mã bưu chính quốc gia Việt Nam
XIV
5) Ứng dụng chạy trên máy di động giả lập trên máy tính
Biểu tượng:
ABC Acronym
Dictionary
Biên dịch bởi Android Studio, chương trình có biểu tượng là ABC Acronym
Dictionary (hình 8). Hình ảnh ứng dụng giả lập trên máy tính (bởi Genymotion),
chương trình thường trú trong bộ nhớ. Menu dọc là các chức năng: Thống kê, cài đặt,
cập nhật mới… như hình 8. Nhấn màn hình cảm ứng trên cụm CVT để chọn khối,
sau đó chọn copy vào vùng nhớ đệm, chương trình sẽ copy dữ liệu CVT trong vùng
nhớ đệm, tra cứu và hiển thị dữ liệu kết quả tra cứu hình 9.
Hình 8. Giao diện chức năng và kết quả tra cứu CVT
Hình 9. Giao diện chức năng tra cứu và thống kê sử dụng CVT
XV
6) Ứng dụng thực tế trên máy di động Samsung Not 3
Sau khi xây dựng chương trình trên các phần mềm giả lập, thực hiện lệnh Build,
ứng dụng có tên là: "ABC Acronym Dictionary". Sao chép tập tin lên máy di động
và cài đặt trong biểu tượng ABC Acronym Dictionary. Các hình ảnh ứng dụng thực
Hình 10. Giao diện chức năng và thống kê sử dụng CVT trên máy di động
Hình 11. Giao diện biểu đồ thống kê sử dụng và tra cứu CVT trên máy di động
tế chạy trên trên máy di động Samsung Not 3 như các hình sau đây:
Về chức năng tra cứu chạy thực tế trên máy di động:
XVI
Tương tự như trên, chương trình đã chạy thường trú, Khi người dùng cần tra
cứu trực tiếp CVT trên file văn bản, email, tin nhắn, website…, nhấn màn hình cảm
ứng máy di động trên cụm CVT để chọn khối, sau đó chọn copy vào vùng nhớ đệm,
chương trình sẽ copy dữ liệu CVT trong vùng nhớ đệm.
Tiếp theo NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm kiếm
CVT (ABC Acronym Dictionary), hiển thị dữ liệu kết quả tra cứu:
Khung cửa sổ phía trên: Kết quả tra cứu CVT.
Khung cửa sổ phía dưới: Vẫn giữ nội dung văn bản NSD đang đọc.
Hình 12. Giao diện tra cứu trực tiếp CVT trên máy di động
XVII
7) Ứng dụng SMS Brandname:
Ứng dụng SMS Brandname được đưa vào khai thác, trong đó có các chức nằn:
Thiết lập cấu hình, Tư vận trực tiếp/Tự động Brandname cho khách hàng. Giao diện
Hình 13. Giao diện chức năng và cấu hình ứng dụng SMS Brandname
Hình 14. Chức năng tư vấn tự động Brandname
chính như hình 13 dưới đây.
XVIII
8) Cấu trúc XML cho CSDL chữ viết tắt
|
1
VNPT
Vi-en-pi-ti
VietNam Posts And Telecommunications Group
Tập đoàn Bưu chính Viễn thông Việt Nam
1 - (Công nghệ thông tin và Truyền thông)
01
......
Hình 15. Cấu trúc XML cho CSDL chữ viết tắt.
Hình 15 dưới đây là ví dụ về cách tổ chức CSDL với mục từ viết tắt “VNPT”:
Hình 16. CSDL 108 VNPT Đà Nẵng
9) CSDL 108 VNPT Đà Nẵng
Hình 17. Minh họa CSDL đã xây dựng
XIX
10) Thực hiện chương trình cập nhật tần số sử dụng CVT
Chương trình chính chạy trong khung cửa sổ Main (hình 18), chọn nút lệnh
Import CSV file, chọn file đầu vào, chọn lựa trình duyệt, sau đó kích chọn nút
Run để thực hiện thu thập dữ liệu tần suất sử dụng CVT.
Hình 18. Thực hiện chương trình cập nhật tần số sử dụng CVT
XX
11) Khảo sát tương quan tần số sử dụng CVT
Tần suất xuất hiện 8 cụm CVT (là thương hiệu thức ăn nhanh) ngày 02/04/2016
Bảng 1. Tương quan tần suất xuất hiện CVT và bàn luận trên mạng xã hội
so sánh với thị phần thương hiệu bàn luận trên mạng xã hội (bảng 1 và hình 19):
STT
NGHIAVIET
N_VN1
Tần suất %
Social Media %
146.000
125.000
57.900
32.800
29.700
18.800
7.420
2.760
1 KFC
2 Lotteria
3 McDonald's
4 Burger King
5 Popeyes
6 Jollibee
7 Texas Chicken
8 Carl's Jr.
34,7
29,7
13,8
7,8
7,1
4,5
1,8
0,7
47,0
26,0
10,0
5,0
5,6
4,4
1,0
1,0
420.380
100
100
Hình 19. Biểu đồ thương hiệu thực ăn nhanh thảo luận trên Internet
(theo nguồn số liệu trên Internet)
If
Trích CVT trong cặp dấu (...):CVT
Trích Ngữ nghĩa CVT trong câu S: NguNghia
Bổ sung CVT vào Bảng T: t(i+1,j+1) = t(CVT, NguNghia)
CVT này được làm rõ ngữ nghĩa, bản T có thêm CVT.
Else
CVT này được nhận diện trong bảng T đã định nghĩa,
Endif
Else
Tìm kiếm CVT trên CSDL D;
- Nếu có, chọn lọc Danh sách các CVT, gán vào mảng L(i,j)
Chọn lọc CVT với điều kiện có ngữ nghĩa L(j) của W tần suất sử dụng
cao nhất trong và sử dụng kỹ thuật FTS để xác định L(j) tương đồng ngữ
nghĩa với câu S.
- Nếu không tìm thấy, cảnh báo sử dụng CVT không phù hợp.
Endif
Endif
112
Until
Until Eof()
End
Thuật toán có sử dụng kỹ thuật tìm kiếm toàn văn FTS (Full Text Search). FTS
là kĩ thuật tìm kiếm trên "Full text database", ở đây "Full text database" là cơ sở dữ
liệu chứa "toàn bộ" các kí tự (text) của một hoặc một số các tài liệu, bài báo.
Đánh giá độ phức tạp thuật toán: Do sử dụng bốn vòng lặp lồng nhau, độ phức
tạp của thuật toán là O(n4). Tuy nhiên, vòng lặp trong cùng (thứ 4) có chứa lệnh so
sánh CVT tìm được với CSDL đã có, tương ứng như một vòng lặp duyệt các mẩu tin
trong CSDL, làm tăng độ phức tạp giải thuật thành O(n5); cần cải tiến thuật giải theo
hướng loại bỏ sự so sánh trực tiếp mỗi CVT tìm được với CSDL đã có.
5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng
Trong thực tế, có nhiều khả năng xảy ra nhập nhằng CVT khi xem xét một văn
bản tiếng Việt. Đề tài tập trung giải quyết vấn đề nhập nhằng CVT xảy ra. Mô hình
CSDL Chữ viết tắt
Văn bản đầu vào
Khử bỏ nhập nhằng CVT
Văn bản xử lý nhập nhằng CVT
Cơ sở luật khử nhập nhằng
giải pháp được đề xuất như sau :
Hình 5.3. Mô hình kết hợp xử lý nhập nhằng CVT trong văn bản.
Trong mô hình (hình 5.3), văn bản chưa xử lý nhập nhằng có thể bao gồm ba
loại tệp văn bản (.html,.doc,.text); văn bản này được tách thành đoạn, từng câu, từ.
Sau đó kiểm tra từng từ, nếu có dấu hiệu nhận biết CVT, sẽ kiểm tra theo thuận toán
113
trình bày trong mục 5.3.3 để kết hợp với cơ sở luật đã xây dựng và CSDL chữ viết tắt
để khử bỏ nhập nhằng. Việc thực hiện khử một phần các hiện tượng nhập nhằng CVT
đối với văn bản tiếng Việt còn dựa trên các vấn đề:
a) Sử dụng một cơ sở luật để nhận diện CVT nhập nhằng.
b) Dựa trên tiêu chuẩn thống kê được tần số, tần suất sử dụng CVT.
Như vậy, trong một ngữ cảnh một loại hình văn bản chuyên ngành (hạn hẹp),
việc xử lý nhập nhằng CVT có thể dựa trên cơ sở luật để xử lý nhập nhằng, nhận diện
CVT. Vậy trong ngữ cảnh dữ liệu lớn và phức tạp như môi trường Internet, việc xử
lý nhập nhằng CVT, người sử dụng nhận diện CVT cần dựa trên các tiêu chí nhất
định.
Ngành ngôn ngữ học [46] sử dụng khái niệm tần số sử dụng ngôn ngữ để đưa
ra tần số sử dụng CVT như [13]. Từ ý tưởng đó, trên cơ sở lý thuyết xác suất, thống
kê [16], các mục tiếp theo trình bày kết quả nghiên cứu, đề xuất các khái niệm, xây
dựng giải pháp đánh giá tần số, tần suất sử dụng CVT trên mạng Internet để cung cấp
chỉ số hướng đến xử lý nhập nhằng CVT.
5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG
Trên cơ sở lý thuyết ngôn ngữ học [17][28][30] và lý thuyết xác suất thống kê
[16], luận án vận dụng và đưa ra thống kê tần số sử dụng CVT bằng cách kế thừa dữ
liệu CVT trên hệ thống tìm kiếm chuyên nghiệp (như Google, Yahoo…). Từ đó, tìm
cách tính toán, đánh giá tần số sử dụng, tần suất xuất hiện của CVT, đưa ra một chỉ
số tham khảo mức độ sử dụng CVT, làm chỉ số đánh giá CVT.
5.4.1. Tần số chữ viết tắt
Hiện nay, chưa có nhiều công trình, bài báo nghiên cứu đầy đủ đến vấn đề này,
đặc biệt là về tiếng Việt (Kinh). Một số công trình nghiên cứu thu thập và xây dựng
cơ sở dữ liệu CVT tiếng Việt [13] đã thống kê được các CVT thông dụng, nhưng
chưa thống kê được tần suất xuất hiện, nghiên cứu này ghi nhận được 1.151 đơn vị CVT43, có thống kê tần số xuất hiện, nhưng hầu như không đưa ra các CVT trùng
43Hội Ngôn ngữ học Việt Nam, "Danh sách chữ viết tắt xếp theo tần số" [13] (năm 2002)
nhau và tần suất xuất hiện của chúng. Ở đây, không nói rõ căn cứ, tiêu chí thống kê
114
nào để đưa ra tần số sử dụng CVT. Với cách làm thủ công, thiếu công cụ quản lý, cập
nhật thường xuyên thì cách đánh giá tần số sử dụng là gặp nhiều khó khăn, bất cập;
không theo kịp sự phát triển CVT trong thực tế và xu hướng sử dụng. Một nghiên cứu
về thực trạng của hiện tượng viết tắt từ ngữ [21][26], bằng cách khảo sát tư liệu thực
tế trên 10 tờ báo với phương pháp thống kê thủ công đã đưa ra một số kết luận: Tư
liệu thống kê cho biết tần số sử dụng của từng dạng viết tắt, từ đó cho thấy xu hướng
(theo tần số) cố định hóa các dạng tắt, gợi ý cho việc đưa ra các giải pháp chuẩn hóa
chữ viết tắt trên văn bản.
Các tập Corpus cũng có thể cho phép đánh giá tần số sử dụng CVT tương đối
tập trung. Sử dụng tập Corpus có tên là VNTQcorpus(big).txt - kế thừa kết quả nghiên
cứu [23], tập này có kích thước ~240 Mb, số lượng câu khoảng 1.750.000 câu, trích
xuất từ khoảng 13.000 bài báo trên Internet. Bằng kỹ thuật tìm kiếm thông thường
trên tệp văn bản (TXT), tác giả chỉ tìm thấy hai chữ viết tắt UBND (Ủy Ban Nhân
Dân), không tìm thấy CVT khá phổ biến là KCS (Kiểm tra Chất lượng Sản phẩm),
hay HTX (Hợp tác xã). Điều này chứng tỏ nếu dựa trên các tập Corpus, rất khó có
thể đưa ra tần số, tần suất CVT một cách tiệm cận với thực tế vốn có.
5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt
Luận án xây dựng khái niệm về tần số sử dụng, tần suất xuất hiện CVT tiếng
Việt trên Internet. Ta gọi một bảng số liệu các CVT là bảng có N chữ viết tắt (là bảng
CSDL CVT), nhưng chỉ có k chữ viết tắt khác nhau là x1, x2, …, xk.
Khái niệm tần số sử dụng CVT trên Internet là giá trị số biểu thị kết quả trả
về khi thực hiện tra cứu trên hệ thống tìm kiếm chuyên nghiệp (Internet) trong phạm
vi nào đó tại một thời điểm. CVT xi xuất hiện ni lần khi tìm thấy trên chương trình
tìm kiếm chuyên nghiệp, với 1 ≤ i ≤ k, ta nói ni là tần số sử dụng của CVT xi.
Phạm vi, tiêu chí tìm kiếm tần số sử dụng: Công cụ tìm kiếm có chức năng tìm
kiếm mở rộng, chuyên sâu, theo tiêu chí nào đó (tên miền, gần đúng, chính xác…).
Dựa vào đặc điểm này, có thể đánh giá tần số sử dụng CVT trong một phạm vi nhất
định. Ví dụ, công cụ tìm kiếm cho phép tìm CVT trong phạm vi tên miền .vn. Tiêu
chí tìm kiếm tần số sử dụng trên Internet: Để có kết quả tần số sử dụng có giá trị
chính xác; ta định nghĩa tiêu chí tìm kiếm chính xác, tức là là bọc chuỗi từ khóa cần
115
tìm trong dấu ngoặc kép ("
định nghĩa chi tiết, công bố trong bài báo số [3].
Nhận xét: Giá trị tần số sử dụng này không phải là duy nhất, luôn biến động
bởi cập nhật thông tin liên tục từ Internet. Số lần sử dụng là trùng lặp, mỗi sự xuất
hiện trên Internet có thể xem như một lần sử dụng, tần số được tăng lên 1 đơn vị.
Khái niệm tần suất xuất hiện CVT tiếng Việt trên Internet
Tần suất xuất hiện CVT tiếng Việt trên Internet là tỷ số giữa tần số sử dụng
CVT trên môi trường Internet và tổng các tần số sử dụng của các CVT trong bảng thống
kê tần số sử dụng CVT đang xem xét trong một đơn vị thời gian, một phạm vi thống
kê nào đó. Hay nói cách khác, với một bảng số liệu thống kê các chữ viết tắt có N giá
trị nhưng chỉ có k giá trị khác nhau x1, x2, …,xk.
Giá trị chữ viết tắt xi xuất hiện ni lần (1 ≤ i ≤ k), ni là tần số của chữ viết tắt xi
Tỉ số fi = là tần suất xuất hiện của của chữ viết tắt xi , với:
n1 + n2 + … + nk = N ; f1 + f2 + … + fk = 1
Hoặc nói cách khác: Tỉ số fi = * 100 được gọi là tần suất xuất hiện của chữ
viết tắt xi , với: n1 + n2 + … + nk = N ; f1 + f2 + … + fk = 100
Ví dụ: Với cách định nghĩa trên, trong phạm vi chỉ định tại một thời điểm, tần
số sử dụng CVT và tần suất xuất hiện CVT được mô tả trong bảng dưới đây:
Bảng 5.3: Tính toán tần suất xuất hiện CVT trong một phạm vi chỉ định
STT Chữ viết tắt Tần suất (%)
1 2 3 4 5 6 fi f2 f3 f4 f5 f6 100% Phát triển (PT) Phạm trù (PT) Phương thức (PT) Phát thanh (PT) Phương trình (PT) Phương Thanh (PT) Tổng cộng Tần số (trong phạm vi) n1 n2 n3 n4 n5 n6 N
116
Với bảng có tổng N giá trị sử dụng của k (k=6) CVT khác nhau, tần số sử dụng
CVT thứ i là các giá trị ni tương ứng. Tần suất xuất hiện CVT “PT” trong phạm vi CVT
sử dụng đã chỉ định trên Internet theo nghĩa “Phát triển” là f1, theo nghĩa “Phương trình”
là f3, theo nghĩa “Phương Thanh” là f6, ...
5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt
CSDL CVT (mục 3.4.1) được xem như bảng dữ liệu đầu vào cần đánh giá tần
suất sử dụng CVT.
Giải pháp đánh giá tần số CVT tiếng Việt trên Internet: Các bước đề xuất tìm
kiếm cập nhật dữ liệu tính toán tần số sử dụng CVT trên Internet:
1) Bước 1: Chuẩn bị bảng dữ liệu CVT, thiết kế các trường lưu giữ kết quả
tần số sử dụng.
2) Bước 2: Thiết lập phạm vi, giá trị cần tìm kiếm CVT trên hệ thống website
tìm kiếm chuyên nghiệp.
3) Bước 3: Xây dựng chương trình tìm kiếm giả lập như thao tác tìm kiếm từ
người sử dụng.
4) Bước 4: Thực hiện chạy chương trình tìm kiếm, ghi nhận thời gian, giá trị
tìm kiếm CVT vào CSDL.
5) Bước 5: Phân tích dữ liệu, dánh giá, sắp xếp và lưu trữ, công bố.
6) Bước 6: Sau một chu kỳ (3 tháng hoặc 6), lặp lại các bước 4, 5.
7) Bước 7: So sánh dữ liệu, đánh giá sự biến động giá trị tần số sử dụng sau
một chu kỳ thời gian.
Giải pháp đánh giá tần suất xuất hiện CVT tiếng Việt trên Internet: Sau khi
có kết quả cập nhật dữ liệu tính toán tần số sử dụng CVT trên môi trường Internet,
cách đánh giá tần suất xuất hiện CVT tiếng Việt như sau:
1) Bước 1: Sắp xếp dữ liệu tần số sử dụng CVT.
2) Bước 2: Chọn lọc các CVT trùng lặp, đa nghĩa.
3) Bước 3: Lựa chọn phạm vi tần số xuất hiện để thực hiện tính toán tần suất
xuất hiện CVT theo công thức:
117
fi = *100
Trong đó: N: Tổng số các CVT giống nhau nhưng có ngữ nghĩa
khác nhau, ni là tần số sử dụng của chữ viết tắt xi
4) Bước 4: Sắp xếp CVT theo giá trị fi giảm dần, lưu trữ, nhận xét, công bố.
5) Bước 5: Sau một chu kỳ (3 hoặc 6 tháng), lặp lại các bước 2, 3, 4.
6) Bước 6: So sánh dữ liệu, đánh giá sự biến động giá trị tần suất xuất hiện
sau một chu kỳ thời gian.
5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm
Thuật toán ghi nhận, đánh giá tần số CVT trên Internet (Assessment frequency
Vietnamese abbreviations on the Internet, viết tắt là AFVAI).
1) Thuật toán AFVAI
Input: File dữ liệu CVT, phạm vi tìm kiếm trên yahoo.com
Output: File dữ liệu tần số sử dụng CVT theo các tiêu chí.
Begin
Open CSDL làm việc trung gian
Thiết lập các tiêu chí, phạm vi tìm kiếm
Lựa chọn và Khởi động trình duyệt.
Repeat
Read CVT của file đầu vào
Truyền tham số trình duyệt tìm kiếm
giá trị CVT trong phạm vi, tiêu chí Open tệp HTML sau khi có kết quả tìm kiếm trả về
Read file HTML
Dùng Biểu thức chính quy tìm giá trị số
"
So khớp và Lưu giữ giá trị
Until .
Hiển thị Bảng kết quả, Lưu kết quả vào File
End.
118
2) Triển khai thực nghiệm và đánh giá kết quả
Triển khai thực nghiệm giải pháp theo các bước đã nêu, chọn hệ thống tìm
kiếm chuyên nghiệp để khai thác dữ liệu CVT là Yahoo.com, sử dụng ngôn ngữ lập
trình C# để triển khai xây dựng chương trình. Chương trình nhận danh sách CVT
trong CSDL đầu vào, khởi động trình duyệt Browser (Google Chrome hoặc Firefox),
truyền tham số tìm kiếm CVT, phạm vi, tiêu chí tìm kiếm. Chương trình tự động hóa
tìm kiếm. Sau khi tìm kiếm xong nhận lấy kết quả tệp mã nguồn (source code dạng
html) từ trang web, đọc kết quả tìm kiếm được và lưu vào CSDL. Chương trình bao
gồm các lớp (class) trình bày chi tiết trong bài báo số [3].
Đánh giá độ phức tạp thuật toán: Do sử dụng một vòng lặp lồng nhau, độ phức
tạp của thuật toán là O(n). Tuy nhiên, lệnh so khớp CVT tìm được với CSDL đã có,
tương ứng như một vòng lặp duyệt các mẩu tin trong CSDL, làm tăng độ phức tạp
giải thuật thành O(n2). Ngoài ra độ phức tạp còn phụ thuộc kết nối mạng Internet và
“cộng sinh” vào hệ thống tìm kiếm Yahoo.com, cho nên thuật toán trên chủ yếu sử
dụng trong thực nghiệm để phân tích kết quả.
Thực hiện chương trình và cập nhật dữ liệu tần số sử dụng CVT
1) Chạy chương trình, tiêu chí tìm kiếm chính xác cả cụm từ (bọc chuỗi từ khóa
trong dấu ngoặc kép "…"), trong các phạm tìm kiếm đã định nghĩa. Chương
trình chính chạy trong khung cửa sổ Main (hình 18 phụ lục 5).
2) Giao diện chương trình khi thực hiện xong đưa ra kết với các giá trị tìm kiếm
được là các tần số CVT sử dụng theo từng phạm vi đã định nghĩa (các cột).
Thực hiện Save as để lưu kết quả ra File CSV phục vụ cho lưu trữ và xử lý
tính toán tần suất xuất hiện CVT (hình 5.7):
Hình 5.4. Kết quả thực hiện chương trình cập nhật tần số sử dụng CVT
119
3) Kết quả hình 5.4 cho thấy, trong phạm vi N_VN1, chữ viết tắt PT với nghĩa
“Phát triển” có tần số sử dụng định nghĩa 184 lần (thời điểm 24/03/2016), với
nghĩa “Phương trình” có tần số sử dụng định nghĩa 184 lần…, chữ viết tắt PT
có tần số sử dụng lên đến 345.000 lần.
4) Ghi chú: Chương trình thực nghiệm là sự mô phỏng thao tác người sử dụng
tìm kiếm theo cách thủ công để Yahoo.com chấp nhận cho phép tìm kiếm
CSDL. Do đó, các tệp đầu vào cần phải tách dữ liệu mức độ vừa phải (nên
dưới 50 dòng) để Yahoo không từ chối phục vụ. Để chạy chương trình số
lượng lớn dữ liệu, cần phải sử dụng nhiều máy tính, trong nhiều khoảng thời
gian để có kết quả như mong đợi.
5.4.5. Kết quả thực nghiệm và đánh giá
Sử dụng nhiều máy tính chạy chương trình, trong nhiều khoảng thời gian. Dữ
liệu đầu vào có 4.542 mẫu tin (với hơn 2.300 mẫu CVT thông dụng chọn lựa trong
CSDL đã có), tách thành gần 100 File dữ liệu đầu vào. Dữ liệu đầu ra với gần 100
file tương ứng, sau đó được ghép lại bảng dữ liệu tổng thể tần số sử dụng CVT.
Sau khi có bảng dữ liệu tần số sử dụng CVT, thực hiện tính toán tần suất sử
dụng theo các bước đã đề xuất trong giải pháp trên đây. Trước mắt, kết quả đưa ra
120
được hơn 30 bảng tần suất xuất hiện các CVT với những cụm viết tắt giống nhau. Ví
dụ: Kết quả tính toán tần suất chữ viết tắt PT trong phạm vi N_VN1 tại 2 thời điểm
khác nhau là ngày 15/03/2016 và 25/03/2016:
Ngày 15/3/2016
Ngày 25/03/2016
Bảng 5.4. Kết quả thực hiện tính toàn tần số sử dụng, tần suất xuất hiện CVT
STT
Chữ viết tắt
N_VN1
N_VN1 Tần suất %
Tần suất %
Phương trình (PT) Phát triển (PT) Phương Thanh (PT) Phát thanh (PT) Phương thức (PT) Phạm trù (PT) Tổng cộng
1 2 3 4 5 6
PT
63 30 2,9 2,5 1,5 0,0 100
63,1 30,2 2,8 2,5 1,5 0,0 100
382 182 16 14 9 0 603 333.000
385 184 17 15 9 0 610 345.000
Phân tích bảng trên, với 6 giá trị ngữ nghĩa khác nhau chữ viết tắt PT:
1) Tần số sử dụng gia tăng sau 10 ngày, chữ viết tắt PT tăng từ 333.000 lên
345.000, tức là tăng số lần sử dụng lên 12.000 lần; CVT gia tăng chứng tỏ
2) Tần suất sử dụng của Phương trình (PT) tại thời điểm 15/03/2016 là
sự sử dụng CVT ngày càng nhiều trên mạng Internet.
63,04%; Phát triển (PT) là 30,03%, Phương Thanh (PT) là 2,97%... Đến
ngày 25/3/2016, tần suất biến đổi nhưng không đáng kể. Chữ viết tắt PT có
tần suất sử dụng là 345.000 lần; tuy nhiên chữ viết tắt PT theo ngữ nghĩa
“Phương trình” chiếm tần suất sử dụng cao nhất 63,11% với tần số sử dụng
định nghĩa là 385 lần. Giá trị này cho thấy ngữ nghĩa “Phương trình” của
chữ viết tắt PT là phổ biến hơn cả. Chỉ số cao nhất này chỉ dấu với một chữ
viết tắt PT, ngữ nghĩa “Phương trình” là có xác suất xuất hiện cao nhất.
Nhờ chỉ số tần suất này, vấn đề xử lý nhập nhằng ngữ nghĩa CVT có một
hướng tiếp cận giải quyết, tức là chọn ngữ nghĩa CVT theo tần suất sử dụng
3) Công bố trên www.chuviettat.com [74] về kết quả tần số, tần suất xuất
cao nhất.
hiện các CVT, dự kiến sẽ công bố giá trị tăng giảm tần suất sau một thời
121
gian; sắp xếp giảm dần theo giá trị tần suất. Đưa ra cảnh bảo các giá trị
giảm (CVT là nhãn hiệu, thương hiệu). NSD có công cụ để tự đánh giá là
các CVT mình đang sở hữu; chức năng tra cứu CVT sẽ bổ sung thêm giá
4) Tương quan giữa thị phần dịch vụ và chỉ số tần suất xuất hiện chữ viết tắt:
trị tần suất xuất hiện và thời gian đánh giá.
Bằng phép so sánh, đối chiếu, ta nhận thấy có sự tương quan tần suất CVT
với những chỉ số thị phần hay xếp hạng thương hiệu; chẳng hạn các ví dụ
dưới đây:
- Ví dụ 1: Tần suất xuất hiện 8 cụm CVT (là thương hiệu thức ăn
nhanh) so sánh với thị phần thương hiệu bàn luận trên mạng xã
hội trong hình 19, bảng 1, phụ lục 5.
- Ví dụ 2: Tần suất xuất hiện 5 CVT (là thương hiệu nhà mạng di
động) so sánh với thị phần dịch vụ các nhà mạng di động tương
ứng (nguồn số liệu: Bộ Thông tin Truyền thông), bảng 5.5:
Bảng 5.5. Tương quan tần suất CVT và thị phần dịch vụ
STT NGHIAVIET N_VN1
Tần suất %
1 Viettel
687.000
Thị phần % 43,5
So sánh Prec 0,43
32,2
2 MobiFone
688.000
31,8
0,50
32,3
3 VinaPhone
489.000
17,5
0,57
22,9
4 Vietnamobile
127.000
4,1
0,59
6,0
5 GMobile
140.000 2.131.000
6,6 100
3,2 100
0,67
6.570%
5.960%
Viettel
32.238%
22.947%
MobiFone
VinaPhone
Vietnamobile
32.285%
GMobile
122
Hình 5.5. Biểu đồ tần suất CVT là thương hiệu di động trên Internet
Sự tương quan giữa chúng cho phép tiếp cận: Dựa vào tần suất xuất hiện CVT
(là thương hiệu, nhãn hiệu) có thể đưa ra chỉ số lượng hóa, sử dụng để dự đoán thị
phần, mức độ phát triển thương hiệu, nhãn hiệu. Doanh nghiệp có thể tham khảo chỉ
số này để đánh giá việc quảng bá, truyền thông của mình.
Lấy ý tưởng từ chỉ số tỷ lệ chính xác (Precision), lập tỷ lệ so sánh giữa Tần
suất và Thị phần như cột thứ 6 của bảng 5.5. Kết quả nhận thấy tỷ lệ Precision này
tăng dần đối với những doanh nghiệp có thị phần nhỏ dần: Điều này hợp lý bởi các
doanh nghiệp mới ra đời hay nhỏ hơn, ít lợi thế cạnh tranh hơn, thị phần phần thấp
thông thường gia tăng quảng bá thương hiệu; hay nói cách khác là xác suất về tần
suất xuất hiện trên truyền thông lớn hơn.
Nhận xét kết quả thực nghiệm
1. So sánh với phương pháp đánh giá tần số CVT theo Hội ngôn ngữ học Việt
Nam [11][9] và tần số CVT xuất hiện trong Corpus, phương pháp này có
những ưu điểm nhất định. Dựa trên nguồn dữ liệu sẵn có của các hệ thống
website tìm kiếm chuyên nghiệp, chúng ta có thể trích lọc các thông tin
hữu ích về tần số sử dụng và tần suất xuất hiện CVT (công cụ phần mềm
thống kê này thể hiện tính cộng sinh của AMES).
123
2. Về kết quả tần số, tần suất xuất hiện các CVT, công bố giá trị tăng giảm
tần suất sau một chu kỳ thời gian (3-6 tháng); sắp xếp giảm dần theo giá trị
tần suất. Đưa ra cảnh bảo các giá trị giảm (CVT là nhãn hiệu, thương hiệu).
NSD có công cụ để tự đánh giá là các CVT mình đang sở hữu. Sau một chu
kỳ thời gian sẽ có bổ sung giá trị tăng/giảm tần suất xuất hiện.
3. Tương quan giữa thị phần dịch vụ và chỉ số tần suất xuất hiện chữ viết tắt:
Bằng phép so sánh, đối chiếu, đưa ra sự tương quan tần suất CVT với
những chỉ số thị phần hay xếp hạng thương hiệu (hình 5.7 và 5.8). Sự tương
quan giữa chúng cho phép đưa ra cách tiếp cận: dựa vào tần suất xuất hiện
CVT (thương hiệu, nhãn hiệu) có thể lượng hóa, sử dụng để dự đoán thị
phần, mức độ phát triển thương hiệu của doanh nghiệp.
4. Một số hạn chế của giải pháp: còn phụ thuộc vào dữ liệu có được trên
yahoo.com, chương trình là sự mô phỏng tự động việc tìm kiếm thủ công.
Nếu dữ liệu đầu vào lớn, cần nhiều thời gian, nhiều máy tính để chạy
chương trình và ghi nhận dữ liệu. Dữ liệu trên Interrnet sử dụng bảng mã
tiếng Việt nhiều loại là rào cản cho dữ liệu chưa đầy đủ, chuẩn xác.
5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt
Với giải pháp đề xuất, luận án đưa ra những ứng dụng, cụ thể:
1. Sự gia tăng tần suất (sau một khoảng thời gian đánh giá) cho thấy bước
phát triển và sử dụng CVT, đặc biệt đối với thương hiệu, nhãn hiệu; chứng
tỏ sự lặp lại, sự quan tâm của truyền thông; lưu trữ, quan sát chỉ số này
giúp cho việc tư vấn phát triển, nhận diện thương hiệu. Sự giảm tần suất
CVT cho thấy việc truyền thông có chiều hướng giảm. Việc này có ý nghĩa
ứng dụng trong tư vấn doanh nghiệp phát triển truyền thông.
2. Với mỗi phạm vi sử dụng, tần số xuất hiện CVT giúp tư vấn chọn lựa
phương thức truyền thông để đạt hiệu quả mong đợi. Chẳng hạn CVT là
thương hiệu xuất hiện nhiều nhất trên tên miền .com thì quảng bá trên
website có tên miền này sẽ hiệu quả hơn.
3. Bằng phép so sánh, đối chiếu, rút ra sự tương quan tần suất CVT với những
chỉ số thị phần, xếp hạng thương hiệu. Sự tương quan giữa chúng cho phép
124
dựa vào tần suất xuất hiện CVT đưa ra chỉ số lượng hóa trong phát triển
thương hiệu, thị phần của doanh nghiệp.
4. Chỉ số tần suất xuất hiện: Cho phép một cách tiếp cận xử lý nhập nhằng
ngữ nghĩa, nhận diện CVT dựa trên chỉ số tần suất CVT. Các CVT có chỉ
số tần suất fi cao được ưu tiên gán ngữ nghĩa tương ứng, tính phổ dụng
CVT càng cao, có sức sống trong thực tiễn. CVT có tần suất xuất hiện ít
và thấp thì ít phổ biến, cũng có thể là rất cá biệt.
5.5. TÓM TẮT CHƯƠNG 5
Chương 5 đã phân tích và đề xuất giải quyết vấn đề xử lý nhập nhằng CVT.
Triển khai đề xuất hai hướng tiếp cận xử lý nhập nhằng CVT.
Hướng thứ nhất xử lý nhập nhằng CVT có nội dung trọng tâm là xây dựng vị
từ và hàm nhận diện CVT trong văn bản, từ đó đề xuất xây dựng cơ sở luật, thuật toán
nhận diện và xử lý nhập nhằng CVT trong văn bản, giới hạn nghiên cứu và thực
nghiệm văn bản trong lĩnh vực chuyên ngành viễn thông.
Hướng tiếp cận khác để xử lý nhập nhằng luận án đề xuất dựa vào chỉ số tần
suất xuất hiện CVT, tức là tần suất CVT cực đại. Triển khai ý tưởng này, xây dựng
giải pháp và thuật toán AFVAI, thực nghiệm đánh giá tần số, tần suất CVT trên mạng
Internet và đưa ra một vài ứng dụng thực tiễn. Chỉ số tần suất xuất hiện CVT cũng là
cơ sở cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa và nhận diện CVT dưạ
vào tần suất CVT cực đại có được.
Ý tưởng và thực nghiệm kết quả nghiên cứu cho phép đề xuất một phương
pháp thống kê ngôn ngữ học trên Internet, để quan sát và phân tích các hiện tượng
phát triển ngôn ngữ. Chẳng hạn như tìm những từ, cụm từ mới xuất hiện, có thống kê
tần suất xuất hiện (theo định kỳ thời gian), lưu trữ phân tích; từ đó quan sát được mức
độ quan tâm của truyền thông và sử dụng chúng, giúp ta thấy được sự phát triển của
từ vựng trong ngôn ngữ học.
125
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Phần này tóm tắt nội dung luận án, đánh giá những kết quả đạt được, đóng
góp khoa học và thực tiễn ứng dụng, đồng thời nêu lên những hạn chế và hướng phát
triển nghiên cứu trong tương lai của luận án.
1. KẾT LUẬN
1.1. Tóm tắt nội dung luận án
Luận án trình bày kết quả nghiên cứu lý thuyết của tác giả về ngôn ngữ, nguồn
gốc phát triển, những nhân tố làm cho ngôn ngữ biến đổi và phát triển; nêu lên những
vấn đề về XLNNTN đặt trong bối cảnh chung để tiếp cận nghiên cứu vấn đề ngữ
nghĩa và nhập nhằng ngữ nghĩa. Tìm hiểu sự biến đổi phát triển ngôn ngữ tiếng Việt
thông qua hai vấn đề: Sự biến đổi từ vựng và Sự biến đổi ngữ nghĩa. Đây là cơ sở lý
luận của ngôn ngữ học để luận án tiếp cận nghiên cứu vấn đề nguồn gốc, sự hình
thành CVT tiếng Việt, khẳng định có ý nghĩa khoa học và thực tiễn: Hệ thống từ vựng
của ngôn ngữ luôn biến đổi phát triển, trong đó phương thức viết tắt, tạo lập các chữ
viết tắt làm xuất hiện các từ ngữ mới. Từ đó phân tích các hạn chế, phát hiện đặt vấn
đề cần nghiên cứu của luận án: Hiện tượng nhập nhằng trong xử lý tiếng Việt, tiếp
cận xử lý vấn đề chữ viết tắt tiếng Việt.
Tiếp theo, lần lượt trong các chương 2, 3, 4 và 5, nội dung đã đi sâu nghiên
cứu vấn đề CVT trong thực tiễn với lịch sử hình thành, nhu cầu sử dụng, đề xuất khái
niệm ngữ nghĩa CVT, sự biến đổi ngữ nghĩa CVT, đề xuất khái niệm sự nhập nhằng
ngữ nghĩa CVT và xử lý nhập nhằng CVT. Từ đó, nghiên cứu sự hình thành CVT
thông qua việc mô hình hóa, xem xét kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp
và xây dựng được các quy tắc thành lập CVT. Để tạo lập môi trường nghiên cứu và
khai thác CVT, tác giả đề xuất xây dựng AMES - hệ thống khai thác CVT, hướng đến
một giải pháp tạo ra môi trường khai thác có tính cộng đồng, nhiều người sử dụng
cùng tham gia.
Triển khai thực nghiệm xây dựng AMES bằng cách xây dựng nguồn tài
nguyên CVT tiếng Việt, triển khai phương pháp thu thập dữ liệu (thủ công, tự động),
thực nghiệm thuật toán tìm kiếm và cập nhật CVT mới trên mạng Internet về CSDL
126
đã xây dựng; triển khai giải pháp xử lý nhập nhằng CVT, trong đó có hướng tiếp cận
xử lý nhập nhằng dựa vào chỉ số tần suất xuất hiện CVT. Xây dựng thuật toán, cài
đặt và thực nghiệm đánh giá tần số, tần suất CVT, đưa ra một số ứng dụng thực tiễn
cho doanh nghiệp. Xuyên suốt quá trình nghiên cứu và thực nghiệm, tác giả đã xây
dựng từng bước các công cụ phần mềm, hình thành nên hệ thống AMES - là môi
trường khai thác CVT, tạo lập hệ thống khai thác CVT ngày càng thuận lợi, tạo cơ
hội trao đổi, chia xẻ kinh nghiệm, kết quả nghiên cứu và áp dụng thực tiễn.
1.2. Các kết quả đạt được
Qua quá trình thực hiện mục tiêu nghiên cứu đã đặt ra, luận án đã có 4 đóng
góp khoa học và thực tiễn ứng dụng, cụ thể với 7 nội dung đánh dấu từ (1) đến (7)
như sau:
1. Phát hiện và xây dựng kho ngữ liệu chữ viết tắt
Xây dựng kho ngữ liệu CVT tiếng Việt (1). Kho ngữ liệu được cập nhật từ nhiều
nguồn dữ liệu khác nhau theo sự biến động và phát triển CVT trong thực tiễn với
phương pháp thủ công/tự động. Dữ liệu được từng bước chuẩn hóa và phân lớp.
Hiện nay đã có khoảng 7.000 CVT tiếng Việt (có cả CVT nội sinh và ngoại
nhập) đã biên tập lưu trữ trong CSDL, từng bước chuyển song ngữ (Việt - Anh)
những CVT thông dụng.
2. Tổng kết các quy tắc hình thành chữ viết tắt, xây dựng hệ thống khai
thác chữ viết tắt
Xây dựng các quy tắc hình thành CVT, từng bước chuẩn hóa quy tắc thành
lập, sử dụng CVT, góp phần phát triển ngôn ngữ tiếng Việt (2): Luận án đã tiếp cận
nghiên cứu sự hình thành CVT thông qua việc mô hình hóa sự hình thành, xem xét
kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp để xây dựng và công bố 9 quy tắc
hình thành CVT. Tổng hợp các yếu tố ảnh hưởng đến hình thành CVT, so sánh với
những quy định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ dấu hiệu nhận biết CVT
trong văn bản.
Xây dựng AMES, hệ thống khai thác và xử lý CVT tiếng Việt (3): Luận án đề
xuất AMES, mô hình hóa hệ thống khai thác CVT. Đó là môi trường khai thác CVT
tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm, được triển khai thực nghiệm để
tạo lập kết nối giữa các đối tượng NSD, chuyên gia nghiên cứu, doanh nghiệp, lập
127
trình viên, nhà cung cấp hạ tầng với nhau, kết quả cụ thể: Sử dụng hạ tầng viễn thông,
kết nối thu thập dữ liệu, hệ thống từ điển, đồng bộ dữ liệu, người sử dụng khai thác,
hàm API kết nối người lập trình, nhà cung cấp dịch vụ viễn thông gửi SMS đến các
mạng di động qua gateway định sẵn, doanh nghiệp sử dụng tư vấn đặt tên SMS
Brandname thông qua website…
3. Xử lý nhập nhằng chữ viết tắt
Xử lý nhập nhằng CVT (4): Luận án xây dựng 27 vị từ điều khiển, nhận diện
CVT trong văn bản; xây dựng 12 hàm xử lý chuỗi; lập 12 luật trong cơ sở luật làm
căn cứ xây dựng máy suy diễn nhận diện CVT và triển khai thử nghiệm trong văn
bản chuyên ngành viễn thông. Đề xuất giải pháp và xây dựng công cụ thống kê tần
số, tần suất CVT tiếng Việt. Chỉ số tần số, tần suất giúp nhà nghiên cứu quan sát, lưu
trữ, thống kê và phân tích các hiện tượng phát triển ngôn ngữ tiếng việt nói chung và
CVT nói riêng qua từng thời điểm. Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho
phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa CVT.
4. Ứng dụng và khai thác chữ viết tắt
Tạo lập từ điển CVT trên máy tính, máy điện thoại di động (5): Sử dụng nguồn
44 và Từ điển CVT trên máy di động45. Hai hệ thống này có sự đồng bộ dữ liệu với
tài nguyên CVT tiếng Việt để xây dựng hai hệ thống từ điển: Website thư viện CVT
nhau đảm bảo thống nhất chung nguồn dữ liệu; tuy nhiên có sự tùy biến cá nhân khi
sử dụng CVT trên máy di động. Thuật toán tìm kiếm CVT nêu trên có sử dụng kỹ
thuật tìm kiếm toàn văn FTS cho phép NSD tra cứu nhanh chóng, nhận biết CVT
nhập nhằng ngữ nghĩa.
Xây dựng các ứng dụng khác như (6): Xây dựng ứng dụng máy tìm kiếm CVT
mới, đề xuất và xây dựng công cụ quảng bá thương hiệu Brandname cho doanh
nghiệp, công cụ tư vấn đặt tên Brandname cho doanh nghiệp (tránh trùng lặp, nhập
nhằng ngữ nghĩa), từ điển CVT trên máy di động … Các ứng dụng này là những thành
phần trong hệ thống AMES. Xây dựng 4 thuật toán và triển khai thực nghiệm có kết
44 http://www.chuviettat.com 45 ABC Acronym Dictionary
quả: Thuật toán SENVA - cập nhật tự động CVT mới từ Internet, thuật toán SAOM-
128
FTS - cài đặt từ điển chữ viết tắt trên di động, CSBCOM - tư vấn thương hiệu, thuật
toán AFVAI - ghi nhận tần số CVT trên Internet.
Xây dựng công cụ thống kê CVT và đề xuất chuẩn hóa sử dụng CVT ở phạm
vi chuyên ngành và quốc gia (7): Luận án xây dựng khái niệm tần số, tần suất CVT
trên Internet, đề xuất giải pháp và xây dựng thực nghiệm công cụ thống kê CVT tiếng
Việt, làm cơ sở đánh giá, lượng hóa chỉ số sử dụng và sự phát triển CVT trong thực
tiễn. Với công cụ này, tác giả đề xuất ý tưởng về một giải pháp tiếp cận thống kê ngôn
ngữ học trên Internet để quan sát và phân tích các hiện tượng phát triển ngôn ngữ nói
chung.
Luận án còn đề xuất chuẩn hóa sử dụng CVT ở phạm vi quốc gia: Cần thiết
phải xây dựng và ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng
CVT có tính gợi nhớ, dễ hiểu, dễ sử dụng, tạo điều kiện trao đổi chia xẻ thông tin,
khai thác CSDL quốc gia được dễ dàng và đồng bộ.
Tóm lại, luận án tìm hiểu nền tảng lý thuyết thực hiện đề tài: Xác lập cơ sở lý
thuyết ngôn ngữ học, XL NNTN và thực tiễn sử dụng CVT; xây dựng CSDL, thuật
toán, triển khai thực nghiệm đạt kết quả, hướng đến khai thác, ứng dụng. Luận án có
ý nghĩa thực tiễn: Xây dựng được kho ngữ liệu CVT, xây dựng nguồn dữ liệu,
phát triển môi trường nghiên cứu XL CVT tiếng Việt, xây dựng các công cụ khai thác
CVT, góp phần nâng cao chất lượng một số dịch vụ của ngành VT, CNTT.
1.3. Hạn chế của luận án
Bên cạnh những đóng góp, luận án còn có những hạn chế nhất định:
Vấn đề xử lý nhập nhằng CVT chỉ giới hạn trong chuyên ngành VT-CNTT,
chưa mở rộng triển khai cho mọi loại hình văn bản; một số thuật toán, một số hàm
chưa thật sự tối ưu do sự phức tạp của vấn đề nghiên cứu; việc xây dựng AMES chưa
hoàn thiện bởi nhu cầu cần nhiều công cụ phần mềm hơn nữa, cần có sự trao đổi, hợp
tác của các chuyên gia, nhiều tác nhân tham gia.
Nghiên cứu CVT liên quan đến chuyên ngành ngôn ngữ học, tuy luận án đã
có cố gắng công bố nội dung nghiên cứu trong hội thảo chuyên ngành [8], nhưng tác
giả nhận thấy cần có sự đầu tư nghiên cứu chuyên môn lý thuyết ngôn ngữ học sâu
129
hơn nữa, đồng thời cần có sự góp ý, phản biện và thẩm định của các chuyên gia ngôn
ngữ học.
Ngoài ra, cần phải nghiên cứu thêm, đặt bài toán CVT trong miền dữ liệu
(domain) để có phương pháp xử lý nhập nhằng CVT hợp lý. Tìm hiểu thêm Word
Embedding (tên gọi chung cho các mô hình ngôn ngữ và các phương pháp học theo
đặc trưng trong XLNNTN) để giải quyết tốt hơn các vấn đề đặt ra.
2. HƯỚNG PHÁT TRIỂN
Luận án tiếp tục phát triển nghiên cứu các vấn đề sau:
1. Nghiên cứu, mở rộng trao đổi hợp tác với các nhà nghiên cứu chuyên ngành
ngôn ngữ học giải quyết: Chuẩn hóa quy tắc hình thành CVT.
2. Tiếp tục nghiên cứu sâu hơn khái niệm hệ sinh thái phần mềm, các đặc
trưng, phương pháp mô hình hóa…; đề xuất giải pháp khuyến khích phát
triển, xây dựng dự án phần mềm hướng đến SECO, hướng đến SaaS
(Software as a Service). Ứng dụng SECO trong triển khai các dự án phần
mềm của đơn vị chuyên ngành VT- CNTT.
3. Phát triển hệ thống khai thác CVT từ AMES đến SECO: Tìm hiểu sâu đặc
trưng, thách thức SECO; hợp tác phát triển AMES thực sự có tính mở, ổn
định, kết thừa; chuẩn hóa việc mô hình hóa hệ sinh thái phần mềm bằng
UML, I*, hoặc Petri nets.
4. Thực nghiêm tối ưu các hàm, các luật nhận diện CVT, hình thành CVT,
máy suy diễn nhận diện CVT. Nghiên cứu công cụ tắt hóa văn bản, cải tiến
thuật toán công cụ tư vấn Brandname hướng đến tư vấn thông minh cho
NSD, tự động hóa công cụ tính toán tần suất CVT, tư vấn thị phần dịch vụ
mở rộng một chuyên ngành khác. Bổ sung thêm đánh giá độ đo khoa học
chuẩn (Recall, Precision).
5. Cần nghiên cứu thử nghiệm cài đặt thêm phần nhận diện CVT (có sử dụng
Machine Learning (Recurrent neural network) để dự đoán trên tập Vector
Embedding ngữ nghĩa, kết hợp với các quy tắc tạo sinh CVT từ kết quả
nghiên cứu chương 2 của luận án.
130
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ
[1] Nguyen Nho Tuy, Phan Huy Khanh. Abbreviations Applicationin 108 VNPT
Service Exploitation in Da Nang City, IJISET (International Journal of
[2] Nguyễn Nho Túy, Phan Huy Khánh. Giải pháp ứng dụng chữ viết tắt chỉ mục
Innovative Science, Engineering & Technology) Vol. 3 Issue 1, January 2016.
cơ sở dữ liệu phục vụ tìm kiếm khai thác dữ liệu, Tạp chí KHCN ĐHĐN, Số
[3] Nguyễn Nho Túy, Phan Huy Khánh, Đặng Huy Hòa. Đánh giá tần số sử dụng
9(106).2016, trang 97-101.
chữ viết tắt tiếng Việt trên Internet, Tạp chí KHCN ĐHĐN, Số 9(106). 2016,
[4] Nguyen Nho Tuy, Phan Huy Khanh. Developing database of Vietnamese
trang 81-86.
abbreviations and some applications, Nature of Computation and
[5] Nguyen Nho Tuy, Phan Huy Khanh. New Automatic Search and Update
Communication, Springer, ICTCC2016, Kien Giang, pp 373-383.
Algorithms of Vietnamese Abbreviations, World of Computer Science and
[6] Nguyễn Nho Túy, Phan Huy Khánh, Lê Văn Anh. Giải pháp tư vấn đặt tên và
Information Technology Journal (WCSIT),Vol. 6, No. 1, 1-7, 2016.
sử dụng tin nhắn thương hiệu cho doanh nghiệp. Kỷ yếu Hội nghị Quốc gia
lần thứ X về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Đà
[7] Nguyễn Nho Túy, Phan Huy Khánh. Xây dựng môi trường khai thác chữ viết
Nẵng 2017, trang 226-232.
tắt tiếng Việt, Kỷ yếu hội thảo khoa học quốc gia CITA2017, Đà Nẵng 2017,
[8] Nguyễn Nho Túy, Phan Huy Khánh, Nguyễn Thị Minh Tuyết. Một góc nhìn
trang 160-167.
về sự hình thành CVT, hướng đến xây dựng cơ sở dữ liệu và khai thác dữ liệu
CVT tiếng Việt. Kỷ yếu Hội thảo Quốc tế “Ngôn ngữ học Việt Nam - những
chặng đường phát triển và hội nhập quốc tế”, ĐHSP Đà Nẵng, 2018, trang
1021-1035.
131
TÀI LIỆU THAM KHẢO
[1] Chim Văn Be (2005). Ngữ pháp tiếng Việt. Giáo trình đào tạo ĐH Cần Thơ.
[2] Đài 108 VNPT Đà Nẵng. Biểu mẫu thống kê, hệ thống CSDL quản lý giám sát nghiệp vụ, sản lượng, chất lượng dịch vụ. Số liệu sử dụng nội bộ, 08/2015.
[3] Đoàn Thị Tâm (2012). Hệ thống từ ngữ chỉ người trong tiếng Ê đê. Luận án tiến sỹ
ngữ văn. Đại học Sư phạm TP Hồ Chí Minh.
[4] Đỗ Hữu Châu (2003). Đại cương ngôn ngữ học - Tập 2. NXB Giáo dục.
[5] Đỗ Quang Chính (1972). Lịch sử chữ Quốc ngữ 1620-1659. NXB Tôn Giáo.
[6] Đào Thanh Tĩnh, Trần Ngọc Anh, Nguyễn Phương Thái (2011). Một phương pháp hiệu quả khử nhập nhằng theo ngữ cảnh trong bài toán tách từ tiếng Việt. Tạp chí Khoa học và Kỹ thuật Số 145 - Học viện KTQS.
[7] Đinh Điền (2005). Giáo trình Xử lý ngôn ngữ tự nhiên. ĐHQG TP HCM.
[8] Đinh Văn Chi (2010). Từ điển chữ viết tắt thường dùng trong y học. NXB Y học.
[9] Hồ Tú Bảo. Đề tài VLSP - Nhánh đề tài Xử lý văn bản (trực tuyến),
http://vlsp.hpda.vn:8080/demo/ (truy cập: 20/12/2017)
và Công
học
[10] Hồ Tú Bảo, Lương Chi Mai (2008). Xử lý tiếng Việt trong CNTT, Viện CNTT. Viện Khoa chỉ: tiến Nhật Bản. Địa nghệ Tiên http://www.ebook.edu.vn/?page=1.39&view=2155 (truy cập: 20/12/2016)
[11] Hoàng Hiệp (2004). Xây dựng công cụ tìm kiếm bằng PHP và MySQL. Tạp chí Bưu
chính Viễn thông và CNTT ( kỳ 2).
[12] Hoàng Thị Mỹ Lệ (2017). Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong
dạy và học tiếng Ê Đê. Luận án Tiến sỹ, Đại học Đà Nẵng.
[13] Hội Ngôn ngữ học Việt Nam (2002). Danh sách chữ viết tắt xếp theo tần số. Hà
Nội 2002.
[14] Lại Nguyên Ân (2012). Phan Khôi và cuộc tranh luận về sử học trên Đông Pháp thời báo 1928. Website: phebinhvanhoc.com.vn/phan-khoi-va-cuoc-tranh-luan-ve- su-hoc-tren-dong-phap-thoi-bao-1928/ (truy cập 18/11/2018)
[15] Lã Minh Hằng (2004). Chữ Nôm trong bối cảnh văn hoá khu vực. Hội nghị Quốc tế
về chữ Nôm, ngày 12-13/11/2004, Hà Nội.
[16] Lê Bá Long (2006). Lý thuyết xác suất thống kê toán. Giáo trình Học viện Bưu
chính Viễn thông Việt Nam.
[17] Lê Đình Tư & Vũ Ngọc Cân (2009). Nhập môn ngôn ngữ học. Giáo trình ĐH Quốc
Gia, Hà Nội.
[18] Lê Nhân Đàm (1997). Từ điển chữ viết tắt thông dụng. NXB Giáo dục.
TIẾNG VIỆT
[19] Lê Nhân Đàm (2010). Từ điển chữ viết tắt quốc tế và Việt Nam. NXB Giáo dục.
[20] Lê Tiến Vương (2002). Nhập môn Cơ Sở Dữ Liệu. NXB Thống kê, Hà Nội
[21] Lê Thị Bích Chi (2012). Nghiên cứu đăc trưng ngôn ngữ của hiện tượng viết tắt Việt
chiếu
tiếng
tiếng
điện
Anh
thư
đối
với
tử
trong Link:http://www.udn.vn/app/webroot/svnckh2012/PDF/TB20-03.pdf
[22] Lương Chi Mai (chủ nhiệm) (2005). Đề tài “Nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”, mã số KC.01.01/06-10. Đề tài nghiên cứu KH&CN - chương trình Trọng điểm cấp Nhà nước, Hà Nội.
[23] Lưu Tuấn Anh
(2012). Download dữ
liệu các
link:
tập Corpus, http://viet.jnlp.org/download-du-lieu-tu-vung-corpus (truy cập: 20/04/2017)
[24] Lưu Tuấn Anh và Yamamoto Kazuhide. Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt: http://viet.jnlp.org/dongdu (truy cập: 20/04/2017)
[25] Ngô Trung Việt (1987). Vấn đề chữ Việt trên máy tính, Tạp chí Khoa học Tính toán
và Điều khiển, số 3.
[26] Nguyễn Bảo (1999). “Viết tắt trên báo hiện nay”. Tạp chí NN&ĐS số 4.
[27] Nguyễn Tài Cẩn (1981). Ngữ pháp tiếng việt. NXB ĐH và THCN, Hà Nội, năm 1981.
[28] Nguyễn Thiện Giáp (1998). Dẫn luận ngôn ngữ học. NXB Giáo dục, Hà Nội.
[29] Nguyễn Quang Hồng (2003). “Nói tắt và viết tắt từ ngữ trong tiếng Việt”, Tạp chí
NN&ĐS số 1+2.
[30] Nguyễn Thị Thu Thuỷ , Nguyễn Hữu Chỉnh (2005). Tổng quan về ngôn ngữ và
ngôn ngữ học. Giáo trình đào tạo ĐH Cần Thơ.
[31] Nguyễn Thị Thu Thủy (2005). Từ vựng tiếng Việt. Giáo trình ĐH Cần Thơ.
[32] Nguyễn Thanh Việt, Đỗ Kim Bằng (1999). Thuật ngữ viết tắt Viễn thông. NXB Bưu
điện.
[33] Nguyễn Thị Trúc. Dẫn luận ngôn ngữ (2000). ĐHSP Đà Nẵng.
[34] Nguyễn Như Ý (chủ biên) (1999). Đại từ điển tiếng Việt. NXB VH-TT.
[35] Nguyễn Như Ý (1994). Từ điển chữ viết tắt. NXB VH-TT.
[36] Nguyễn Như Ý (1994). Từ điển chữ viết tắt các tổ chức kinh tế xã hội Việt Nam.
NXB Thế giới.
[37] Nguyễn Quang Hồng (2003). “Nói tắt và viết tắt từ ngữ trong tiếng Việt”, Tạp chí
NN&ĐS số 1+2.
[38] Nguyễn Văn Lợi (2018). Sự hình thành cách ghi thanh điệu chữ Quốc ngữ. Website http://vienngonnguhoc.gov.vn/bai-viet/su-hinh-thanh-cach-ghi-thanh-dieu-chu- quoc-ngu_701.aspx (truy cập 11/08/2018).
[39] Ninh Khánh Duy, Nguyễn Văn Quý (2017). Biểu diễn ngữ cảnh trong khai triển chữ viết tắt dùng tiếp cận học máy. Tạp chí Khoa học Công nghệ Đại học Đà Nẵng số 5(114)2017.
132
[40] Ninh Khánh Chi, Ninh Khánh Duy (2017). Chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc. Kỷ yếu hội thảo khoa học quốc gia CITA2017, Đà Nẵng 2017.
[41] Phan Huy Khánh (2005). Giáo trình Hệ chuyên gia. Trường Đại học Bách Khoa -
Đại học Đà Nẵng.
[42] Phan Huy Khánh, Phạm Thị Thùy Linh (2013). Xử lý nhập nhằng tiếng Việt và ứng
dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập - Luận văn.
[43] Phan Huy Khánh, Lê Thanh Duy (2011). Xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt. Tạp chí Thông tin KH&CN - Trường CĐCN, ĐH Đà Nẵng. Số: 1.
[44] Phan Huy Khánh (2003). Xây dựng cơ sở dữ liệu từ vựng đa ngữ sử dụng dạng
thức văn bản RTF Winword. Kỷ yếu Hội thảo Khoa học Quốc gia ICT. Hà Nội.
[45] Phan Huy Khánh (2004). Sử dụng công cụ lập trình macro VBA xây dựng các tiện ích xử lý văn bản. Kỷ yếu Hội nghị Khoa học Lần thứ 3, Đại học Đà Nẵng 2004.
[46] Trần Thanh Ái (2013). Ngôn ngữ học xã hội: Những quan niệm và khuynh hương, Tạp chí Khoa học Trường Đại học Cần Thơ, Phần C: Khoa học Xã hội, Nhân văn và Giáo dục: 25 (2013): 79-95
[47] Trần Tư Bình (2013). Viết tắt chữ việt trong ngôn ngữ @. Website:
http://chuvietnhanh.sourceforge.net/ (truy cập 18/8/2017)
[48] Trần Tư Bình, Ngô Đình Học, Nguyễn Vĩnh Tráng (2011). Chữ Việt nhanh. NXB
Trẻ Hà Nội.
[49] Võ Xuân Quế (1998). Nghiên cứu chữ viết tắt “Trung ương”. Tạp chí NN&ĐS, số
4.
[50] Joseph
thời @”. Website:
(2012).
Ruelle
Việt
“Tiếng http://chuvietnhanh.sourceforge.net/TiengVietThoi@.htm (truy cập 20/8/2018)
133
TIẾNG ANH
[51] Brill E. (1995). Transformation-based error-driven learning and natural language processing: A case study in part of speech tagging. Computational linguistics, No 21 (vol 4), pp. 543-565.
[52] Daniel Jurafsky & James H. Martin (2001). Speech and Language Processing,
Prentice Hall.
[53] Daelemans et al (1996). A memory-based part of speech tagger generator. Fourth
Workshop on Very Large Corpora, ACL SIGDAT, pp. 14-27.
[54] David G. Messerschmitt and Clemens Szyperski (2003). Software Ecosystem: Understanding an Indispensable Technology and Industry. Cambridge, MA, USA: MIT Press.
[55] Dien Dinh and Kiem Hoang. (2003). POS-tagger for English-Vietnamese bilingual corpus, proceeding of HLT-NAACL (North American Association for Computational Linguistics)-03 Workshop “Building and Using Parallel Texts”, Canada, pp. 88-95.
[56] Gobinda G. Chowdhury (2003). Natural language processing, Annual Review of
Information Science and Technology. 37. pp. 51-89.
[57] HaCohen-Kerner, Ariel Kass and Ariel Peretz (2008). Combined One Sense Disambiguation of Abbreviations. ACL 2008, Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics, Columbus, Ohio, USA, Short Papers.
[58] Joshua J.V., Alao D.O., Okolie S.O., Awodele O. (2013). Software Ecosystem: Features, Benefits and Challenges. (IJACSA) International Journal of Advanced Computer Science and Applications, Vol. 4, No. 8, pp: 242-247.
[59] Khanh Phan Huy (1998). Edition structurale des documents multilingues et application au vietnamien dans Grif. Rapport de recherche No 186, Université de Lille 1 (186), pp 1-15.
[60] Khanh Phan Huy (2002). A Survey on Vietnamese Language Processing and Multilingual Processing, Proceeding of NECTEC Conference, Phuket, ThaiLan, pp. 13-14.
[61] Manuel Zahariev D. (2004). Acronyms. Simon Fraser University, USA.
[62] Philipp Koehn, Hieu Hoang, et al. (2007). Moses: Open source toolkit for statistical machine translation, Proceeding of the 45th annual meeting of the Association for Computational Linguistics-ACL on interactive poster and demonstration sessions. pp. 177-180.
[63] Stuart Yeates, David Bainbridge (2000). Using compression to identify acronyms
in text. University of Waikato Hamilton, New Zealand.
[64] Sidorov N.A., Grineko O.O. (2013). Software Ecosysytem Modeling. National
Aviation University.
[65] Slinger Jansen, Eko Handoyo, Carina Alves (2015). Scientists’ Needs in Modelling Software Ecosysytems. Proceedings of the International Workshop on Software Ecosystems Utrecht University, the Netherlands.
[66] Trieu Thi Ly Ly, Nguyen Van Quy, Ninh Khanh Duy, Huynh Huu Hung, Dang Duy Thang (2017). Representing context in abbreviation expansion using machine learning approach. FAIR - Fundamental and Applied IT Research (FAIR’10). pp. 816-822.
[67] Wilks Y., Stevenson M. (1997). Sense Tagging: Semantic Tagging with a Lexicon. In Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C.
[68] Xu, Hua, Peter D. Stetson, and Corol Friedman (2012). Combining Corpus-derived Sense Profiles with Estimated Frequency Information to Disambiguate Clinical Abbreviations. AMIA Annual Symposium proceedings. Vol. 2011. American Medical Information Association.
[69] Xu, Sun and Houfeng Wang (2006). Chinese Abbreviation Identification Using International
Abbreviation-Template Features and Context
Information.
134
Conference on Computer Processing of Oriental Languages, Springer, Berline, Heidelberg, 2006.
[70] Yarovsky D. (1992). Word-Sense Disambiguation Using Statistical Models of Roget`s Categories Trained on Large Corpora. In Proceedings, COLING-92.
[71] Yonghui Wu, et al (2012). A comparative study of current clinical natural language processing systems on handling abbreviations in discharge summaries. AMIA Annual Symposium proceedings. Vol. 2012. American Medical Information Association.
[72] Yonghui Wu, et al (2015). Clinical Abbreviation Disambiguation Using Neural
Word Embeddings. Proceedings of BioNLP 15.2015.
[73] Yonghui Wu, et al (2011). Detecting Abbreviations in Discharge Summaries using Machine Learning Methods. AMIA Annual Symposium proceedings. Vol. 2012. American Medical Information Association.
135
TRANG WEB TIẾNG VIỆT
[74] http://www.chuviettat.com (Website thư viện CVT của tác giả xây dựng)
[75] http://www.chuviet.net/ Truy cập thông tin “Diễn đàn ngôn ngữ Việt thời @”.
[76] http://chuvietnhanh.sourceforge.net/, Tải tập tin sách Chữ Việt Nhanh từ cập
(truy
http://chuvietnhanh.sourceforge.net/Sach-ChuVietNhanh.pdf 20/9/2017).
[77] http://www.web2vietnam.com/2011/02/14/the-age-of-ecosystems/Thời Của Các
“Hệ Sinh Thái” (truy cập: 15/04/2017)
[78] http://postcode.vn/default.aspx?page=newsdetail&newsid=9
(truy
cập:
08/12/2018)
[79] https://vanhay.edu.vn/nghi-luan-xa-hoi-suy-nghi-ve-cau-chuyen-nguoi-cap-cuu/
(truy cập: 10/03/2018, 4/11/2018)
[80] https://vdict.com/ (tra cứu từ điển, ngữ nghĩa CVT, truy cập thường xuyên)
[81] https://dict.laban.vn (tra cứu từ điển, ngữ nghĩa CVT, truy cập thường xuyên)
[82] http:// www.tudienlong.com (sử dụng tra cứu các CVT tiếng lóng tiếng Việt, tìm
kiếm chữ viết tắt mới, truy cập thường xuyên)
[83] https://vi.wikipedia.org/wiki/ (sử dụng tra cứu các khái niệm hệ sinh thái phần
mềm, XLNNTN… truy cập thường xuyên)
[84] http://aita.gov.vn/tin-tuc/1615/ (thông tin số liệu thống kê, truy cập: 15/06/2016)
[85] http://viet.jnlp.org/cac-cong-cu-xu-ly/trich-loc-tieng-viet-tu-html
(truy
cập:
10/06/2016 về các công cụ trích lọc tiếng Việt)
[86] http://www.vietlex.com/help/about_corpus.htm. Giới thiệu Kho ngữ liệu tiếng
Việt-Vietnamese Corpus. VietLex (truy cập: 25/04/2017)
[87] http://dinte.gov.vn/index.php/tin-tuc/47-tin-cong-nghe-thong-tin/1081-hoi-thao-
ngay-internet-2016-internet-day-2016. Cục Công nghệ Thông tin (2016), Hội thảo Ngày Internet 2016, (trực tuyến) (truy cập: 5/03/2017)
[88] https://kipalog.com/posts/Full-Text-Search--Tu-Khai-Niem-den-Thuc-Tien--
Phan-1 (truy cập 05/11/2016).
[89] https://vov.vn/xa-hoi/giao-duc/vien-truong-vien-ngon-ngu-hoc-noi-ve-cai-tien-
chu-viet-tieng-viet-711720.vov (truy cập 23/09/2018)
[90] https://vi.wikipedia.org/wiki/Xử_lý_ngôn_ngữ_tự_nhiên (truy cập 15/08/2018)
[91] https://vi.wikipedia.org/wiki/Chữ_viết (truy cập 23/09/2018)
[92] https://vtc.vn/de-xuat-cai-tien-chu-viet-tieng-viet-gay-tranh-cai-5-ly-do-phan-bac-
d365592.html (truy cập 23/09/2018).
[93] https://danang.vnpt.vn/products/index/sms-brandname.html (truy cập 11/08/2018).
136
TRANG WEB TIẾNG ANH
[94] http://www.acronymfinder.com (tra cứu các CVT tiếng Anh và nhiều ngôn ngữ
khác, truy cập thường xuyên).
[95] http://www.abbreviations.com (tra cứu các CVT tiếng Anh và nhiều ngôn ngữ
khác, truy cập thường xuyên).
[96] https://en.wikipedia.org/wiki/Software_ecosystem (truy cập 5/03/2017).
I
PHỤ LỤC
Phụ lục 1. Câu chuyện “Người ăn cắp cừu” [79]
Tại một đất nước vào thời kỳ lập quốc, ở một xứ kia, có hai anh em nhà nọ bị
bắt quả tang đang ăn cắp cừu. Dân làng đã họp bàn để trừng phạt. Mọi người đã
đồng ý hình phạt khắc trên trán của hai tội nhân hai chữ viết tắt ST (Sheep Theft), có
nghĩa là "Kẻ ăn cắp cừu".
Người anh không chịu nổi sự sỉ nhục đã trốn sang một vùng đất khác để chôn
chặt dĩ vãng. Nhưng anh không thể xóa nhòa được hai chữ viết tắt trên trán của mình.
Bất cứ một người lạ mặt nào cũng đều tra hỏi anh về ý nghĩa của hai chữ ấy. Không
chịu nổi sự nhục nhã, anh lại rời bỏ nơi cư ngụ để tiếp tục lang thang. Cuối cùng
mòn mỏi trong cay đắng, anh đã bỏ mình nơi đất khách quê người.
Còn người em tự nhủ với mình rằng: "Mình không thể bỏ trốn chỉ vì ăn cắp
mấy con cừu. Mình phải ở lại đây và phải tự mình tạo lại niềm tin của những người
xung quanh và nơi chính bản thân mình". Với quyết tâm đó, anh đã ở lại ngôi làng
của mình. Vài năm sau, anh đã xây dựng cho mình một sự nghiệp cũng như danh
thơm của một người thanh liêm chính trực.
Nhưng cho dù năm tháng có qua đi, hai chữ ST vẫn còn in đậm trên vầng trán
của anh... Ngày kia, có một người lạ mặt hỏi một cụ già trong làng về ý nghĩa của
hai chữ viết tắt ấy. Cụ già suy nghĩ một hồi rồi mới trả lời: "Tôi không nhớ rõ lai lịch
của hai chữ viết tắt ấy, nhưng cứ nhìn vào cuộc sống của người đó, tôi nghĩ rằng hai
46 Theo English Study,[34], viết tắt là St. thường đặt trước tên người hay tên thiên thần, ví dụ như St. Paul, St.Vincent
chữ viết ấy có nghĩa là Thánh thiện (Saint)46.
II
Phụ lục 2. Các bảng dữ liệu
Các bảng sau đây mô tả các thuộc tính dữ liệu, sử dụng để thiết kế bảng dữ
liệu, xây dựng nguồn tài nguyên CVT tiếng Việt đã được trình bày trong chương 3.
Bảng 1. Các thuộc tính dữ liệu chữ viết tắt CVTs
Thuộc tính
Giải thích
stt
Chỉ số mục từ viết tắt
cvt
Mục từ viết tắt
PhienAm
Phiên âm dùng để phát âm
MaLop
Phân lớp sử dụng
MaCN
Người biên tập, cập nhật
MaNN
Ngôn ngữ tiếng Việt/ tiếng Anh/...
NghiaViet
Nghĩa tiếng Việt của chữ viết tắt
NghiaAnh
Nghĩa tiếng Anh của chữ viết tắt
Nghia_n
Nghĩa ngôn ngữ thứ n
Bảng 2. Các thuộc tính phân lớp dữ liệu chữ viết tắt PhanLopCVT
Thuộc tính
Giải thích
MaLop
Phân lớp sử dụng
TenLop
Tên lớp theo lĩnh vực sử dụng
Bảng 3. Các thuộc tính liên quan đến nguồn gốc cập nhật CVT
Thuộc tính
Giải thích
STT
Chỉ số người cập nhật
MaCN
Mã hoá người biên tập cập nhật dữ liệu
HoTen
Họ và tên người cập nhật dữ liệu
DiaChi
Địa chỉ người cập nhật dữ liệu
DienThoai
Điện thoại
NguonURL
Website cá nhân
NgayCN
Ngày cập nhật
III
Phụ lục 3. Một số thuật toán, mã lệnh sử dụng trong các chương trình
1) Thuật toán tìm kiếm chữ viết tắt trong tập tin WORD
Thuật toán tìm kiếm CVT trong tập tin văn bản, thực hiện trích lọc tự động
các cụm CVT và lưu vào CSDL (sử dụng cập nhật dữ liệu CVT thủ công).
Input: Tập tin Word (*.doc) bất kỳ Output: Dữ liệu CVT nhận được ở tập tin kq.doc Begin
- Chọn cửa sổ văn bản nguồn - Tìm dấu ngoặc đóng: “)” - Chọn khối văn bản đến đầu dòng. - Copy khối văn bản vào bộ nhớ đệm. - Chọn của sổ văn bản kq.doc - Dán kết quả thêm vào cuối văn bản kq.doc - Tăng biến i=i+1
Open tập tin nguồn *.doc; về đầu văn bản *.DOC đang mở. Open tập tin để lưu kết quả: kq.doc - Tách các câu, các cụm từ phân cách dấu chấm, dấu phẩy trong tập tin văn bản nguồn thành các phân đoạn (paragraph); - Tách các câu ngoặc đóng “)” thành các “)^P” dấu ngoặc và phân đoạn. - Chọn khối văn bản các đoạn này - Đếm tổng số các CVT nhiều nhất có thể có: TongCVT - Vòng lặp: i =1 While i <= TongCVT Do EndWhile Chọn của sổ văn bản kq.doc Chuyển đổi dữ liệu thành bảng có hai cột Ghi lại tập tin kq.doc
Sau khi thực hiện trích lọc tự động các cụm từ năm trong cặp dấu (...), có thể sử
dụng thêm Macro chuyển đổi dữ liệu về tập tin *.TXT, để tiếp tục biên tập lại dữ liệu.
Thuật toán đề xuất mở tập tin nguồn *.doc bất kỳ, sau đó mở tập tin kq.doc để lưu
giữ kết quả trích lọc thông tin, đảm bảo mục đích trực quan, dễ sử dụng đối với người
thu thập dữ liệu
End: Nhận xét:
IV
Trong nội dung sử dụng chữ viết tắt trong CSDL chuyên ngành (mục 3.3.1.), ứng
dụng xây dựng CSDL CVT cho Đài 108 đã sử dụng hàm chuyển đổi mọi CVT có dấu
tiếng Việt sang CVT không dấu, viết hoa để giúp các điện thoại viên giảm thiểu thao tác
gõ bàn phím, tăng hiệu năng sử dụng phần mềm tra cứu danh bạ. Sau đây là mã lệnh đầy
đủ của hàm đã xây dựng:
2) Hàm chuyển đổi chữ viết tắt
Funtion Chuyen_doi_CVT
Option Explicit Const sViet As String = "µ¶·¸¹¨»¼½¾Æ©ÇÈÉÊËÌÎÏÐѪÒÓÔÕÖרÜÝÞßáâãä«åæçèé¬êëìíîïñòóô- õö÷øùúûüýþ¡¢£¤¥¦®§" Const sKhongdau As String = "aaaaaaaaaaaaaaaaaeeeeeeeeeeeiiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAEO OUdD" //Khai báo chuỗi chuyển đổi chữ viết không có dấu Function chuviettat(strInput As String) As String
Dim i As Integer Dim sData As String Dim sOuput As String chuviettat = "" sData = Trim(Khongdau(strInput)) If sData = "" Then Exit Function sOuput = Mid(sData, 1, 1) For i = 2 To Len(sData)
If Mid(sData,i,1) <> " " And Mid(sData,i-1,1) = " " Then sOuput = sOuput + Mid(sData,i,1)
Next i chuviettat = UCase(sOuput)
End Function //Hàm chuyển đổi chữ viết không có dấu Function Khongdau(sCodau As String) As String
Dim L As Integer Dim i As Integer,j As Integer, s As String L = Len(sCodau) For i = 1 To L
j = InStr(1,sViet,Mid(sCodau,i, 1)) If j > 0 Then s = s & Mid(sKhongdau,j,1) Else s = s & Mid(sCodau,i,1) End If
Next i Khongdau = s
End Function
V
3) Thuật toán, mã lệnh dùng trong từ điển CVT trên máy di động
Phụ lục này trình bày thêm một số thuật toán, đoạn mã lệnh và danh mục các
tập tin đã sử dụng lập trình từ điển CVT trên máy di động (mục 5.3.4.) bằng Java trong Android Studio:
a) Mã lệnh khai báo lớp màn hình chính chương trình AcroDictActivity.java
* Lớp màn hình của chương trình public class AcroDictActivity extends AppCompatActivity
implements NavigationView.OnNavigationItemSelectedListener,
SearchView.OnQueryTextListener, View.OnClickListener {
private final String TAG = "AcroDictActivity"; private SearchView searchView; private RecyclerView rvListSearchResult;
private List
private List
private ResultDetailAdapter resulDetailtAdapter;
private DbAdapter dbAdapter;
private RecyclerView rvListResultDetail; private int mCurrentPos = -1;
private OnClickCallback mOnClickCallback;
private TextView txtNoDataFound;
private FloatingActionButton fabThemTuMoi; private FloatingActionButton fabTimKiem;
private LineChart lcToDay;
private OnChartValueSelectedListener mOnLineChartValueSelected;
private PieChart pcTopTen; private LinearLayout llChartting;
private FloatingActionButton fabHomeScreen;
private FloatingActionsMenu fabAction;
private boolean isShowFromQuickWindow; private int fabMode;
private FloatingActionButton fabEmptyTrash;
private CatLoadingView mCatLoading;
private SharedPreferences preferences;
VI
b) Mã lệnh truy vấn trong CSDL tất cả các CVT chứa X:
// (SELECT * FROM T1 WHERE T1.CVT MATCH X)
String sqlQuery = "" + "SELECT [T].[" + COL_CVT_FTS_ID_CVT + "], \n" + " [C].[" + COL_CVTS_CVT + "], \n" + " CASE [C].[" + COL_CVTS_ID_LANG + "] WHEN 0 THEN [C].[" + COL_CVTS_NGHIAVIET + "] WHEN 1 THEN [C].[" + COL_CVTS_NGHIAANH + "] ELSE [C].[" + COL_CVTS_NGHIAVIET + "] END NGHIA_NGAN, \n" + " [C].[" + COL_CVTS_LUOTXEM + "], \n" + " [C].[" + COL_CVTS_IS_FAVORITE + "] \n" + "FROM [" + TABLE_CVT_FTS + "] [T]\n" + " INNER JOIN [" + TABLE_CVTS + "] [C] ON [C].[" + COL_CVTS_ID_CVT + "] = [T].[" + COL_CVT_FTS_ID_CVT + "]\n" + "WHERE [T].[CVT] MATCH " + DatabaseUtils.sqlEscapeString(StringUtil.convert2SqliteSearchFormat(value)) + " AND [C].[" + COL_CVTS_ENABLED + "] = 1" + " ORDER BY LENGTH([C].[" + COL_CVTS_CVT + "])" + " LIMIT " + QUERY_LIMIT;
c) Tăng tần số và tần suất truy vấn của CVT X lưu vào dữ liệu thống kê trên
// DbAdapter.getResultDetailById()
CSDL bảng T1, mã lệnh:
if (idList.size() >0) {
//update luotxem – Cập nhật lượt xem, tra cứu CVT
String listOfId = TextUtils.join(",", idList);
String sqlUpdate = "" +
"UPDATE\n" +
" [" + TABLE_CVTS + "]\n" + "SET\n" + " [" + COL_CVTS_LUOTXEM + "] =
[" + COL_CVTS_LUOTXEM + "] + 1\n" + "WHERE\n" +
" [" + COL_CVTS_ID_CVT + "] IN (" + listOfId + ")";
db.execSQL(sqlUpdate);
//update thongke – Cập nhật thống kê người sử dụng di động
String currentDate = sdfIn.format(new Date()); sqlUpdate = "" + "UPDATE\n" + " [" + TABLE_THONGKE + "]\n" + "SET\n" +
VII
" [" + COL_THONGKE_TAN_SO + "] = [" + COL_THONGKE_TAN_SO + "] + 1\n" + "WHERE\n" + " [" + COL_THONGKE_NGAY_THANG + "] = " + DatabaseUtils.sqlEscapeString(currentDate) + "\n" + "AND [" + COL_THONGKE_ID_CVT + "] IN (SELECT [F1].[" + COL_CVT_FTS_ID_CVT + "]\n" + "FROM [" + TABLE_CVT_FTS + "] [F1]\n" + "WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" + COL_CVT_FTS_CVT + "] || '\"'\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" + " AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH ([F].[" + COL_CVT_FTS_CVT + "])\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + "))"; db.execSQL(sqlUpdate); //insert new thongke – Chèn bảng thống kê mới cho người sử dụng di động sqlUpdate = "" + "INSERT OR IGNORE INTO [" + TABLE_THONGKE + "]\n" + " ([" + COL_THONGKE_NGAY_THANG + "], \n" + " [" + COL_THONGKE_ID_CVT + "], \n" + " [" + COL_THONGKE_TAN_SO + "])\n" + " SELECT " + DatabaseUtils.sqlEscapeString(currentDate) + ", \n" + " [F1].[" + COL_CVT_FTS_ID_CVT + "], \n" + " 1\n" + " FROM [" + TABLE_CVT_FTS + "] [F1]\n" + " WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" + COL_CVT_FTS_CVT + "] || '\"'\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" + " AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH ([F].[" + COL_CVT_FTS_CVT + "])\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")"; db.execSQL(sqlUpdate);
VIII
Phụ lục 4. Bảng mã danh mục ứng dụng và đề xuất.
Trong mục 3.3.2. về ứng dụng chữ viết tắt trong xây dựng CSDL danh mục, tác giả
đã xây dựng bảng mã danh mục các phần tử mạng điều hành sản xuất kinh doanh, đề
xuất ban hành thống nhất, đã đưa vào áp dụng thực tiễn, quy định các lập trình viên đơn
vị tuân thủ bảng mã danh mục. Ví dụ như:
Bảng 1. Danh mục CVT phần tử mạng điều hành sản xuất kinh doanh
1
Mã tỉnh/thành ABC
Theo quy định chung thống nhất trong Tập đoàn: DNG: Đà Nẵng, QNM: Quảng Nam
4
Mã thanh toán DNG000000001
2
CNSDxxx
xxx: 001 => 999
Mã tổng đài CSND
Tên CSND
Cáp đồng: DAI001 => DAI999
3
DAI +
(=Mã tủ cáp
Cáp quang: DAI001DF => DAI999DF
gốc t ại đài)
5
Mã tủ cáp
TCxxxAn hoặc
H001An tuyến> 6 Mã outdoor CSNDxxxDFn CSNDxxxn Cáp gốc: Mã sợi cáp 7 đồng CSNDxxxA1-n Cáp ngọn: cáp đi vào tủ> Cáp gốc: 001DFn/m Cáp gốc: 8 Mã sợi cáp
quang Cáp ngọn: 001DFn- Cáp ngọn: < -> + m STT Tên mã Chữ viết tắt Ghi chú IX An Giang 1 33 Khánh Hoà KHA BRU 2 34 Kiên Giang KGG Bà Rịa Vũng
Tàu Phú Thọ
Phú Yên Bạc Liêu
BLU
Bắc Kạn
BKN
Bắc Giang
BGG
Bắc Ninh
BNH
BTE
Bến Tre
Bình Dương BDG
BDH
Bình Định
BPC
Bình Phước
BTN
Bình Thuận
CMU
Cà Mau
CBG
Cao Bằng
Cần Thơ
CTO
TP. Đà Nẵng DNG
DLK
ĐắkLắk
DNG
Đăc Nông
DBN
Điện Biên
DNI
Đồng Nai
DTP
Đồng Tháp
GLI
Gia Lai
HGG
Hà Giang
HNM
Hà Nam
HNI
Hà Nội
HTY
Hà Tây 3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
21
23
24
25 KTM
LCU
LSN
LCI
LDG
LAN
NDH
NAN
NBH
NTN
PTO
PYN
QBH
QNM
QNI
QNH
QTI
STG
SLA
TNH
TBH
TNN
THA Hà Tĩnh HTH 26 58 HUE 35 Kon Tum
Lai Châu
36
Lạng Sơn
37
Lào Cai
38
Lâm Đồng
39
40
Long An
41 Nam Định
42 Nghệ An
43 Ninh Bình
44 Ninh Thuận
45
46
47 Quảng Bình
48 Quảng Nam
49 Quảng Ngãi
50 Quảng Ninh
51 Quảng Trị
Sóc Trăng
52
Sơn La
53
Tây Ninh
54
Thái Bình
55
Thái Nguyên
56
Thanh Hoá
57
Thừa Thiên
Huế
Tiền Giang
Trà Vinh
Tuyên Quang Hải Dương
Hải Phòng
Hậu Giang
Hoà Bình
Hưng Yên HDG
HPG
HGG
HBH
HYN 27
28
29
30
31 59
60
61
62 Vĩnh Long
63 Vĩnh Phúc TGG
TVH
TQG
VLG
VPC HCM 32 64 Yên Bái YBI TP. Hồ Chí
Minh X Thư viễn biểu mẫu văn bản sử dụng thông kê các loại văn bản để khảo sát, nhận diện tình huống sử dụng CVT trong thực tế tại đơn vị (mục 3.3.4.). Khảo sát này giúp đề
xuất giải pháp xử lý nhập nhằng CVT trong một lĩnh vực VT-CNTT tại đơn vị. 1) Thống kê mẫu văn bản của Viễn thông Đà Nẵng Hình 1. Thư viện biểu mẫu văn bản . Giới thiệu kết quả xây dựng website thư viện CVT (minh họa thêm cho mục 5.3.3.), hiện đã được đưa vào sử dụng như hình 1, hình 2 và hình 3 dưới đây: Hình 2. Trang quản trị và cấu hình thư viện CVT 2) Hình ảnh giao diện kết quả xây dựng Website XI Trang chủ thư viện CVT được thiết kế với nhiều chức năng, trong đó có các Hình 3. Trang chủ thư viện chữ viết tắt. liên kết sắp xếp theo vần ABC giúp tra cứu được nhanh chóng. Chức năng tra cứu CVT được thiết kế cho phép tra cứu chính xác hoặc gần đúng. Quá trình tìm kiếm, sử dụng cũng được hệ thống website lưu trữ để có những số liệu thống kê như CVT được xem nhiều nhất… Hình 4. Kết quả tra cứu chữ viết tắt. XII 3) Công cụ lập trình Android Studio và Genymotion giả lập máy di động Hình ảnh công cụ giả lập để triển khai thực nghiệm lập trình xây dựng từ điển Hình 5. Sử dụng môi trường phát triển tích hợp Android Studio lập trình Hình 6. Công cụ Genymotion giả lập máy di động tra CVT trên máy di động (làm rõ thêm mục 4.3): Hình 7. Danh mục các tệp Java đã thiết kế XIII Hình 8. Cấu trúc Mã bưu chính 4) Cấu trúc Bộ danh mục mã bưu chính quốc gia Việt Nam XIV 5) Ứng dụng chạy trên máy di động giả lập trên máy tính Biểu tượng:
ABC Acronym
Dictionary Biên dịch bởi Android Studio, chương trình có biểu tượng là ABC Acronym
Dictionary (hình 8). Hình ảnh ứng dụng giả lập trên máy tính (bởi Genymotion),
chương trình thường trú trong bộ nhớ. Menu dọc là các chức năng: Thống kê, cài đặt,
cập nhật mới… như hình 8. Nhấn màn hình cảm ứng trên cụm CVT để chọn khối,
sau đó chọn copy vào vùng nhớ đệm, chương trình sẽ copy dữ liệu CVT trong vùng
nhớ đệm, tra cứu và hiển thị dữ liệu kết quả tra cứu hình 9. Hình 8. Giao diện chức năng và kết quả tra cứu CVT Hình 9. Giao diện chức năng tra cứu và thống kê sử dụng CVT XV 6) Ứng dụng thực tế trên máy di động Samsung Not 3 Sau khi xây dựng chương trình trên các phần mềm giả lập, thực hiện lệnh Build, ứng dụng có tên là: "ABC Acronym Dictionary". Sao chép tập tin lên máy di động và cài đặt trong biểu tượng ABC Acronym Dictionary. Các hình ảnh ứng dụng thực Hình 10. Giao diện chức năng và thống kê sử dụng CVT trên máy di động Hình 11. Giao diện biểu đồ thống kê sử dụng và tra cứu CVT trên máy di động tế chạy trên trên máy di động Samsung Not 3 như các hình sau đây: Về chức năng tra cứu chạy thực tế trên máy di động: XVI Tương tự như trên, chương trình đã chạy thường trú, Khi người dùng cần tra cứu trực tiếp CVT trên file văn bản, email, tin nhắn, website…, nhấn màn hình cảm ứng máy di động trên cụm CVT để chọn khối, sau đó chọn copy vào vùng nhớ đệm, chương trình sẽ copy dữ liệu CVT trong vùng nhớ đệm. Tiếp theo NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm kiếm CVT (ABC Acronym Dictionary), hiển thị dữ liệu kết quả tra cứu: Khung cửa sổ phía trên: Kết quả tra cứu CVT. Khung cửa sổ phía dưới: Vẫn giữ nội dung văn bản NSD đang đọc. Hình 12. Giao diện tra cứu trực tiếp CVT trên máy di động XVII 7) Ứng dụng SMS Brandname: Ứng dụng SMS Brandname được đưa vào khai thác, trong đó có các chức nằn: Thiết lập cấu hình, Tư vận trực tiếp/Tự động Brandname cho khách hàng. Giao diện Hình 13. Giao diện chức năng và cấu hình ứng dụng SMS Brandname Hình 14. Chức năng tư vấn tự động Brandname chính như hình 13 dưới đây. XVIII 8) Cấu trúc XML cho CSDL chữ viết tắt ...... Hình 15. Cấu trúc XML cho CSDL chữ viết tắt. Hình 15 dưới đây là ví dụ về cách tổ chức CSDL với mục từ viết tắt “VNPT”: Hình 16. CSDL 108 VNPT Đà Nẵng 9) CSDL 108 VNPT Đà Nẵng Hình 17. Minh họa CSDL đã xây dựng XIX 10) Thực hiện chương trình cập nhật tần số sử dụng CVT Chương trình chính chạy trong khung cửa sổ Main (hình 18), chọn nút lệnh Import CSV file, chọn file đầu vào, chọn lựa trình duyệt, sau đó kích chọn nút Run để thực hiện thu thập dữ liệu tần suất sử dụng CVT. Hình 18. Thực hiện chương trình cập nhật tần số sử dụng CVT XX 11) Khảo sát tương quan tần số sử dụng CVT Tần suất xuất hiện 8 cụm CVT (là thương hiệu thức ăn nhanh) ngày 02/04/2016 Bảng 1. Tương quan tần suất xuất hiện CVT và bàn luận trên mạng xã hội so sánh với thị phần thương hiệu bàn luận trên mạng xã hội (bảng 1 và hình 19): 146.000
125.000
57.900
32.800
29.700
18.800
7.420
2.760 1 KFC
2 Lotteria
3 McDonald's
4 Burger King
5 Popeyes
6 Jollibee
7 Texas Chicken
8 Carl's Jr. 34,7
29,7
13,8
7,8
7,1
4,5
1,8
0,7 47,0
26,0
10,0
5,0
5,6
4,4
1,0
1,0 420.380 100 100 Hình 19. Biểu đồ thương hiệu thực ăn nhanh thảo luận trên Internet
(theo nguồn số liệu trên Internet)Bảng 2. Danh mục mã vùng điện thoại
STT
Tỉnh/TP
Mã số
STT
Tỉnh/TP
Mã số
Tên chữ
viết tắt
Tên
chữ
viết tắt
AGG
76
58
64
77
781
281
240
241
75
650
56
651
62
780
26
71
511
50
50
23
61
67
59
19
351
4
34
60
23
25
20
63
72
350
38
30
68
210
57
52
510
55
33
53
79
22
66
36
280
37
39
54
320
31
71
18
321
73
74
27
70
211
8
29
Phụ lục 5. Hình ảnh, màn hình giao diện và chức năng
Danh mục các tệp Java đã thiết kế cho từ điển CVT trên máy di động
STT
NGHIAVIET
N_VN1
Tần suất %
Social Media %