Luận án Tiến sĩ Kỹ thuật: Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NHO TÚY

ÀNG THỊ MỸ LỆ

Chuyên ngành : KHOA HỌC MÁY TÍNH

Mã số

: 62.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng, năm 2020

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NHO TÚY

NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG

TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT

Chuyên ngành

: KHOA HỌC MÁY TÍNH

Mã số

: 62.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học:

PGS.TS. PHAN HUY KHÁNH

Đà Nẵng, năm 2020

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của tôi, dưới sự hướng dẫn trực tiếp

của PGS. TS. Phan Huy Khánh, hiện là cán bộ giảng dạy tại Đại học Bách Khoa, Đại

học Đà Nẵng.

Tôi cam đoan các kết quả được trình bày trong luận án là trung thực,

không sao chép từ bất kỳ luận án hay nguồn tài liệu nào khác và chưa từng được ai công

bố trong bất kỳ công trình nào khác. Mọi trích dẫn tài liệu tham khảo đều có ghi nguồn

gốc xuất xứ rõ ràng.

Nếu có gì không trung thực, tác giả xin chịu hoàn toàn trách nhiệm.

Tác giả,

Nguyễn Nho Túy

iii

MỤC LỤC

LỜI CAM ĐOAN .................................................................................................. ii

DANH MỤC CÁC CHỮ VIẾT TẮT ................................................................. vii

DANH MỤC HÌNH ẢNH .................................................................................... ix

DANH MỤC BẢNG BIỂU .................................................................................. xi

MỞ ĐẦU ................................................................................................................1

1. ĐẶT VẤN ĐỀ ................................................................................................1 2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU .........................5 2.1. Mục tiêu ........................................................................................................5 2.2. Đối tượng ......................................................................................................5 2.3. Phạm vi .........................................................................................................6 3. PHƯƠNG PHÁP NGHIÊN CỨU .................................................................6 4. BỐ CỤC CỦA LUẬN ÁN .............................................................................7 5. ĐÓNG GÓP CỦA LUẬN ÁN .......................................................................8

CHƯƠNG 1. VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT .................................... 11

1.1. NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN .................................... 11

1.1.1. Ngôn ngữ và xử lý ngôn ngữ ................................................................ 11 1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết ............................................... 12 1.1.3. Các loại hình ngôn ngữ........................................................................ 13 1.1.4. Xử lý ngôn ngữ tự nhiên ....................................................................... 14 1.1.5. Vấn đề xử lý tiếng Việt ......................................................................... 16

1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT ............... 18

1.2.1. Ngữ nghĩa và ngữ nghĩa học ................................................................ 18 1.2.2. Phân tích nghĩa của từ ......................................................................... 19 1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa .................................................. 20 1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt ............................................... 22

1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG .................................................... 25

1.3.1. Chữ viết tắt là gì .................................................................................. 25 1.3.2. Lịch sử hình thành chữ Quốc ngữ ........................................................ 26 1.3.3. Tìm hiểu về lịch sử chữ viết tắt ............................................................ 27 1.3.4. Sử dụng chữ viết tắt ............................................................................. 28 1.3.5. Chữ viết tắt trong tiếng Việt ................................................................. 31

1.4. NGỮ NGHĨA CHỮ VIẾT TẮT ................................................................... 32

1.4.1. Khái niệm ngữ nghĩa chữ viết tắt ......................................................... 32 1.4.2. Biến đổi ngữ nghĩa chữ viết tắt ............................................................ 33 1.4.3. Nhập nhằng chữ viết tắt ....................................................................... 34 1.4.4. Xử lý nhập nhằng chữ viết tắt .............................................................. 35 1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt ............................................ 36

1.5. TÓM TẮT CHƯƠNG 1 ................................................................................ 37

CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT ..................................................................................................................... 38

2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT ............................. 38

2.1.1. Mô hình sự hình thành chữ viết tắt ....................................................... 38 2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt ......................................... 40 2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt ............................................ 41 2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt ..................... 44

2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM .................................................. 47

2.2.1. Hệ sinh thái phần mềm là gì ................................................................ 47 2.2.2. Mô hình hóa hệ sinh thái phần mềm .................................................... 48 2.2.3. Đặc điểm một hệ sinh thái phần mềm................................................... 50 2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm .............................................. 51

2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES) ...... 51

2.3.1. Hệ thống khai thác phần mềm .............................................................. 51 2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt ................................. 52 2.3.3. Mô hình hệ thống khai thác chữ viết tắt ............................................... 53

2.4. THỰC NGHIỆM XÂY DỰNG AMES ........................................................ 54

2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt ............................... 55 2.4.2. Xây dựng công cụ khai thác chữ viết tắt ............................................... 55 2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt ............................... 55

2.5. TÓM TẮT CHƯƠNG 2 ................................................................................ 56

CHƯƠNG 3. XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT ............. 57

3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT ...................................... 57

3.1.1. Mô hình quan hệ dữ liệu ...................................................................... 57 3.1.2. Triển khai cài đặt ................................................................................. 59

3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT ................................ 60

3.2.1. Thu thập dữ liệu thủ công .................................................................... 60 3.2.2. Thu thập dữ liệu tự động ...................................................................... 61

3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới ........................... 62 3.2.4. Thực nghiệm cài đặt thuật toán SENVA ............................................... 64

3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT ............................ 65

3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành ................................... 65 3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục ....................... 69 3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia ........................ 71

3.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................ 73

3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt .......................................... 73 3.4.2. Kết quả ứng dụng khai thác dữ liệu chữ viết tắt ................................... 74

3.5. TÓM TẮT CHƯƠNG 3 ................................................................................ 76

CHƯƠNG 4. XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT ........... 77

4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT ............................................... 77

4.1.1. Lựa chọn công cụ lập trình .................................................................. 77 4.1.2. Thiết kế chương trình ........................................................................... 77 4.1.3. Kết quả xây dựng thư viện chữ viết tắt ................................................. 78

4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU .......................... 79

4.2.1. Tin nhắn thương hiệu là gì ................................................................... 79 4.2.2. Các bước xây dựng công cụ tư vấn đặt tên Brandname ........................ 80 4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu .............................. 81 4.2.4. Cài đặt chương trình, kết quả thử nghiệm ............................................ 87

4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG ........... 88

4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình ................................ 88 4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt ............................................. 89 4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển ................................. 90 4.3.4. Cài đặt và kết quả thực nghiệm ............................................................ 92

4.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................. 93

4.4.1. Đánh giá kết quả thực nghiệm AMES ................................................. 93 4.4.2. Đánh giá AMES đặc tả theo mô hình UML ......................................... 94

4.5. TÓM TẮT CHƯƠNG 4 ................................................................................ 96

CHƯƠNG 5. XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT ................................... 97

5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT ...................... 97

5.1.1. Ngữ cảnh sử dụng chữ viết tắt ............................................................. 97 5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản ........................................ 98

5.1.3. Xây dựng mô hình nhận diện chữ viết tắt trong văn bản ...................... 99 5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt ............................................ 100

5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT .............. 102

5.2.1. Xây dựng các miền dữ liệu ................................................................. 102 5.2.2. Xây dựng vị từ và hàm ....................................................................... 103 5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản ...................... 105

5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT .................... 106

5.3.1. Xây dựng cơ sở luật ........................................................................... 106 5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt ................................... 109 5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt ...................... 110 5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng.................... 112

5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG ..... 113

5.4.1. Tần số chữ viết tắt ............................................................................. 113 5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt ............... 114 5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt ................................. 116 5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm ..................... 117 5.4.5. Kết quả thực nghiệm và đánh giá ...................................................... 119 5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt ................................ 123

5.5. TÓM TẮT CHƯƠNG 5 .............................................................................. 124

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 125

1. KẾT LUẬN .................................................................................................... 125

1.1. Tóm tắt nội dung luận án ...................................................................... 125 1.2. Các kết quả đạt được ............................................................................ 126 1.3. Hạn chế của luận án ............................................................................. 128

2. HƯỚNG PHÁT TRIỂN................................................................................. 129

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ ............... 130

TÀI LIỆU THAM KHẢO ................................................................................. 131

PHỤ LỤC

vii

DANH MỤC CÁC CHỮ VIẾT TẮT

TIẾNG VIỆT

Chữ viết tắt NGHĨA TIẾNG VIỆT

STT

1. BCVT Bưu chính viễn thông

2. CĐCN Cao đẳng công nghệ

3. CVT Chữ viết tắt

4. CSDL Cơ sở dữ liệu

5. DBĐT Danh bạ điện thoại

6. DCT Địa chỉ tắt

7. ĐTV Điện thoại viên

8. ĐH Đại học

9. ĐHBK Đại học bách khoa

10. ĐHQG Đại học quốc gia

11. GD-ĐT Giáo dục và đào tạo

12. HCM Hồ Chí Minh

13. KHCN Khoa học công nghệ

14. KNL Kho ngữ liệu

15. KTQS Kỹ thuật quân sự

16. KTXH Kinh tế xã hội

17. MTVT Mục từ viết tắt

18. NN&ĐS Ngôn ngữ và đời sống.

19. NSD Người sử dụng

20. NXB Nhà xuất bản

21. NCS Nghiên cứu sinh

22. PGS Phó Giáo sư

23. TBT Thuê bao tắt

24. THCN Trung học chuyên nghiệp

25. TS Tiến sỹ

26. TP Thành phố

27. XLTV Xử lý tiếng Việt

28. XLNNTN Xử lý ngôn ngữ tự nhiên

29. VH-TT Văn hóa thông tin

30. VT-CNTT Viễn thông - Công nghệ thông tin

viii

TIẾNG ANH

STT Chữ viết tắt NGHĨA TIẾNG ANH NGHĨA TIẾNG VIỆT

1. API

2. AMES

3. AFVAI Lập trình giao diện ứng dụng Hệ thống khai thác Chữ viết tắt Ghi nhận tần số chữ viết tắt trên Internet Application Programming Interface Abbreviations Management Exploit System Assessment frequency Vietnamese abbreviations on the Internet

4. CSBCOM Consultant SMS brandname to the company

Tư vấn đặt tên tin nhắn thương hiệu Doanh nghiệp Ngôn ngữ mô hình hóa 5. I* Modeling Language

6. IM

7. HTML

8. PSTN

9. SENVA

10. SMS Tin nhắn Ngôn ngữ đánh dấu siêu văn bản Mạng điện thoại chuyển mạch công cộng Máy tìm kiếm chữ viết tắt mới tiếng Việt Dịch vụ tin nhắn ngắn

11. SAOM-FTS Tìm kiếm chữ viết tắt trên máy di động Instand Message HyperText Markup Language Public Switched Telephone Network Search Engines New Vietnamese Abbreviations Short Message Services Search on mobile abbreviations-used Full Text Search

12. UML Unified Modeling Language

13. VNPT

14. WFST

15. XML VietNam Posts And Telecommunications Group Weighted Finite State Transducer eXtensible Markup Language Ngôn ngữ mô hình hóa thống nhất Tập đoàn Bưu chính Viễn thông Việt Nam Chuyển đổi trạng thái trọng số hữu hạn Ngôn ngữ đánh dấu mở rộng

DANH MỤC HÌNH ẢNH

STT Hình Chú thích hình ảnh Trang

1. Hình 1.1 Mô hình tháp nghĩa 18

2. Hình 1.2 Xu hướng "tắt hóa" 24

3. Hình 1.3 Tắt hóa trong chữ viết dân tộc ít người 30

4. Hình 2.1 Mô hình hình thành chữ viết tắt tiếng Việt 35

36 5. Hình 2.2 Mô hình sơ đồi khối hình thành chữ viết tắt tiếng Việt

6. Hình 2.3 Ví dụ Hệ sinh thái phần mềm Microsoft 45

7. Hình 2.4 46 Sử dụng UML mô hình hóa sơ đồ hệ sinh thái phần mềm

8. Hình 2.5 Mô hình hệ thống khai thác chữ viết tắt tiếng Việt 50

9. Hình 2.6 51

10. Hình 3.1 55 Mô hình UML hệ thống khai thác chữ viết tắt tiếng Việt Mô hình quan hệ dữ liệu kho ngữ liệu chữ viết tắt tiếng Việt

11. Hình 3.2 Quan hệ giữa các CSDL chữ viết tắt 56

12. Hình 3.3 Các chức năng tìm kiếm 65

13. Hình 4.1 Mô hình hoạt động của website tra cứu chữ viết tắt 74

14. Hình 4.2. Trang chủ website thư viện chữ viết tắt 75

15. Hình 4.3 Cây phân tích chuỗi 81

16. Hình 4.4 Cây phân tích chuỗi và giá trị trọng số 81

17. Hình 4.5 Mô hình đồng bộ dữ liệu về máy di động 84

18. Hình 4.6 Tiếp cận nghiên cứu hình thành AMES 88

19. Hình 4.7 Kết quả thực nghiệm AMES 89

20. Hình 5.1 Mô hình nhận diện CVT trong văn bản 95

21. Hình 5.2 105 Cơ chế hoạt động của máy suy diễn nhận diện chữ viết tắt

107

23. Hình 5.4 113 22. Hình 5.3 Mô hình kết hợp xử lý nhập nhằng CVT trong văn bản Kết quả thực hiện chương trình cập nhật tần số sử dụng CVT

24. Hình 5.5 Biểu đồ tần suất CVT là thương hiệu di động trên 116 Internet

DANH MỤC BẢNG BIỂU

STT Bảng Chú thích bảng biểu Trang

1. Bảng 3.1 Thống kê số liệu tác nghiệp 63

2. Bảng 3.2 Thống kê CSDL tác nghiệp 63

3. Bảng 3.3 CSDL Danh mục chuyên ngành 66

4. Bảng 3.4 CSDL Danh mục hình thức thanh toán 66

5. Bảng 3.5 Bảng mã vùng thanh toán 67

6. Bảng 3.6. CSDL danh mục quốc gia chuyên ngành 69

7. Bảng 3.7 Bảng thống kê sử dụng chữ viết tắt 70

8. Bảng 3.8 Thống kê số liệu sử dụng giải pháp CVT 71

9. Bảng 4.1 Bảng NGHIA_CVT_DACBIET 80

10. Bảng 4.2 Bảng HUAN_LUYEN 80

11. Bảng 4.3 Kết quả tạo chữ viết tắt Brandname 82

12. Bảng 4.4 Thử nghiệm tư vấn Brandname và sự lựa chọn của doanh nghiệp

13. Bảng 4.5 Kết quả so sánh các tác nhân AMES và SECO 90

14. Bảng 5.1 Bảng thống kê sử dụng chữ viết tắt (mẫu gửi đi) 92

15. Bảng 5.2 Bảng vị từ và hàm 98

16. Bảng 5.3 110

17. Bảng 5.4 114 Tính toán tần suất xuất hiện CVT trong một phạm vi chỉ định Kết quả thực hiện tính toàn tần số sử dụng, tần suất xuất hiện CVT

18. Bảng 5.5 Tương quan tần suất CVT và thị phần dịch vụ 116

MỞ ĐẦU

1. ĐẶT VẤN ĐỀ

Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt (CVT)

chỉ với mong muốn rút gọn thời gian, công sức. Câu chuyện “Người ăn cắp cừu” [79]

(phụ lục 1) cho thấy CVT là một vấn đề tuy không lớn, không hẳn là mới mẻ nhưng có lẽ ai cũng gặp phải khi đọc hiểu một văn bản, ví dụ chữ viết tắt ST 1 trong câu

chuyện.

Cùng một CVT (hay một ký hiệu nào đó), người ta có thể đọc hiểu theo nhiều

cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan của

mình. Chữ viết tắt ST trong [79] đã được sử dụng từ nhu cầu thực tế để diễn đạt nội

dung trừng phạt kẻ ăn cắp cừu, nhưng được hiểu bởi một ý nghĩa khác nhau, thậm chí

đối ngược nhau. Khi một văn bản sử dụng CVT, người viết thường luôn giả sử rằng

CVT này thông dụng và dễ hiểu đối với đối tượng độc giả mà văn bản này nhắm đến.

Tuy nhiên, thực tế không phải đối tượng độc giả nào cũng hiểu được hết, bởi do sự

khác nhau về trình độ, độ tuổi, sự trải nghiệm, lĩnh vực hay chuyên ngành. Hơn nữa,

thời gian, trí nhớ và quan niệm của con người đã làm nhầm lẫn, làm phát sinh thêm ý

nghĩa mới CVT như chữ ST nói trên. Thực tế cuộc sống và giao tiếp làm nảy sinh tìm

hiểu ý nghĩa CVT là gì. Đây không phải là vấn đề dễ dàng đối với tất cả mọi người.

Khi đọc một văn bản, hầu hết người đọc đều phải dừng lại chốc lát để hiểu được CVT

ấy là gì. Thậm chí có khi người đọc phải mất vài phút tìm hiểu và tra cứu mà vẫn

chưa hiểu được đầy đủ CVT. Vì vậy vấn đề phân giải ý nghĩa CVT là cần thiết trong

nhiều tình huống, không chỉ tình huống trong sử dụng ngôn ngữ tự nhiên (giao tiếp, đặt

tên, nhắn tin, Email…), mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dạng

chữ viết hình ảnh, dịch thuật…

Trong ngôn ngữ tự nhiên (NNTN), xu hướng thể hiện văn bản, lời nói ngắn

gọn, đơn giản, nhưng chuyển tải lượng thông tin lớn mà viết tắt trở thành một hiện

tượng phổ biến trong nhiều thứ tiếng khác trên thế giới. Viết tắt, nói tắt được sử dụng

1 ST: Người ăn cắp cừu (Sheep Theft) hay ST: Thánh thiện (Saint)

rộng rãi trong nhiều lĩnh vực, nhiều chuyên ngành, từ các nhà sản xuất, các nhà xuất

bản, đến các nhà quản lý, sử dụng, nghiên cứu, giảng dạy… Người dùng có nhu cầu

sử dụng CVT để ghi nhận, chuyển tải lượng thông tin lớn, đôi khi chứa đựng những

bí ẩn bất ngờ trong đó. Trên văn đàn Việt Nam, chữ viết tắt TTKH, tác giả bài thơ «Hai sắc hoa ti gôn»2 vẫn còn là điều bí ẩn và gây nhiều tranh luận cho đến nay. Vậy

nên việc sử dụng, lưu trữ, xử lý CVT trong bối cảnh chuyên ngành khoa học công

nghệ thông tin (CNTT), lĩnh vực liên quan đến sự tương tác giữa máy và NNTN

không thể không quan tâm đến vấn đề CVT.

Khoa học chuyên ngành CNTT đã định hình lĩnh vực liên quan đến sự

tương tác giữa máy và NNTN là lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN). Mục

tiêu của lĩnh vực này là giúp các chương trình trong máy tính hiểu được NNTN. Một

hệ thống XLNNTN có thể bắt đầu ở mức từ để xác định cấu trúc hình thái, bản chất

của từ (ví dụ như gán nhãn từ loại, ngữ nghĩa)..., sau đó có thể chuyển sang mức câu

để xác định trật tự từ, ngữ pháp, nghĩa của toàn bộ câu, tiếp theo là mức ngữ cảnh và

theo từng chuyên ngành [7][52][56].

Các công trình nghiên cứu về XLNNTN trên thế giới ra đời rất sớm, từ những

năm 1940 [52], theo hai hướng cơ bản: Hướng nghiên cứu đầu tiên vào giai đoạn năm

1940-1950 là mô hình các máy tự động và các mô hình xác suất; hướng nghiên cứu

tiếp theo với các giai đoạn năm 1957-1970, XLNNTN tập trung nghiên cứu theo lý

thuyết ngôn ngữ hình thức của Chomsky và trí tuệ nhân tạo cho tiếng nói như các

phương pháp Bayes [56]… Tiếp đến, giai đoạn 1970-1983 phát triển mạnh mẽ các

mô hình nghiên cứu về XLNNTN; giai đoạn 1983-1993, nghiên cứu tập trung trở lại

mô hình trạng thái hữu hạn, các phương pháp xác suất và hướng tiếp cận dựa trên các

dữ liệu lời nói trong phân tích cú pháp, gán nhãn từ loại và xử lý nhập nhằng ngữ

nghĩa [52]. Giai đoạn từ năm 1994 đến nay, chuyên ngành XLNNTN đã có những

thay đổi và bước phát triển mới. Nhiều thuật toán phân tích cú pháp, gán nhãn từ loại,

truy xuất thông tin cũng đã được nghiên cứu và áp dụng như: Nhận dạng tiếng nói,

kiểm tra chính tả, kiểm tra ngữ pháp, công cụ truy xuất và trích chọn thông tin trên

web [52]. Giai đoạn này ghi nhận sự phát triển các nghiên cứu phương pháp dịch máy

thống kê, chẳng hạn như Google [62], [63] cũng đã ứng dụng trong hệ dịch tự động

2 Tiểu thuyết thứ bảy - năm 1939

từ năm 2007.

Trong tiếng Anh, có nhiều công trình nghiên cứu giải quyết nhập nhằng ngữ nghĩa đã được thực hiện với hai hướng tiếp cận cơ bản3: Giải quyết nhập nhằng dựa

trên thông tin trong một ngữ cảnh cụ thể và dựa trên những thông tin thu được trong

việc học từ vài tập ngữ liệu học [53][67]. Sau đó còn có nhiều công trình dùng kết

hợp cả hai phương pháp này [68], sử dụng các mô hình thống kê các loại đồng nghĩa

để xác định nghĩa của các từ tiếng Anh để khử nhập nhằng. Có nhiều công trình

nghiên cứu chuyên sâu CVT trong y học như [71][72][73][68], giải quyết vấn đề nhận

dạng, khử nhập nhằng CVT trong văn bản tóm tắt y học về bệnh nhân, về hệ thống

NLP chuyên ngành y học, giúp đưa ra quyết định, tạo điều kiện chăm sóc bệnh nhân

tốt hơn. Có nghiên cứu CVT trong ngôn ngữ tiếng Trung, tiếng Do Thái như [69][57],

nghiên cứu nhận diện CVT dựa vào thông tin ngữ cảnh văn bản, sử dụng phương

pháp máy học để nhận dạng CVT bởi thuộc tính nhất quán trong văn bản.

Vấn đề xử lý tiếng Việt (XLTV) đã được triển khai nghiên cứu từ năm 1990,

đã có nhiều công trình được công bố [9][25][56]... Về nghiên cứu nhập nhằng, xử lý

nhập nhằng trong tiếng Việt, gần đây có các công trình nghiên cứu khử nhập nhằng

trong một vài lĩnh vực: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài

liệu phục vụ giảng dạy và học tập [42]; xử lý nhập nhằng trong tìm kiếm văn bản

tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn bản [43],

nghiên cứu đề xuất giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt

[3]. Về CVT tiếng việt, đã có một số công trình nghiên cứu đề cập xây dựng cơ sở dữ

liệu (CSDL) CVT và ứng dụng trong một chuyên ngành: [26][29] đề cập đến hiện tượng nói tắt và viết tắt trong tiếng Việt4, [39] biểu diễn ngữ cảnh trong triển khai

CVT dùng tiếp cận học máy, [40] thực hiện chuẩn hóa văn bản tiếng Việt dựa trên bộ

quy tắc, [66] thể hiện bối cảnh trong mở rộng viết tắt bằng cách sử dụng phương pháp

học máy. Một số từ điển CVT tiếng Việt thông dụng, thường dùng trong chuyên

ngành (y học, viễn thông,…), tiếng nước ngoài đã được xuất bản như

[8][18][19][35][36]; các xuất bản này đã chọn lọc và giới thiệu các CVT một số

3 Wilks, Stevenson, Sense Tagging: Semantic Tagging with a Lexicon. In Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C. 1997 4 Tạp chí Ngôn ngữ và Đời sống, số 1+2 (87+88) năm 2003

chuyên ngành, chưa quan tâm đến sự hình thành, sự biến đổi và ứng dụng CVT, nhất

là vấn đề nhập nhằng ngữ nghĩa CVT. Nhìn chung, đến nay chưa có công trình nào

nghiên cứu một cách hệ thống và đầy đủ về CVT tiếng Việt.

Trong bối cảnh chung của việc XLNNTN và XLTV, trên cơ sở tìm hiểu lý

thuyết về ngôn ngữ học và thực trạng sử dụng CVT trong thực tiễn, ta nhận thấy rằng

NNTN luôn biến đổi và phát triển không ngừng; trong đó sự hình thành CVT được

xem như là phương thức hình thành nên từ ngữ mới, với những biến đổi ngữ nghĩa

CVT đa dạng. Do đó, để góp phần giải quyết các bài toán trong XLTV, đề tài này

đặt vấn đề cần thiết phải nghiên cứu: tiếp cận vấn đề ngữ nghĩa, nhập nhằng ngữ

nghĩa, xử lý, nhận dạng CVT, hướng đến xây dựng môi trường khai thác khả dụng,

phát triển CVT bởi nó liên tục biến tấu, thay đổi và luôn có nhu cầu sử dụng trong

thực tiễn.

Câu chuyện Người ăn cắp cừu [79] cho ta thấy sự biến đối ngữ nghĩa của chữ

viết tắt ST qua thời gian, không gian và ngữ cảnh diễn tả theo ý nghĩ, nhận định của

con người. Việc XLTV trong văn bản chắc chắn gặp phải vấn đề nhập nhằng ngữ

nghĩa CVT. Xuất phát từ tình hình thực tiễn và nhu cầu nêu trên, dựa vào ý tưởng hệ

sinh thái phần mềm (Software Ecosysytems) [64][65][77], tác giả nhận thấy cần có

nghiên cứu tạo lập hệ thống khai thác, sử dụng CVT ngày càng thuận tiện cho người

dùng, có tính gợi mở, hợp tác trao đổi các vấn đề đã và đang nghiên cứu, cùng tạo ra

môi trường học tập và trao đổi thông tin các vấn đề liên quan đến CVT, góp phần nhỏ

trong nghiên cứu XLTV. Đề tài của luận án được chọn: “Nghiên cứu ngữ nghĩa và

hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt”,

triển khai thực hiện theo 3 nội dung nghiên cứu:

1) Ngữ nghĩa và vấn đề nhập nhằng ngữ nghĩa trong tiếng Việt, tiếp cận vấn

đề chữ viết tắt tiếng Việt.

2) Tiếp cận xử lý chữ viết tắt tiếng Việt.

3) Xây dựng môi trường khai thác chữ viết tắt tiếng Việt.

Nội dung thứ 1 và thứ 2 đã tập trung nghiên cứu các vấn đề cơ sở khoa học

về ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ nghĩa,

biến đổi ngữ nghĩa, hiện tượng nhập nhằng trong tiếng Việt...

Nội dung thứ 3 nghiên cứu xây dựng hệ thống khai thác CVT, đề xuất thuật

toán xây dựng công cụ tư vấn đặt tên CVT sử dụng trong tin nhắn thương hiệu cho

doanh nghiệp. Xây dựng phương pháp đánh giá tần số, tần suất CVT trên mạng

Internet; cài đặt thuật toán ghi nhận tần số CVT trên mạng. Đề xuất giải pháp xử lý

nhập nhằng CVT trong văn bản bằng cách xây dựng cơ sở luật nhận diện CVT, kết

hợp với các CSDL CVT, thống kê tần số, tần suất sử dụng để có một mô hình xử lý

nhập nhằng CVT trong văn bản.

2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

2.1. Mục tiêu

Mục tiêu nghiên cứu của đề tài bao gồm những nội dung chính:

Sau khi tìm hiểu tiếng Việt về phương diện ngôn ngữ học, luận án nghiên cứu

hiện tượng nhập nhằng và xử lý nhập nhằng tiếng Việt nói chung, CVT tiếng Việt nói

riêng, nghiên cứu CVT và nhu cầu sử dụng trong thực tế ở tất cả các lĩnh vực, chuyên

ngành. Từ đó, hiểu được tri thức về CVT, triển khai thực hiện nghiên cứu đạt được 4

mục tiêu chính:

1) Nghiên cứu, phát hiện tri thức và xây dựng kho ngữ liệu CVT.

2) Tổng kết các quy tắc hình thành CVT, xây dựng hệ thống khai thác CVT.

3) Đề xuất chuẩn hóa CVT và triển khai giải pháp xử lý nhập nhằng CVT.

4) Xây dựng công cụ, ứng dụng và khai thác CVT.

Kết quả nghiên cứu định hướng đến công bố khoa học rộng rãi nhằm góp phần

nhỏ giải quyết nhập nhằng CVT, giúp cho việc sử dụng CVT một cách nhất quán, đi

đến chuẩn hoá hệ thống CVT, từng bước làm giàu hệ thống từ vựng, góp phần phát

triển ngôn ngữ tiếng Việt.

2.2. Đối tượng

Đề tài nghiên cứu về bản chất ngôn ngữ tự nhiên nói chung, ngữ pháp tiếng

Việt, các phương pháp, kỹ thuật và công cụ XLNNTN, XLTV, trong đó có phương

pháp khử nhập nhằng.

Đối tượng nghiên cứu là tri thức các chuyên gia ngôn ngữ, chuyên gia

XLNNTN, chuyên gia tin học; nghiên cứu CVT trong văn bản, sách, báo, website

tiếng Việt, một số ngôn ngữ dân tộc khác, tiếng Anh… nghiên cứu sự hình thành

CVT trong NNTN ở tất cả các lĩnh vực đời sống xã hội. Tiếp cận từng bước, khởi

đầu từ vấn đề lý thuyết và thực tế sử dụng CVT để dần dần đi đến vấn để chuyên sâu

và thu hẹp hơn trong lĩnh vực khai thác, xử lý và sử dụng CVT trong chuyên ngành

viễn thông, CNTT.

2.3. Phạm vi

Về lĩnh vực nghiên cứu lý thuyết, luận án nghiên cứu XLNNTN, XLTV, chủ

yếu xử lý văn bản, hiện tượng nhập nhằng, vấn đề ngữ nghĩa, công cụ XLNNTN,

XLTV.

Về lĩnh vực nghiên cứu sử dụng CVT, đề tài không hạn chế phạm vi, trong

mọi lĩnh vực đời sống xã hội. Tuy nhiên, đề tài tập trung vào lĩnh vực khoa học, công

nghệ và kỹ thuật, có tham khảo CVT tiếng Anh và một số ngôn ngữ khác.

Về môi trường phát triển ứng dụng, chủ yếu là xây dựng kho ngữ liệu, xây

dựng công cụ, ứng dụng, hình thành môi trường khai thác, nghiên cứu CVT, cài đặt

thử nghiệm trong chuyên ngành và đưa vào khai thác trực tuyến. Phạm vi giới hạn

ứng dụng xử lý nhập nhằng CVT trong lĩnh vực viễn thông, CNTT.

3. PHƯƠNG PHÁP NGHIÊN CỨU

Các phương pháp nghiên cứu cơ bản được sử dụng trong luận án gồm

ba phương pháp: Khảo sát thực tế, nghiên cứu lý thuyết và nghiên cứu thực nghiệm.

Khảo sát thực tế: Khảo sát vấn đề sử dụng CVT trong văn bản, Internet, quy

định ngữ pháp, thực tiễn, chuyên ngành viễn thông…; kết hợp phương pháp phỏng

vấn trực tiếp một số chuyên gia, từ đó so sánh, đối chiếu, kiểm chứng lại những thông

tin CVT đã thu thập được.

Nghiên cứu lý thuyết: Nghiên cứu trên các tài liệu liên quan đến lý thuyết ngôn

ngữ học, XLNNTN, phương pháp tách từ, xây dựng từ điển, kỹ thuật xây dựng máy

tìm kiếm. Nghiên cứu lý thuyết xây dựng vị từ, hàm, cơ sở luật và máy suy diễn; vận

dụng lý thuyết Công nghệ phần mềm, CSDL… vào thực nghiệm.

Nghiên cứu thực nghiệm: Tìm hiểu các kỹ thuật tìm kiếm, xây dựng thuật toán

và các bộ công cụ dựa trên giải pháp đã được đề xuất. Dữ liệu đầu vào của các công

cụ là dữ liệu được dùng trong thực tiễn, từ nguồn tài nguyên xây dựng.

Ngoài ra, còn có sự kết hợp phương pháp thảo luận, trao đổi các nhà nghiên

cứu thông qua các hội thảo; từ đó, lựa chọn phương hướng tối ưu giải quyết vấn đề,

đồng thời có kiểm nghiệm, thử nghiệm và đánh giá kết quả khách quan hơn.

4. BỐ CỤC CỦA LUẬN ÁN

Sau phần mở đầu giới thiệu mục đích triển khai đề tài, nội dung chính gồm 5

chương, phần kết luận và phần phụ lục. Cụ thể như sau:

Chương 1 nghiên cứu tổng quan, những nhân tố làm cho ngôn ngữ biến đổi và

phát triển; nêu lên những vấn đề về XLNNTN đặt trong bối cảnh chung để tiếp cận

vấn đề ngữ nghĩa và nhập nhằng ngữ nghĩa. Tìm hiểu sự biến đổi phát triển ngôn ngữ

tiếng Việt: sự biến đổi từ vựng và sự biến đổi ngữ nghĩa. Đây là cơ sở lý luận của

ngôn ngữ học để luận án tiếp cận nghiên cứu vấn đề CVT tiếng Việt. Từ đó phân tích

các hạn chế, phát hiện đặt vấn đề cần nghiên cứu.

Chương 2 tiếp cận nghiên cứu vấn đề hình thành CVT tiếng Việt bằng cách

tìm hiểu CVT trong cuộc sống với lịch sử hình thành, nhu cầu sử dụng. Thông qua

việc mô hình hóa sự hình thành, xem xét kỹ nguồn gốc tạo nên CVT, xây dựng các

quy tắc hình thành CVT; tìm hiểu các yếu tố ảnh hưởng đến hình thành CVT, so sánh

với những quy định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ dấu hiệu nhận biết

CVT trong văn bản. Nội dung chương 2 là kết quả nghiên cứu đầy đủ vấn đề CVT

tiếng Việt, trọng tâm là đề xuất xây dựng hệ thống khai thác CVT tiếng Việt (AMES).

Đó là một trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm;

được triển khai thực nghiệm để tạo lập kết nối giữa các tác nhân NSD, chuyên gia

nghiên cứu, doanh nghiệp, lập trình viên, nhà cung cấp hạ tầng với nhau.

Chương 3 nghiên cứu xây dựng nguồn tài nguyên CVT tiếng Việt, bao gồm:

xây dựng CSDL, đề xuất phương pháp thu thập dữ liệu, đề xuất và thực nghiệm thuật

toán tìm kiếm CVT mới trên mạng Internet và cập nhật về CSDL. Đề xuất một vài

ứng dụng khai thác nguồn tài nguyên CVT, đặc biệt là ứng dụng sử dụng CVT trong

CSDL; đề xuất vấn đề sử dụng CVT trong việc ban hành bộ mã danh mục chuyên

ngành, ban hành bộ mã danh mục quốc gia. Đây là một trong những yêu cầu cần thiết

để tạo điều kiện chia xẻ, trao đổi dữ liệu với nhau.

Chương 4 trình bày kết quả xây dựng một số công cụ khai thác CVT tiếng

Việt, từng bước thực nghiệm hình thành một hệ thống khai thác CVT tiếng Việt dựa

trên ý tưởng hệ sinh thái phần mềm. Website tra thư viện viết tắt5 và Chương trình từ điển trên máy di động6 là hai công cụ phục vụ khai thác nguồn dữ liệu CVT, đồng bộ

dữ liệu với nhau. Từ điển trên máy di động có sự tùy biến cá nhân khi sử dụng CVT

trên máy di động như thống kê, tần suất sử dụng cá nhân... Chương 4 còn xây dựng

công cụ tư vấn đặt tên thương hiệu Brandname cho doanh nghiệp, thực nghiệm triển

khai áp dụng vào thực tiễn dịch vụ chuyên ngành viễn.

Chương 5 tập trung phân tích và đề xuất giải quyết vấn đề xử lý nhập nhằng

CVT. Phân tích ngữ cảnh văn bản, nhận diện tình huống sử dụng CVT trong văn bản,

đưa giải pháp xử lý nhập nhằng CVT trong văn bản chuyên ngành. Xây dựng vị từ và

hàm nhận diện CVT trong văn bản, từ đó đề xuất xây dựng cơ sở luật, thuật toán nhận

diện và xử lý nhập nhằng CVT, đề xuất xây dựng máy suy diễn nhận diện CVT trong

văn bản, giới hạn trong lĩnh vực chuyên ngành viễn thông. Chương 5 còn nêu lên

hướng tiếp cận xử lý nhập nhằng CVT dựa vào chỉ số tần suất xuất hiện CVT; xây

dựng thuật toán và thực nghiệm đánh giá tần số, tần suất CVT trên mạng Internet và

đưa ra một vài ứng dụng thực tiễn.

Phần kết luận trình bày tóm tắt nội dung và kết quả luận án đạt được. Phần phụ

lục trình bày bổ sung các giải thích, hình ảnh, bảng biểu, thuật toán, mã lệnh...

5. ĐÓNG GÓP CỦA LUẬN ÁN

Luận án đã có những đóng góp khoa học và ứng dụng thực tiễn như sau:

1. Phát hiện và xây dựng kho ngữ liệu chữ viết tắt

Kho ngữ liệu được cập nhật từ nhiều nguồn dữ liệu khác nhau theo sự biến

động và phát triển CVT trong thực tiễn với phương pháp thủ công/tự động. Dữ liệu

CVT được chuẩn hóa và phân lớp. Hiện nay đã có khoảng 7.000 CVT tiếng Việt (có

cả CVT nội sinh và ngoại nhập) đã biên tập lưu trữ trong CSDL, từng bước chuyển

song ngữ (Việt - Anh) những CVT thông dụng.

2. Tổng kết các quy tắc hình thành chữ viết tắt, xây dựng hệ thống khai thác

chữ viết tắt

Xây dựng các quy tắc hình thành CVT, từng bước chuẩn hóa quy tắc sử dụng

5 http://www.chuviettat.com 6 ABC Acronym Dictionary

CVT, góp phần phát triển ngôn ngữ tiếng Việt. Luận án đã tiếp cận nghiên cứu sự

hình thành CVT, xem xét kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp để xây

dựng và đã công bố 9 quy tắc hình thành CVT trong bài báo số [8].

Luận án đã đề xuất AMES, mô hình hóa hệ thống khai thác CVT. Đây là môi

trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm, có tính ổn

định, tính mở, tính kế thừa; được triển khai thử nghiệm để tạo lập kết nối giữa các đối

tượng NSD, chuyên gia nghiên cứu, doanh nghiệp, lập trình viên, nhà cung cấp hạ

tầng với nhau.

3. Góp phần xử lý nhập nhằng chữ viết tắt

Luận án xây dựng 27 vị từ điều khiển, nhận diện CVT trong văn bản; xây dựng

12 hàm xử lý chuỗi; lập 12 luật làm cơ sở xây dựng máy suy diễn nhận diện CVT và

triển khai thử nghiệm trong chuyên ngành viễn thông.

Luận án đã đề xuất giải pháp xây dựng công cụ thống kê tần số, tần suất CVT

tiếng Việt nhằm góp phần giúp nhà nghiên cứu quan sát, lưu trữ, thống kê và phân

tích các hiện tượng phát triển ngôn ngữ tiếng Việt nói chung và CVT nói riêng qua

từng thời điểm. Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho phép một cách tiếp

cận xử lý nhập nhằng ngữ nghĩa CVT.

4. Ứng dụng và khai thác chữ viết tắt Luận án đã xây dựng được hai hệ thống từ điển: Website thư viện CVT 7 và Từ điển CVT trên máy di động8. Hai hệ thống này có sự đồng bộ dữ liệu với nhau

đảm bảo thống nhất chung nguồn dữ liệu. Tuy nhiên có sự tùy biến cá nhân khi sử

dụng CVT trên máy di động như thống kê, tần suất sử dụng cá nhân,...

Xây dựng được ứng dụng máy tìm kiếm CVT mới, xây dựng công cụ quảng

bá thương hiệu Brandname cho doanh nghiệp, công cụ tư vấn đặt tên Brandname cho

doanh nghiệp (tránh trùng lặp, nhập nhằng), từ điển CVT trên máy di động cho

NSD… Các ứng dụng trên là những thành phần trong hệ thống AMES. Xây dựng và

triển khai thực nghiệm 4 thuật toán: Thuật toán SENVA - cập nhật tự động CVT mới

từ Internet, thuật toán SAOM-FTS - từ điển CVT trên di động, thuật toán CSBCOM

7 http://www.chuviettat.com 8 ABC Acronym Dictionary

- tư vấn thương hiệu, thuật toán AFVAI - đánh giá tần số CVT.

Xây dựng công cụ thống kê CVT và đề xuất chuẩn hóa, sử dụng CVT ở phạm

vi chuyên ngành VT-CNTT: Xây dựng khái niệm tần số, tần suất CVT trên Internet,

giải pháp và xây dựng thực nghiệm công cụ thống kê CVT tiếng Việt, làm cơ sở đánh

giá, lượng hóa chỉ số sử dụng, sự phát triển CVT trong thực tiễn.

Luận án cũng đã đề xuất chuẩn hóa, sử dụng CVT ở phạm vi quốc gia: Cần

thiết phải xây dựng và ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử

dụng CVT có tính gợi nhớ, dễ sử dụng, tạo điều kiện trao đổi chia xẻ thông tin CSDL

quốc gia dễ dàng và đồng bộ.

Đóng góp của luận án như là gạch nối nhỏ giữa lý thuyết ngôn ngữ học với

thực tiễn sử dụng CVT và với ngành XLNNTN trong CNTT, góp phần cùng giải

quyết vấn đề CVT tiếng Việt được nhiều người quan tâm.

CHƯƠNG 1.

VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT

Chương này trình bày những nghiên cứu tổng quan một số vấn đề cơ bản

ngôn ngữ và xử lý ngôn ngữ tự nhiên, các phương pháp tiếp cận và những định hướng

xử lý ngôn ngữ, từ đó xác định các vấn đề nền tảng nghiên cứu của luận án.

Nội dung chương 1 còn đề cập đến vấn đề CVT tiếng Việt trong cuộc sống

với lịch sử hình thành ở một số ngôn ngữ; đề xuất khái niệm ngữ nghĩa, sự biến đổi

ngữ nghĩa, nhập nhằng, xử lý nhập nhằng CVT… Từ đó, tiếp cận khảo sát thực tiễn

sử dụng CVT, mô hình hóa sự hình thành CVT tiếng Việt.

1.1. NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Nội dung luận án thuộc lĩnh vực XLNNTN, nghiên cứu hiện tượng nhập nhằng

trong xử lý tiếng Việt, tiếp cận xử lý vấn đề CVT tiếng Việt. Trước khi đi sâu vào

những vấn đề cốt lõi, luận án tìm hiểu một số khái niệm như ngôn ngữ, hệ viết, ngôn

ngữ hình thức…

1.1.1. Ngôn ngữ và xử lý ngôn ngữ

Theo [4][28], ngôn ngữ đã có từ rất lâu, vào nửa cuối thế kỉ thứ IV trước Công

nguyên. Tài liệu ngôn ngữ cổ xưa nhất tìm thấy ở Ấn Độ, Hi Lạp và Ảrập.

Ngôn ngữ là một hệ thống tín hiệu đặc biệt: Tín hiệu là một đối tượng vật

chất kích thích vào giác quan, con người nhận thức được đối tượng đó. Tín hiệu ngôn

ngữ là các hình vị và các từ. Hình vị và từ được coi là tín hiệu vì chúng là một thể

thống nhất hai mặt âm thanh (cái biểu hiện) và ý nghĩa (cái được biểu hiện) [17][31].

Mỗi ngôn ngữ là hệ thống nhiều cấp độ, nhiều yếu tố đồng loại, không đồng

loại với số lượng không xác định; tín hiệu ngôn ngữ có tính đa trị, có màu sắc tu từ -

diễn cảm; có tính độc lập tương đối, có giá trị đồng đại, lịch đại [28][31]. Ngôn ngữ

9 Theo "Lời nói đầu", Giáo trình Ngôn ngữ học đại cương (bản dịch của Cao Xuân Hạo). NXB Khoa học Xã hội, 2005, đăng trên website http://ngonngu.net/

là hệ thống tín hiệu tổng hợp được người bản ngữ chấp nhận, ghi nhớ, sử dụng giao tiếp với cộng đồng xã hội9.

Chức năng của ngôn ngữ: Ngôn ngữ có chức năng là phương tiện giao tiếp

quan trọng nhất của con người (nhưng không phải là duy nhất); là phương tiện, công

cụ của tư duy, trực tiếp tham gia vào quá trình hình thành, phát triển tư tưởng.

Nguồn gốc và sự phát triển của ngôn ngữ: Theo [28], có nhiều quan niệm và

khuynh hướng khác nhau về nguồn gốc ngôn ngữ học xã hội. Hiện nay có trên 500

thuyết nguồn gốc ngôn ngữ như: Thuyết tượng thanh, Thuyết tiếng kêu trong lao

động,… Ngôn ngữ học Mác-xít cho rằng nguồn gốc ngôn ngữ bắt nguồn từ lao động,

đó là cách giải thích đúng đắn và biện chứng [28][31][46].

Cách thức phát triển của ngôn ngữ: Ngôn ngữ không phát triển bằng cách

phá hủy cũ, tạo mới mà theo con đường cải tiến những yếu tố căn bản của nó. Sự phát

triển của ngôn ngữ là không đồng đều giữa các mặt: Từ vựng là bộ phận biến đổi

nhiều và nhanh nhất. Ngữ âm của ngôn ngữ biến đổi chậm và không đồng đều. Hệ

thống ngữ pháp biến đối chậm nhất, được cải tiến, tu bổ và bền vững [28][31].

1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết

Khái niệm chữ viết: Theo [30], âm thanh hay lời nói là cái vỏ vật chất của ngôn

ngữ vẫn có những hạn chế nhất định, có giới hạn, không thể truyền đạt rộng rãi và chính xác, lưu giữ lâu dài. Nó bị hạn chế về khoảng cách và thời gian [90]. Khắc phục

hạn chế đó, con người tìm cách xây dựng chữ viết. Chữ viết là kí tự ghi lại ngôn ngữ,

chữ viết là hệ thống tín hiệu của tín hiệu [30].

Sự khác biệt giữa âm và chữ viết: Chữ viết có sau và phụ thuộc vào âm thanh

ngôn ngữ [30]. Chữ viết có tính ổn định và bền vững. Chữ viết biểu thị ngữ âm, có

thể chính xác hoặc gần đúng. Ngôn ngữ biến hóa liên tục trong không gian và thời

gian trong khi chữ viết có xu hướng đứng yên (tính bảo thủ) [30]. Chữ viết là phương

tiện hoàn hảo để truyền đạt thông tin, lưu giữ thông tin, kích thích sự sáng tạo, là

thành quả kỳ diệu, vĩ đại của loài người [91]. Tuy chữ viết có tính bảo thủ, ổn định

và bền vững, nhưng vẫn có những cải tiến, sáng tạo trong quá trình phát triển.

Vấn đề cải tiến chữ viết: Theo [27], ở Việt Nam, vấn đề cải tiến chữ quốc ngữ

đã được đề cập từ lâu, được thảo luận sôi nổi vào đầu thập kỉ 60. Thời gian gần đây

có những đề xuất cải tiến chữ viết gây nhiều tranh cãi [88][89][92]; nhưng cơ bản vẫn

chưa có nhiều thay đổi, do tính bảo thủ của chữ viết, do thói quen và truyền thống

văn hóa. Việc cải tiến chữ viết thường diễn ra phức tạp. Theo [88], việc cải tiến chữ

viết tiếng Việt cần phải được cân nhắc, xem xét kỹ lưỡng và thận trọng.

Nhận xét: CVT cũng là một hướng làm thay đổi chữ viết, có thể được xem là

cải tiến chữ viết một cách tự nhiên. Chẳng hạn, người sử dụng viết tắt dùng các kí

hiệu viết tắt mang tính chất cá nhân: fê fán (phê phán), ffáp (phương pháp)...

1.1.3. Các loại hình ngôn ngữ

Ngôn ngữ tự nhiên: Một ngôn ngữ tự nhiên là bất kỳ ngôn ngữ nào phát sinh,

không suy nghĩ trước trong não bộ của con người. Định nghĩa các ngôn ngữ tự nhiên

thường phát biểu hay ngụ ý là ngôn ngữ mà bất kỳ đứa trẻ nào cũng có thể học và

được phát triển thông qua sử dụng ngôn ngữ và nói 10.

Ngôn ngữ hình thức: Trong toán học và khoa học máy tính, để nghiên cứu

sâu hơn về ngôn ngữ tự nhiên, người ta xây dựng ngôn ngữ hình thức (formal

language) [37]. Một ngôn ngữ hình thức được hình thức hóa, được định nghĩa là một

tập các chuỗi (string) được xây dựng dựa trên một bảng chữ cái (alphabet), chúng

được ràng buộc bởi các luật (rule) hoặc văn phạm (grammar) được định nghĩa trước. Bảng chữ cái là tập hữu hạn các kí tự quy ước11.

Giả sử có một bảng chữ cái ∑ = {a, b} và kí hiệu L là ngôn ngữ, ‖∑‖ là số ký

tự của ∑, ‖∑‖ > 0 và ‖∑‖ ∈ 𝑁. Như vậy, ta có thể định nghĩa một số ngôn ngữ trên

bảng chữ cái ∑ như sau:

L1 = {aa, aaa} ; L2 = {aba, aab} ; L3 = {ab, ba, aabb,..., aaabbb,...} …

Lý thuyết ngôn ngữ hình thức còn được ứng dụng trong xây dựng ngôn ngữ

lập trình. Trong lý thuyết độ phức tạp tính toán (Computational complexity theory),

các vấn đề quyết định (decision problems) được định nghĩa như là các ngôn ngữ hình

thức, các lớp độ phức tạp (complexity classes) được xác định là tập của những ngôn

ngữ hình thức. Trong toán học, cú pháp của các hệ thống tiên đề biểu diễn bằng ngôn

ngữ hình thức.

Các mức tiếp cận ngôn ngữ tự nhiên và ngôn ngữ hình thức: Các tầng mức

ngôn ngữ tự nhiên (và ngôn ngữ hình thức) bao gồm từ vựng, cú pháp ngữ nghĩa và

ngữ dụng học. Tầng mức từ vựng (kí tự, từ, cụm từ, chữ, câu...) tương đồng như bảng

10 https://vi.wikipedia.org/wiki/Ngôn_ngữ_tự_nhiên 11 Theo https://vi.wikipedia.org/wiki/Ngôn_ngữ_hình_thức

chữ cái trong ngôn ngữ hình thức. Từ vựng học là bộ môn nghiên cứu từ vựng của

ngôn ngữ: nghiên cứu cấu tạo từ, nguồn gốc, ý nghĩa từ vựng… Mức ngữ nghĩa nói

đến nghĩa thực, nghĩa đen, nghĩa bóng, rộng hay hẹp, đơn nghĩa hay đa nghĩa... Ngữ

nghĩa học là chuyên ngành nghiên cứu về ý nghĩa, tập trung vào mối quan hệ giữa cái

biểu thị, biểu tượng và ý nghĩa của chúng. Ngữ dụng học nghiên cứu về cách làm sao

ngữ nghĩa lại được chuyển tải qua không chỉ cấu trúc và hiểu biết ngôn ngữ (ngữ

pháp, từ vựng...) của người nói và người nghe, mà còn qua cả ngữ cảnh của phát ngôn,

cùng với những hiểu biết có từ trước đó liên quan tới chủ đề, ý đồ được suy ra của

người nói, và các yếu tố khác.

1.1.4. Xử lý ngôn ngữ tự nhiên

XLNNTN [7] là một nhánh của lĩnh vực trí tuệ nhân tạo, Artificial Intelligence

(AI) [39]. Theo [90], XLNNTN là một trong những phần khó nhất vì nó liên quan

đến việc phải hiểu ý nghĩa ngôn ngữ. Trong NNTN nói chung, một từ thường có nhiều

hơn một ý nghĩa. Sự đa nghĩa của từ không ảnh hưởng quá lớn trong giao tiếp hàng

ngày bởi khả năng xử lý tốt ngôn ngữ của con người trong một ngữ cảnh giao tiếp,

mặc dù vẫn có những biểu hiện hiểu lầm hay mơ hồ ngữ nghĩa của từ: đây là hiện

tượng nhập nhằng trong ngôn ngữ tự nhiên. Có 5 bước XLNNTN [7][90]:

Phân tích hình thái: Trong bước này, từng từ sẽ được phân tích và các ký tự không phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ12. Trong tiếng Anh và

nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách. Trong tiếng

Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ.

Phân tích cú pháp: Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự

liên kết giữa các từ này. Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm.

Thông thường, các ngữ đoạn văn phạm này được biểu diễn bằng dạng cây phân tích

cú pháp với: Ngôn ngữ được đặc tả bởi các luật sinh; Phân tích cú pháp dựa vào luật

sinh để xây dựng cây phân tích cú pháp.

Phân tích ngữ nghĩa: Thêm ngữ nghĩa vào các cấu trúc được tạo ra bởi bộ

phân tích cú pháp. Một phần quan trọng trong giai đoạn phân tích ngữ nghĩa là kiểm

12 https://vi.wikipedia.org/wiki/ Xử_lý_ngôn_ngữ_tự_nhiên

tra kiểu (type checking) và ép chuyển đổi kiểu.

Tích hợp văn bản: Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào

những câu đứng trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau.

Phân tích thực nghĩa: Cấu trúc thể hiện điều được phát ngôn sẽ được thông

dịch lại để xác định nó thật sự có nghĩa là gì.

Ranh giới giữa 5 bước xử lý này là rất mong manh, có thể được tiến hành từng

bước một, hoặc cùng lúc - tùy thuộc vào giải thuật và ngữ cảnh cụ thể 13.

Những bài toán xử lý ngôn ngữ tự nhiên tiêu biểu: Các nhà nghiên cứu đã

tổng hợp đưa ra nhóm những bài toán tiêu biểu trong XLNNTN [7][56]:

Nhận dạng tiếng nói (speech recognition): Tiếng nói tự nhiên của con người

được máy nhận dạng chuyển thành văn bản tương ứng.

Tổng hợp tiếng nói (speech synthesis): Từ một văn bản tự động tổng hợp thành

tiếng nói.

Nhận dạng chữ viết (optical character recognition): Từ một văn bản trên giấy,

nhận biết từng chữ cái và chuyển chúng thành một tập tin văn bản.

Tóm tắt văn bản (text summarization): Tóm tắt một văn bản dài thành một văn

bản ngắn hơn nhưng vẫn chứa những nội dung thiết yếu nhất tóm lược văn bản.

Tìm kiếm thông tin (information retrieval): Đặt câu hỏi và chương trình tự tìm

ra nội dung phù hợp nhất từ một nguồn rất nhiều tập tin văn bản hay tiếng nói...

Dịch máy (machine translation): Đó là chương trình dịch từ ngôn ngữ này

sang ngôn ngữ khác.

Trích chọn thông tin (information extraction): Từ một nguồn nhiều tập tin văn

bản hay tiếng nói, tìm ra những đoạn bên trong một số tập tin liên quan đến một vấn

đề (câu hỏi) ta cần biết (trả lời).

Phát hiện tri thức và khai phá dữ liệu (knowledge discovery and text data

mining): Từ nhiều tài liệu khác nhau phát hiện ra tri thức mới; mô phỏng quá trình

học tập, khám phá khoa học của con người; đang trong giai đoạn đầu phát triển.

Các bài toán tiêu biểu xử lý ngôn ngữ tự nhiên trong các lĩnh vực nêu trên đều

gặp phải vấn đề xử lý dữ liệu là CVT trong kho ngữ liệu. CVT ẩn chứa, chuyển tải

13 https://vi.wikipedia.org/wiki/ Xử_lý_ngôn_ngữ_tự_nhiên

ngữ nghĩa, nội dung rộng mở, đa nghĩa và tất yếu gặp phải vấn đề mơ hồ, nhập nhằng

ngữ nghĩa. Do vậy, để xử lý trọn vẹn vấn đề, các bài toán tiêu biểu nêu trên không

thể không đặt ra vấn đề xem xét xử lý những dữ liệu CVT liên quan.

1.1.5. Vấn đề xử lý tiếng Việt

Một số kết quả xử lý tiếng Việt: Đến nay, một số bài toán xử lý tiếng Việt

(XLTV) đã được nghiên cứu và đạt được một số kết quả nhất định:

Bài toán mã hóa Unicode tiếng Việt: Hiện đã có bộ gõ Unikey, bộ gõ Vietkey,

bộ gõ WinVNKey… đưa vào sử dụng thành công, bộ chữ tiếng Việt đưa vào bảng

mã Unicode, chọn Unicode cho bảng mã chuẩn tiếng Việt. Tách từ tiếng Việt: Đề tài

“Nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản

tiếng Việt” [22] đã nghiên cứu phương pháp tách từ WFST (Weighted Finite State

Transducer) của tiếng Anh, áp dụng cho tiếng Việt. Phương pháp này vẫn chưa khử

hoàn toàn sự nhập nhằng tiếng Việt. Công trình nghiên cứu các phương pháp tách từ

trong tiếng Anh và tiếng Trung Quốc áp dụng cho tiếng Việt [54] đã tiếp tục và đang

được nghiên cứu, bổ sung và hoàn thiện phương pháp tách từ tiếng Việt. Ngoài ra còn

có thêm nhiều công trình nghiên cứu: Công cụ tách từ JVNSegmenter [51],

vnTokenizer, ứng dụng phương pháp Pointwise vào tách từ tiếng Việt [24]… Xây

dựng kho ngữ liệu tiếng Việt: Trung tâm từ điển học Vietlex đi đầu trong xây dựng

kho ngữ liệu (KNL) tiếng Việt từ năm 1998 đến nay; kết quả, KNL tiếng Việt chứa

khoảng 100 triệu âm tiết, được thu thập từ nhiều nguồn dữ liệu khác nhau. Vietlex sử

dụng chương trình vnTokenizer 4.11 để tách từ cho văn bản, các văn bản chứa trong

đó đã được tách từ; được tổ chức theo các lĩnh vực [86]: ngôn ngữ và văn học, lịch

sử, khoa học xã hội, tự nhiên, nghệ thuật…

Nhiều kết quả nghiên cứu sâu hơn như: Xây dựng kho ngữ liệu Việt-Ê Đê, dựa

trên mô hình hợp nhất nguồn dữ liệu từ điển giấy Việt-Ê Đê và Ê Đê-Việt [12]. Đề

tài “Xử lý văn bản tiếng Việt” đã xây dựng nguồn tài nguyên cho tiếng Việt đạt kết

quả [9]: Từ điển tiếng Việt có khoảng 35.000 từ, với nhiều thông tin hình thái,

ngữ pháp, ngữ nghĩa dùng cho XLNNTN; kho ngữ liệu song ngữ Anh - Việt với

80.000 cặp câu Kinh tế - Xã hội, 20.000 cặp câu Tin học, 70.000 câu đã được tách từ,

10.000 câu đã được gán nhãn từ loại và 10.000 cây cú pháp. Các nghiên cứu [9], [10],

[12], [86] cùng với nhiều công trình khác đã bước đầu xây dựng các KNL tiếng Việt,

được chia sẻ tham khảo, làm cơ sở nghiên cứu XLNNTN tiếng Việt.

Dịch máy tiếng Việt: Phần mềm EVTRAN là phần mềm dịch tự động đầu tiên

do người Việt xây dựng. Phiên bản EVTRAN 2.0 chỉ dịch từ tiếng Anh sang tiếng

Việt. Website Vidct14 là dịch vụ trực tuyến đầu tiên dịch tự động Anh-Việt. Vdict đã

sử dụng, kế thừa EVTRAN cùng với Google Translation để giải quyết bài toán này,

tuy nhiên còn hạn chế: khi dịch từ Anh sang Việt và ngược lại thì Vdict cho ra cả hai

kết quả, không hỗ trợ dịch chuyên ngành.

Ngoài các kết quả đang chú ý nêu trên, còn có các công trình nghiên cứu khác

như: xử lý tiếng nói cho tiếng Việt của Viện CNTT và Trung tâm nghiên cứu quốc tế

Thông tin đa phương tiện, truyền thông và ứng dụng (MICA) của trường ĐHBK

Hà Nội; các đề tài nghiên cứu ở một số trường ĐH (ĐHBK và ĐH Khoa học tự nhiên

HCM, ĐHBK Đà Nẵng, ĐHBK và ĐH Khoa học tự nhiên Hà Nội,…)

Xu thế và triển vọng trong xử lý tiếng Việt

Theo nhận định của nhiều chuyên gia [9][10][12], cho đến nay, hầu hết các kết

quả đạt được trong XLTV chủ yếu tập trung vào xây dựng ứng dụng cho người dùng

đầu cuối; các kết quả nghiên cứu đa số chỉ được xây dựng thử nghiệm và kiểm tra

trên tập ngữ liệu nhỏ, ít đề cập đến hạ tầng cơ sở cho xử lý ngôn ngữ như từ điển

dùng cho máy, các kho ngữ liệu. XLTV là hướng nghiên cứu có tầm quan trọng rất

lớn đối với sự phát triển và ứng dụng CNTT tại Việt Nam. Để XLTV có thể phát triển

và trong tương lai bắt kịp thế giới, cần xây dựng môi trường khai thác, xử lý tiếng

Việt về tổng thể, về từng vấn đề, từng nhánh hay từng bài toán nghiên cứu. Thông

qua những môi trường này, các nhóm nghiên cứu có thể cộng tác và chia xẻ nguồn

tài nguyên, công cụ xử lý tiếng Việt, trao đổi thông tin trong cộng đồng như hội nghị,

hội thảo… để đối sánh, kiểm chứng, kế thừa kết quả, từ đó phát triển và đạt đến kết

quả mới có giá trị hơn, có ý nghĩa khoa học và ứng dụng nhiều hơn nữa.

Hiện nay, Việt Nam đã và đang xây dựng một ngành công nghiệp nội dung số

phong phú, đa dạng. Trong đó có nhiều sản phẩm về giáo dục trực tuyến, giải trí trực

14 Theo https://vdict.com/

tuyến, truyền thông, nội dung số cho thiết bị di động... [87]. Đây cũng chính là xu

hướng và triển vọng trong XLTV. Vì thế, XLTV cần phải có một cộng đồng nghiên

cứu với sự tham gia của các chuyên gia về ngôn ngữ tiếng Việt, về lĩnh vực xử lý

ngôn ngữ trong CNTT, các doanh nghiệp, các nhà quản lý và cả người sử dụng đầu

cuối. Rõ ràng, để giải các bài toán XLTV không thể trông chờ vào các chuyên gia,

các nhà nghiên cứu nước ngoài, mà phải do chính người Việt giải quyết.

1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT

1.2.1. Ngữ nghĩa và ngữ nghĩa học

Ngữ nghĩa: Ngữ nghĩa (meaning), hay nghĩa của từ là những liên hệ được xác

lập trong nhận thức của con người giữa từ với những cái mà từ chỉ ra (những cái mà

từ làm tín hiệu cho chúng). Nghĩa của từ không tồn tại trong sự vật hiện tượng, không

tồn tại trong ý thức, bộ óc con người. Nghĩa của từ tồn tại trong từ, nói rộng ra là tồn

tại trong hệ thống ngôn ngữ [30].

Từ vựng: Vựng có nghĩa là “sưu tập, tập hợp”, từ vựng là tập hợp từ của ngôn

ngữ. Từ vựng là tập hợp từ và các đơn vị tương đương từ của ngôn ngữ. Từ là đơn vị

cơ bản của từ vựng, là đơn vị nhỏ nhất, độc lập về nghĩa và hình thức [30]. Biến thể

từ vựng - ngữ nghĩa: Cùng một từ (cùng cách viết, phát âm) có thể có một nghĩa duy

nhất; nhưng trong ngữ cảnh khác nhau, có nhiều nghĩa khác nhau.

Phân biệt nghĩa (meaning) và ý nghĩa (sense): Nghĩa của từ khác với sự hiểu

biết của con người về ý nghĩa của từ. Sự hiểu biết về ý nghĩa của từ tồn tại trong ý

thức con người. Nghĩa của từ tồn tại trong ngôn ngữ. Nghĩa của từ là quan hệ của từ

với cái gì đó nằm ngoài bản thân nó 15...

Ngữ nghĩa học: Theo [30], cho đến nay, khái niệm ‘ngữ nghĩa học’ vẫn chưa

được hiểu một cách thống nhất. Thuật ngữ này vốn bắt nguồn từ chữ ‘sēmantiká’

trong tiếng Hy Lạp, được dùng chủ yếu để chỉ lĩnh vực khoa học nghiên cứu về ý

nghĩa của các từ, mệnh đề, câu, kí hiệu, các biểu tượng. ‘Ngữ nghĩa học’ có những

tên gọi khác nhau, tiếng Anh: semantics (semantyka), semiology (semiologia),

15 Theo: Nguyễn Thiện Giáp, Phân biệt nghĩa và ý nghĩa trong ngôn ngữ học hiện đại, Tạp chí Khoa học ĐHQGHN: Nghiên cứu Nước ngoài, Tập 30, Số 3 (2014) 1-13

semiotics (semiotyka), semasiology (semazjologia).

Các nhân tố hình thành nghĩa của từ: Nghĩa của từ là những liên hệ giữa từ

với những cái mà từ chỉ ra (những cái mà từ làm tín hiệu cho chúng). Nhân tố tạo

TỪ - TRỪU TƯỢNG

Tư duy

Người dùng

Sự vật

Chức năng tín hiệu học

Hệ thống ngôn ngữ

thành nghĩa của từ, biểu thị trong tháp nghĩa hình học không gian theo [4] đã chỉ ra:

Hình 1.1. Mô hình tháp nghĩa

Theo [4], mối quan hệ giữa từ và sự vật hình thành nghĩa biểu vật; giữa từ và

khái niệm sẽ hình thành nghĩa biểu niệm; giữa từ với nhân tố người dùng sẽ hình

thành nghĩa phong cách, nghĩa liên hội, nghĩa biểu thái; giữa từ với các từ khác trong

hệ thống ngôn ngữ hình thành nên nghĩa cấu trúc; giữa từ với các chức năng của từ

sẽ hình thành các giá trị chức năng của từ. Các thành phần nghĩa trên gắn bó chặt chẽ

với nhau, là các phương diện khác nhau trong một thể thống nhất. Trọng tâm phân

tích, miêu tả của từ vựng - ngữ nghĩa học là nghĩa biểu niệm.

1.2.2. Phân tích nghĩa của từ

Ngữ cảnh và phân tích nghĩa của từ: Theo [17][30][31], ngữ cảnh là những

từ bao quanh hay đi kèm một từ, xác định về nghĩa từ đó. Có nhiều loại ngữ cảnh:

Ngữ cảnh lớn có thể bao gồm cả một đoạn văn. Ngữ cảnh nhỏ trong phạm vi một câu.

Ngữ cảnh hẹp là những kết hợp tối thiểu nào đó để xác định nghĩa của từ.

Nghiên cứu từ trong ngữ cảnh có thể phát hiện đặc điểm riêng của ý nghĩa mỗi

từ, sẽ phân biệt được các hiện tượng đa nghĩa, đồng âm. Ví dụ: từ “câu” đồng âm:

Chim câu trắng (bồ câu), câu cá. Nghiên cứu từ trong ngữ cảnh còn giúp làm sáng tỏ

bản chất nghĩa của hiện tượng tỉnh lược trong lời nói (bỏ bớt từ khi nói).

Phương pháp phân tích nghĩa của từ theo ngữ cảnh

Phương pháp phân tích ngữ cảnh của từ theo ngữ cảnh gồm các bước:

1. Tập hợp ngữ cảnh: Xác định ngữ cảnh của một từ trong các loại văn bản khác

nhau và tập hợp chúng lại.

2. Phân loại ngữ cảnh: Những ngữ cảnh cùng hiện thực hóa một nghĩa của từ

được xếp vào một nhóm ngữ cảnh cùng loại. Đây là công việc đặc biệt quan

trọng, sự chuẩn xác tạo điều kiện cho việc tách nghĩa chuẩn xác trong từ.

3. Phân tích nghĩa: Đối với các từ đơn, ta so sánh nó với các từ trong trường

nghĩa để phát hiện ra nét nghĩa. Đối với từ đa nghĩa, trước khi tiến hành bước

trên ta phải tách ra các nghĩa, xác định chính xác số lượng nghĩa trong từ, tìm

nghĩa gốc của từ, xác định và loại bỏ các nghĩa ngữ cảnh.

Từ nhiều nghĩa và quan hệ nghĩa trong từ vựng

Từ nhiều nghĩa là từ có hai nghĩa trở lên nhằm biểu đạt các đối tượng, khái

nhiệm khác nhau, đồng thời các nghĩa có mối liên hệ với nhau được sắp xếp theo một

tổ chức nhất định. Ví dụ "áo" có đa nghĩa: đồ mặc (áo người), bọc một số đồ dùng

(áo gối), lớp tráng bên ngoài đồ gốm...

Hiện tượng đồng âm là hiện tượng các từ giống nhau về võ ngữ âm nhưng

hoàn toàn khác nhau về nghĩa. Ví dụ "đồ" đồng âm nhưng có 7 nghĩa: Cụ đồ, đồ vật,

đồ lại nét vẽ, đày đi làm khổ sai… [34]. Phân biệt đồng âm với đa nghĩa: Đồng âm

là hiện tượng xảy ra giữa các từ, nhiều nghĩa là hiện tượng xảy ra trong một từ. Giữa

các nghĩa của những từ đồng âm hoàn toàn khác nhau không có mối liên hệ nào, trong

khi đó, từ đa nghĩa thường có một nghĩa gốc, các nghĩa còn lại phát sinh từ nghĩa gốc;

giữa các nghĩa của một từ nhiều nghĩa thường có một nét nghĩa chung, móc nối chúng

lại thành một kết cấu, và giữa các từ đa nghĩa có sự chuyển nghĩa.

1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa

Sự biến mất các từ ngữ trong từ vựng: Ngôn ngữ chỉ lưu giữ lại những yếu

tố hữu ích; những yếu tố thừa, không phù hợp với nhu cầu sử dụng sẽ bị loại bỏ. Sự

biến mất những từ ngữ tuân theo nguyên tắc này. Có hai nguyên nhân chính [31]:

Nguyên nhân trong ngôn ngữ: Từ biến mất do đã có một từ đồng nghĩa thay

thế, từ rơi rụng này; từ biến mất do biến đổi ngữ âm, ngữ âm cũ mất đi, ngữ âm mới

hình thành và thay thế. Từ ngữ gốc dần dần nhường chỗ cho từ rút gọn hơn, ví dụ "vô

tuyến" thay thế cho từ "vô tuyến truyền hình".

Nguyên nhân ngoài ngôn ngữ: Từ bị rơi rụng do đối tượng được từ gọi tên bị

mất đi, đó là các từ lịch sử. Ví dụ: khi Việt Nam không còn nhà nước phong kiến, các

từ "tuần phủ", "án sát"… sẽ dần bị rơi rụng.

Sự xuất hiện các từ ngữ mới trong từ vựng: Sự xuất hiện các từ ngữ mới để

thỏa mãn nhu cầu định danh các sự vật hiện tượng trong đời sống. Hai con đường tạo

thành từ ngữ mới theo [17][31]:

1. Cấu tạo từ mới bằng các chất liệu và quy tắc sẵn có trong ngôn ngữ dân

tộc; con đường hình thành từ mới này thông qua các phương thức:

a) Phương thức phức hợp: Hòa đúc hai từ sẵn có tạo nên từ mới, giữ lại

các yếu tố được coi là giá trị nhất về mặt ngữ nghĩa của cả hai từ để tạo

ra một đơn vị hoàn chỉnh. Ví dụ: "ngôn ngữ và văn học" => "ngữ văn".

b) Phương thức rút gọn: Phương thức rút gọn là phương thức tạo từ mới

bằng cách lược bớt một phần của đơn vị đó. Ví dụ: omnibus => bus (xe

buýt); xứ Thanh hóa => xứ Thanh.

c) Phương thức viết tắt: Phương thức ghép các con chữ (âm) ở đầu, cuối,

vị trí nào đó trong một nhóm từ với nhau để tạo nên từ mới. Ví dụ: Kiểm

tra chất lượng sản phẩm => KCS.

2. Vay mượn ngôn ngữ khác: Đây là quá trình tiếp nhận thêm từ ngôn ngữ

khác hình thành nên lớp từ vay mượn.

a) Lớp từ vay mượn gồm: từ ngoại lai (ăc quy, pho mát...), từ ghép lai (đài

ra đa, bom ba càng), sao phỏng cấu tạo từ ( ngôi sao - star).

b) Quá trình đồng hóa từ vay mượn: Từ ngữ vay mượn chịu sự biến đổi

theo quy luật ngôn ngữ tiếp nhận, là quá trình vay mượn các ngôn ngữ

chủ thể. Ví dụ: Đồng hóa về ngữ pháp (tiếng Pháp: double, bleu là tính

từ, chuyển sang tiếng Việt làm động từ: "đúp", "lơ").

Phương thức viết tắt xuất hiện các từ ngữ mới: Như trên đã đề cập, con

đường hình thành từ ngữ mới thông qua nhiều phương thức, cấu tạo nên từ ngữ mới

bằng các chất liệu và quy tắc sẵn có trong ngôn ngữ dân tộc, trong đó có phương thức

viết tắt [17][31]. Trong thực tế, CVT thường có hai dạng: Viết tắt tự tạo, ngẫu nhiên

và viết tắt theo quy luật. Viết tắt tự tạo, ngẫu nhiên thể hiện xu hướng "tắt hóa" khi

sử dụng viết chữ một cách tự nhiên của con người, là sự sáng tạo cách viết vốn rất

riêng tư, nhưng cũng có thể được phổ biến. Viết tắt theo quy luật chung là cách viết

tắt có sự nghiên cứu, sắp xếp, định dạng theo một quy luật nào đó.

Các phương thức biến đổi ngữ nghĩa: Phương thức biến đổi ý nghĩa của từ

là cách thức bổ sung nghĩa mới cho từ không kèm theo sự biến đổi về từ ngữ âm, làm

cho từ trở thành từ nhiều nghĩa. Các phương thức chủ yếu [31]: Phương thức hoán

dụ là phương thức làm biến đổi ý nghĩa của từ bằng cách lấy tên gọi của sự vật, hiện

tượng này để chỉ một sự vật, hiện tượng khác trên cơ sở mối quan hệ tất yếu giữa các

sự vật, hiện tượng ấy. Phương thức ẩn dụ cũng là phương thức biến đổi ý nghĩa của

từ bằng cách lấy tên gọi của sự vật, hiện tượng này để chỉ sự vật, hiện tượng khác

trên cơ sở của sự giống nhau về một khía cạnh nào đấy giữa hai sự vật hay hiện tượng

ấy. Ngoài ra, còn có phương thức biến đổi ngữ nghĩa giữ tên gọi cũ để chỉ những sự

vật, hiện tượng hay khái niệm mới hoặc đã thay đổi.

Nguyên nhân biến đổi ý nghĩa của từ (chuyển nghĩa) thường rất phức tạp, đa

dạng. Chuyển nghĩa do sự kiêng kỵ: Hiện tượng này không chỉ tạo nên sự biến âm mà

là nguyên nhân của sự chuyển nghĩa. Chuyển nghĩa do nhu cầu giao tiếp: Các diễn

đạt sâu sắc, ấn tượng trong câu thơ "sáu tư tuổi còn xuân chán", làm cho từ "xuân"

chuyển nghĩa thành "thuộc về tuổi trẻ, thời tươi đẹp". Chuyển nghĩa do môi trường

sử dụng từ: Ví dụ từ "Sở Khanh" lúc đầu chỉ là nhân vật trong Truyện Kiều, nay sử

dụng rộng rãi chỉ những đàn ông đểu giả, lừa lọc.

1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt

Nhập nhằng trong ngôn ngữ học

Bách khoa toàn thư mở Wikipedia nêu khái niệm [83]: Nhập nhằng trong ngôn

ngữ học là hiện tượng thường gặp, trong giao tiếp hàng ngày con người ít để ý đến

nó bởi vì họ xử lý tốt hiện tượng này. Nhưng trong các ứng dụng liên quan đến xử lý

ngôn ngữ tự nhiên khi phải thao tác với ý nghĩa từ vựng mà điển hình là dịch tự

động nhập nhằng trở thành vấn đề nghiêm trọng…

Ví dụ, trong một câu cần dịch có xuất hiện từ "đường" như trong câu "ra chợ

mua cho mẹ ít đường" vấn đề nảy sinh là cần dịch từ này là road hay sugar, con người

16 https://vi.wikipedia.org

xác định chúng khá dễ dàng căn cứ vào văn cảnh nhưng với máy tính thì không, rất khó khăn để tìm các thuật toán hữu hiệu cho các nhà lập trình16.

Một số hiện tượng nhập nhằng

Nhập nhằng ranh giới từ: Trong tiếng Anh việc xác định ranh giới từ khá dễ

dàng, mỗi từ riêng lẻ mang trọn vẹn một nghĩa, ranh giới của chúng được xác định

thông qua khoảng trắng. Tiếng Việt là ngôn ngữ đơn lập nên từ vựng chủ yếu là các

từ ghép vì thế khoảng trắng không phải luôn là ranh giới chính xác.

Nhập nhằng từ đa nghĩa: Bất cứ ngôn ngữ nào cũng có từ đa nghĩa, nguyên

nhân là vì rất nhiều khái niệm có các sắc thái ý nghĩa tuy không hoàn toàn trùng khớp

nhau nhưng lại có nhiều nét tương đồng. Như từ "ăn" trong "ăn uống" và "ăn cướp"

vừa có những nét nghĩa giống và khác nhau, từ “ăn” có đến 12 nghĩa [34].

Nhập nhằng từ đồng âm (đồng tự): Hai từ đồng âm với nhau nghĩa là hai từ có

âm giống nhau nhưng mang nghĩa khác nhau, còn đồng tự là hai từ về mặt ký tự là

giống nhau nhưng nghĩa khác nhau. Do đặc điểm của tiếng Việt, từ đồng âm cũng

thường là từ đồng tự; ở ngôn ngữ khác hai hiện tượng này không trùng khớp nhau.

Nhập nhằng từ loại: Từ loại là một yếu tố quan trọng trong việc xác định nghĩa

chính xác của từ và sắp xếp các từ thành câu hoàn chỉnh trong dịch tự động; nghĩa là

từ loại giúp khử nhập nhằng, nhưng chính bản thân nó trong một số trường hợp cũng

nhập nhằng. Ngôn ngữ không biến hình như tiếng Việt muốn xác định từ loại yêu cầu

thuật toán phức tạp hơn, bắt buộc phải phân tích cú pháp; ngay trong ngành ngôn ngữ

vẫn chưa có sự thống nhất về phân loại từ loại cho tiếng Việt.

Xử lý nhập nhằng trong tiếng Việt

Hiện tượng nhập nhằng xảy ra khi: Một từ thường có nhiều hơn một nghĩa,

gây hiểu lầm, mơ hồ ngữ nghĩa của từ. Từ đa nghĩa là một trong các nguyên nhân

gây nhập nhằng trong trong tìm kiếm văn bản, tra cứu tài liệu. Tác động của nhập

nhằng làm cho người đọc, người viết, hiểu lầm, gặp sai sót, hay bế tắc.

Xử lý nhập nhằng nghĩa của từ được nhiều nhà nghiên cứu XLNNTN quan

tâm đến, là vấn đề xuất hiện sớm và lâu đời nhất của lĩnh vực này (những năm 40 của

thế kỷ 20), đóng vai trò quan trọng, làm cơ sở cho nhiều bài toán XLNNTN khác…

Để khử nhập nhằng nghĩa của từ, các nhà nghiên cứu phải sử dụng nhiều thông tin

của ngữ cảnh ở nhiều cấp độ (hình thái, ngữ pháp, ngữ nghĩa,...) cùng với các luật suy

diễn ngữ nghĩa. Các luật suy diễn này tạo thành có thể từ thủ công hoặc từ quá trình

bán tự động - tự động hóa, hoặc có sự phối kết hợp giữa chúng [39]. Luật suy diễn

xây dựng bằng tay đòi hỏi công sức rất lớn và không thể bao quát hết mọi trường hợp.

Vì thế nhiều nhà nghiên cứu đã đưa ra các mô hình cho phép tự động xây dựng các

luật dẫn như thế bằng cách áp dụng phương pháp học chuyển đổi trên một tập ngữ

liệu lớn nào đó.

Trong tiếng Anh, có nhiều công trình nghiên cứu giải quyết nhập nhằng ngữ

nghĩa đã được thực hiện. Hai hướng tiếp cận cơ bản17 đã được nghiên cứu: Giải quyết

nhập nhằng dựa trên thông tin trong một ngữ cảnh cụ thể và giải quyết nhập nhằng

dựa trên những thông tin thu được trong việc học từ vài tập ngữ liệu học [67]. Sau đó

có nhiều công trình dùng kết hợp cả hai phương pháp này đã được thực hiện [68], sử

dụng các mô hình thống kê các loại đồng nghĩa để xác định nghĩa của các từ tiếng

Anh khử nhập nhằng. [71] nghiên cứu chuyên sâu so sánh hiệu suất nhận dạng CVT các hệ thống XLNNTN (MetaMap, MedLEE, cTAKES)18 về CVT trong các văn bản

tóm tắt y học, có thể để trích xuất thông tin từ CVT văn bản, tạo điều kiện chăm sóc

bệnh nhân tốt hơn. [72] nghiên cứu khử nhập nhằng CVT trong y học sử dụng mạng

Neural Word Embedding. Nghiên cứu [73] nhận diện CVT sử dụng phương pháp học

máy Machine Learning. [68] dùng phương pháp dựa hệ thống mạng từ Word Sense Disambiguation (WSD)19 nhằm quy gán nghĩa thích hợp với ngữ cảnh (nghĩa là các

thành viên của loạt từ đồng nghĩa) cho từ trong một văn bản y học. Còn có công trình

nghiên cứu CVT trong ngôn ngữ tiếng Trung, tiếng Do Thái như [69][57], nhận diện

CVT dựa vào thông tin ngữ cảnh văn bản, sử dụng phương pháp máy học để nhận

dạng CVT bởi thuộc tính nhất quán trong văn bản.

Trong tiếng Việt, gần đây có nhiều công trình nghiên cứu: Xử lý nhập nhằng

tiếng Việt và ứng dụng trong tra cứu tài liệu [42]; xử lý nhập nhằng trong tìm kiếm

văn bản tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn

17 Wilks, Stevenson, Sense Tagging: Semantic Tagging with a Lexicon. In Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C. 1997 18 MetaMap: Hệ thống NLP dùng để lập bản đồ ngôn ngữ y sinh thống nhất; MedLEE: NLP thiết kế dành cho ghi chú X-quang (radiology), báo cáo bệnh lý, ghi chú xuất viện; cTAKES: NLP kiến thức về bệnh tật. 19 Mạng từ là từ điển máy tính tiếng Anh được sử dụng phổ biến để khử nhập nhằng nghĩa từ.

bản [43], giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt [6].

1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG

1.3.1. Chữ viết tắt là gì

Trong cuộc sống, con người luôn có xu hướng rút ngắn thời gian trong thể hiện

mọi hành động, suy nghĩ của mình để chuyển tải lượng thông tin ngày càng lớn. Đó

là xu hướng "tắt hóa" mọi thứ có thể (hình 1.2): cử chỉ (làm tắt, gõ tắt), hành động

(đi tắt, về tắt, nói tắt, viết tắt), định nghĩa (phím tắt, ngõ tắt, nút tắt), đặt ra thuật ngữ

khác (tóm tắt văn bản, vắn tắt, CVT)...

Từ “tắt“ có các nghĩa chính, đầy đủ theo từ điển [34]: Làm tắt (không sáng),

làm mất (niềm tin, nụ cười), làm ngừng (chạy), đi tắt: (đi ngang về tắt, đường ngang

ngõ, lối) tắt; Nói hay viết tắt: cắt bỏ bớt âm, hay cắt bỏ bớt chữ. Ví dụ: nói vắn tắt,

nói tóm tắt; viết vắn tắt, viết tóm tắt, bản tóm tắt, ký tắt. Phạm vi nghiên cứu ở luận

án này từ “tắt” với nghĩa chủ yếu của cụm từ chữ viết tắt hay từ viết tắt.

Thuật ngữ “chữ viết tắt” (tiếng Anh là abbreviation) chưa có mặt trong những

từ điển tiếng Việt thông dụng có mặt trên thị trường20 hiện nay, kể cả trong cuốn “Từ điển Bách khoa Việt Nam” tập 1 (vần A-Đ21), nhưng lại rất quen dùng trong cuộc

sống. Sử dụng công cụ tìm kiếm Google, chúng ta có thể tìm thấy rất nhiều trang web

sử dụng thuật ngữ này.

20 Từ điển song ngữ Việt-Anh, Bùi Phụng, nhà xuất bản Thế giới, năm 1998. 21 Từ điển Bách khoa Việt Nam biên soạn, Hà Nội, năm 1995.

Hình 1.2. Xu hướng "tắt hóa"

Từ điển mở Wiktionary22 đã giải thích viết tắt “là cách viết ngắn gọn hơn cách

dài nhưng thông dụng, nhiều người hiểu. Ví dụ như VN là cách viết tắt cho "Việt

Nam”. Từ điển online như [80][81][82] cũng không có giải thích hoặc giải thích

không đầy đủ cho thuật ngữ “chữ viết tắt”. Chúng ta hay gặp CVT ở dạng “từ viết

tắt” hay “từ tắt” (acronym, Abbreviations: a short form of a word or phrase).

Chữ viết tắt

Chữ viết tắt là cách viết ngắn gọn nhằm mục đích tạo ra chữ viết khác chữ viết

thông thường, được sử dụng khi phải viết lặp đi lặp lại nhiều lần một cụm từ, một

cụm câu hay một đoạn văn bản nào đó, nhằm tiết kiệm thời gian, công sức mà vẫn

thoả mãn được yêu cầu thể hiện nội dung và tiện lợi khi sử dụng [30][34].

Trong ứng dụng CNTT, nhất là chương trình ứng dụng bộ gõ tiếng Việt, việc

gõ tắt được các nhà lập trình ứng dụng chú trọng23; trong đó có phương pháp mới

“Tốc ký chữ Việt” [47], cách sử dụng chữ Việt nhanh [48], đưa ra cách thức gõ tắt

tích hợp trong bộ gõ WinVNKey [75], tiết kiệm hơn 40% số phím phải gõ.

1.3.2. Lịch sử hình thành chữ Quốc ngữ

Sự hình thành chữ Quốc ngữ là một quá trình, từ những thập kỉ đầu của thế kỉ

XVII, với sự tham gia của nhiều giáo sĩ Dòng Tên, trong sự cộng tác và đóng góp của

nhiều người Việt [38].

Khoảng thời gian từ năm 1620, các giáo sĩ bắt đầu ghi chép bằng chữ Quốc

ngữ, đến năm 1651- thời gian xuất bản Từ điển Việt Bồ La và Phép giảng 8 ngày

được xem là thời kì đầu hình thành chữ Quốc ngữ [5]. Theo [5], trong thời kỳ đầu thế

kỷ XVII, người Việt Nam dùng chữ Nho là chính, còn chữ Nôm là phụ thuộc. Chữ

viết Quốc ngữ ngày nay là một kiểu chữ đã được nhiều Linh mục Dòng Tên ở Việt

Nam (với sự công tác của một số thầy giảng Việt Nam) vào thế kỷ thứ XVII tạo ra.

Họ đã dùng mẫu tự La Tinh rồi dựa vào phần nào của của chữ Bồ Đào Nha, Ý và các

dấu từ tiếng Cổ Hy Lạp, để làm thành chữ Quốc ngữ đang dùng ngày nay. Khi các

nhà truyền giáo đến Đàng Trong, họ đã bắt đầu áp dụng dần dần mẫu tự La Tinh cho

22 http://vi.wiktionary.org/wiki/ 23 http://chuvietnhanh.sourceforge.net, Trần Tư Bình.

tiếng Việt [5][38]. Các nhà nghiên cứu chia thời kì hình thành chữ Quốc ngữ thành 2

giai đoạn: Giai đoan 1- từ 1620 đến 1626 và giai đoạn 2 từ 1631 đến 1648. Nhà

truyền giáo Alexandre de Rhodes được coi là người có công nhiều trong việc định

chế chữ Quốc ngữ qua cuốn từ điển Dictionarium Annamiticum Lusitanum et

Latinum in năm 1651 tại Roma24. Như vậy, sự hình thành chữ Quốc ngữ là một quá

trình lịch sử, với sự tham gia của nhiều giáo sĩ Dòng Tên, sự cộng tác và đóng góp

của nhiều người Việt.

1.3.3. Tìm hiểu về lịch sử chữ viết tắt

Từ thuở xa xưa, con người đã biết cách sử dụng từ viết tắt hay ký hiệu để khắc

chạm trên đá, trên gỗ…, nhằm gợi nhớ, tiết kiệm thời gian, vật liệu lưu trữ. CVT được

dùng phổ biến ở nước ngoài từ rất sớm. Chẳng hạn SPQR viết tắt cho cụm từ “Senatus

Populusque Romæ” (Cộng hoà Đế chế La Mã, hay Hội đồng Nhà nước nhân dân

thành La Mã) đã có gần 2.000 năm lịch sử [61], QED viết tắt cho cụm từ “Quod Erat

Demonstrandum” (điều đã được chứng minh)25.

CVT có nguồn gốc từ tiếng Hy Lạp cổ [61], acronym gồm akron (cuối cùng,

hay đầu mút) và onoma (tên hay tiếng). Một số từ điển tiếng Anh giải thích từ viết

tắt là cách thức tạo ra một dạng từ mới ngắn gọn hơn bằng cách dùng những chữ cái

đầu (initial letters), cuối hay từ nào đó trích ra từ các từ hay cụm từ đã có. Chẳng hạn:

UNESCO viết tắt từ “United Nations Educational, Scientific and Cultural

Organization” (Tổ chức Giáo dục, Khoa học và Văn hoá của Liên Hiệp Quốc)…

Ở Việt Nam, mặc dù CVT tiếng Việt đã được xuất hiện từ rất sớm và đã có

một số nghiên cứu CVT tiếng Việt [7][13] [29], nhưng chưa có nghiên cứu nào đề

cập đầy đủ đến sự hình thành CVT.

Sự ra đời của chữ Nôm từ thế kỷ XIII26 của cha ông ta chính là một cách khác

để viết chữ Hán, thay thế chữ Hán vay mượn của phương Bắc [14][15]. Trong hệ

thống chữ Nôm, mỗi chữ Nôm cũng có dạng hình vuông, được tạo thành nhờ lắp ghép

các chữ Hán theo hình thức biểu âm, biểu ý, hoặc viết lược nét, viết tắt. Chẳng hạn

24 Theo vi.wikipedia.org/wiki/Chữ_Quốc_ngữ#Lịch_sử 25 Tác phẩm “Ethica More Geometrico Demonstrata” - Nhà triết học Benedictus de Spinoza (1632-1677) 26 Theo https://vi.wikipedia.org/wiki/Chữ-Nôm

chữ Hán (cộng) viết bớt nét thành chữ Nôm (khạng), chữ Hán (vi) được

viết gọn thành chữ Nôm (làm). Khi chữ Quốc ngữ (tiếng Việt ngày nay) được

dùng phổ biến, CVT bắt đầu được sử dụng. Bút danh C.D. là tên hiệu Chương Dân

của Phan Khôi trên Đông Pháp Thời Báo năm 1928 [14]. Ngày nay, CVT tiếng Việt

được sử dụng ngày càng phong phú trong nhiều lĩnh vực khác nhau.

Nhiều tác giả quan niệm CVT tiếng Việt là một hiện tượng ngữ pháp [28] [29].

Theo GS. Nguyễn Tài Cẩn [27], “có kiểu nói tắt kiểu rút gọn lại một âm tiết chứ

không nói tắt bằng cách dựa vào những chữ cái đầu hay âm đầu. Những từ viết tắt

như VN (Việt Nam), HTX (hợp tác xã)… chỉ sử dụng thuần tuý trong văn bản”.

1.3.4. Sử dụng chữ viết tắt

Sử dụng chữ viết tắt trong cuộc sống hiện nay

Chữ viết tắt đã quen thuộc trong cuộc sống và được sử dụng phổ biến trong

hầu hết các hệ thống ngôn ngữ viết trên thế giới từ trước đến nay, kể cả tiếng Việt.

Hiện nay, chưa có những công trình thống kê một cách đầy đủ về CVT tiếng Việt

nhưng CVT đã được sử dụng phổ biến trên nhật báo, tạp chí, văn bản. Trên các trang

báo, tạp chí, ta thường thấy các CVT thông dụng như TƯ, TW (Trung ương), UBND

(Uỷ ban nhân dân), PTTH (Phổ thông trung học), có cả các CVT tiếng Anh như WTO

(World Trade Organization), WHO (World Health Organization)…

CVT còn có nhu cầu sử dụng khá lớn trong giao tiếp cộng đồng, trong lĩnh vực

tôn giáo, tín ngưỡng: BDH (Bài Dâng Hoa), BDR (Bài Dâng Rượu). CVT sử dụng

trong tên riêng như TCS (Trịnh Công Sơn), trong tiếng lóng [82], tiếng địa phương

như GATO (ganh ăn tức ở)… Hiện có cả một từ điển tiếng lóng tiếng Việt 27 trên

Internet với khá nhiều CVT, cụm từ viết tắt.

Chúng ta còn gặp CVT ở dạng rút gọn, tức là cụm từ hay đoạn văn bản cần

viết tắt đã cho được rút gọn một số ký tự, hay được trích, chọn hoặc được thay thế

một phần nào đó để ghép lại thành cụm các ký tự mới, tạo điều kiện thuận lợi hơn

trong viết và nói. Ví dụ trong tiếng Anh, mon, tue, wed… là tên viết tắt các ngày

trong tuần; trong tiếng Việt cũng dùng tên viết tắt để chỉ vùng địa lý, chẳng hạn xứ

27 Từ điển tiếng lóng: www.tudienlong.com

Thanh, xứ Nghệ, xứ Quảng; viết tắt chỉ cách gọi: cổ (cô ấy), ổng (ông ấy)... Từ khi

bùng nổ Internet, các ngôn ngữ viết nói chung đã được phát triển theo một hướng mới

nhờ NSD sử dụng rất nhiều CVT và dấu hiệu quy ước. Chẳng hạn trong tiếng Anh,

khi trao đổi bằng e-mail hay nhắn tin di động thường sử dụng IMHO để chỉ cụm từ

“in my humble opinion” (theo ý kiến nông cạn của tôi), các ký hiệu khôi hài như: ,

, U (you)…

Tóm lại, CVT vẫn tồn tại, sử dụng trong cuộc sống như là một phần không thể

thiếu được của tiếng Việt, được sử dụng ngày càng phổ biến và có xu hướng phát

triển mạnh.

Sử dụng chữ viết tắt ở một số chuyên ngành

Hầu như các lĩnh vực, chuyên ngành, việc sử dụng CVT như là một phần

không thể thiếu. Phân lớp CVT trong một số chuyên ngành để có thể vận dụng phân

loại trong việc xây dựng cơ sở dữ liệu đã ghi nhận các lĩnh vực chủ yếu như sau:

CNTT và truyền thông, Chính phủ, tổ chức chính trị xã hội, Khoa học công nghệ, kỹ

thuật, Quân sự, Y học, Giáo dục, Tài chính, thương mại, Tài nguyên môi trường, Tôn

giáo, Giao tiếp cộng động.

Trong Chính phủ, tổ chức chính trị xã hội, nhiều Bộ ngành có văn bản quy

định CVT, cách viết tắt. Bộ Nội vụ quy định: “Chữ viết tắt tên cơ quan, tổ chức ban

hành văn bản và chữ viết tắt tên các đơn vị trong mỗi cơ quan, tổ chức phải được quy

định cụ thể, bảo đảm ngắn gọn, dễ hiểu” 28, quy định rõ cách viết tắt các CVT về

quyền hạn như: “TM.”, “KT.”, “TL.”, “TUQ.” trong văn bản (điều 11, mục 1 của

Thông tư) 29. Trong lĩnh vực VT-CNTT: Hiện nay, đã có một số từ điển đã xuất bản

như: “Từ điển giải nghĩa thuật ngữ Viễn thông”, “Thuật ngữ viết tắt Viễn thông” [32],

từ điển CVT thường dùng trong y học [8], CVT thường dùng quốc tế và Việt Nam

[18][19], CVT các tổ chức kinh tế xã hội Việt Nam [35][36]; các xuất bản này đã

chọn lọc và giới thiệu hàng ngàn CVT. Tuy vậy chưa quan tâm đến sự hình thành, sự

biến đổi và ứng dụng CVT, nhất là vấn đề nhập nhằng ngữ nghĩa CVT.

Nhu cầu sử dụng CVT dạng mã hóa trong chuyên ngành viễn thông như: mã

28 Thông tư số 55/2005/TTLT-BNV-VPCP, 06/05/2005, thể thức và kỹ thuật trình bày văn bản 29 Thông tư số 01/2011/TT-BNV, 19/11/2011, hướng dẫn thể thức và kỹ thuật trình bày văn bản hành chính

hóa phần tử mạng lưới cáp đồng, cáp quang, mã hóa danh mục vùng miền, mã hóa và

viết tắt trong CSDL. Chuyên ngành này cũng tìm thấy các CVT xuất hiệu nhu cầu

trong một số ứng dụng Tin học như bộ gõ tiếng Việt, từ điển Tin học, Trang Chữ Việt

Nhanh [76] có các bài viết và đường dẫn liên quan đến “tốc ký và gõ tắt chữ Việt”

trong thời đại Internet30 [47][50]…

Trong lĩnh vực tài chính, thương mại: CVT ngày càng có nhu cầu sử dụng rộng

rãi, không thể thiếu nhất là thương hiệu, nhãn hiệu. Việc thành lập các CVT thương

hiệu, nhãn hiệu là một nhu cầu sử dụng thực tế, nhưng khó khăn đặt ra: Làm sao

chúng không bị trùng lặp (vì có thể vô tình/cố ý vi phạm, tranh chấp bản quyền),

những quy tắc thành lập CVT nào vận dụng, CSDL nào có thể tra cứu loại bỏ sự trùng

lặp, nhập nhằng?

Có thể nói, trong nhiều lĩnh vực khoa học - công nghệ, công nghiệp, muốn vận

hành, điều khiển một thiết bị, yêu cầu trước tiên phải hiểu các thuật ngữ viết tắt mô

tả về chúng, ý nghĩa chức năng mà chúng đảm nhận. Nhu cầu sử dụng CVT ngày

càng tăng khi khoa học, công nghệ càng phát triển, khi nền công nghiệp nội dung số

đang phát triển phong phú và đa dạng [87].

Sử dụng chữ viết tắt ở một số ngôn ngữ

Chữ viết tắt trong tiếng Pháp: Tiếng Pháp, chữ viết tắt (raccourcies, sigles) cũng

được dùng phổ biến31, có khoảng 17.000 CVT [51]. Cách viết tắt tương tự tiếng Anh.

Ví dụ: ONU = L’Organisation des Nations Unies; RDI = Le Réseau d’Information;

ADIBIPUQ = Association des directeurs de bibliothèques publiques du Québec;

EDF = Électricité de France (trường hợp đặc biệt khi có giới từ).

Chữ viết tắt trong tiếng Đức: Trong tiếng Đức (German), CVT (Akronyme,

Abkürzungswort) cũng được dùng phổ biến. Ghi nhận của các nhà nghiên cứu cho

biết có đến 50.000 CVT [51]. Cách thành lập các từ viết tắt thường sử dụng trong

tiếng Đức tương tự như tiếng Anh bằng cách nối các chữ đầu của cụm từ. Ví dụ như:

ZDF = Zweites Deutsches Fernsehen, GmbH = Gesellschaft mit beschraenkter

Haftung. CVT được thành lập bằng cách nối kết các âm tiết cũng được sử dụng trong

30 http://chuvietnhanh.sourceforge.net 31 http://www.translatum.gr/dictionaries/french-acronyms.htm

tiếng Đức, ví dụ: PLZ = Postleitzahl, KFZ = Kraftfahrzeug.

Chữ viết tắt trong tiếng Nga: Tiếng Nga (Russian) thuộc họ ngôn ngữ Xla-vơ

(Slavic language), dùng bảng chữ cái Xirin (cyrillic alphabet). Một số quốc gia cũng

dùng bảng chữ cái này như Bun-Ga-Ri, U-Crai-Na… Cách viết tắt trong tiếng Nga

tương tự như tiếng Anh. Ví dụ điển hình là cách nối các chữ đầu của cụm từ như:

КГБ viết tắt Коммите Государственной Безоласноти; МБДП viết tắt

Министерство Бумажной и Деревообрабатьгвающей Промьппленности, v.v...

1.3.5. Chữ viết tắt trong tiếng Việt

Như trên đã đề cập đến, CVT trong tiếng Việt được hình thành từ rất sớm, từ

thời điểm ra đời chữ Nôm Việt: khi mới hình thành chữ Nôm, yếu tố viết lược nét,

viết tắt được vận dụng để sáng tạo ra chữ Nôm. Khoảng thế kỷ XVII, chữ Quốc ngữ

(tức Việt ngữ Latin hóa) hình thành. Thời gian này các giáo sĩ Thiên Chúa giáo đến

Việt Nam để truyền đạo. Họ đã Latin hóa (romanize) ngôn ngữ của người Việt để

giúp họ học được nhanh chóng tiếng người Việt. Nhiều giáo sĩ cùng hợp tác với người

Việt đã sáng chế ra Việt ngữ Latin hóa mà ta gọi là chữ Quốc ngữ. Qua nhiều giai

đoạn thăng trầm, nó đã thay thế thành công chữ Nôm. Khi chữ Quốc ngữ được dùng

phổ biến, CVT bắt đầu được sử dụng.

CVT bắt đầu được dùng khá sớm trong chữ Quốc ngữ, nhiều văn bản viết tay

chữ Quốc ngữ ở thế kỷ XVII - XVIII lưu hành trong giới công giáo đã sử dụng nhiều

hình thức viết tắt, trong đó thường gặp là Đ.C.B. (Đức Chúa Blời), Đ.C. (Đức Chúa)

[37]. Dần dần, CVT sử dụng phổ biến: Cách viết tắt bút danh các nhà báo cùng thường

được sử dụng, ví dụ Bút danh C.D. (viết tắt từ tên hiệu Chương Dân) của Phan Khôi

trên Đông Pháp Thời Báo, ngày 01/05/1928 [14].

Chữ viết tắt trong ngôn ngữ dân tộc ít người: Việt Nam là một quốc gia đa

dân tộc, ngôn ngữ với 54 dân tộc, trong đó dân tộc Kinh chiếm khoảng 85,7%; 26

dân tộc đã có chữ viết, dân tộc còn lại chưa có chữ viết32. Chữ viết các dân tộc ít

người có quan hệ dòng họ với các ngôn ngữ khác ở Đông Nam Á [3]. Chẳng hạn,

tiếng Ê đê có quan hệ họ hàng với tiếng Melayu thuộc về chi Tây Indonesia của ngữ

32Số liệu Tổng điều tra năm 2009

hệ Nam Đảo. Tiếng Melayu chủ yếu đi theo con đường đa tiết hóa thì trái lại, tiếng

Ê đê lại biến đổi mạnh theo hướng đơn tiết hóa. Nói cách khác, tiếng Malay biến đổi

theo hướng "làm dài" từ, tiếng Ê đê biến đổi theo hướng "làm ngắn", "tắt hóa" từ,

như dẫn chứng hình 1.3 sau đây [3]:

Hình 1.3. Tắt hóa trong chữ viết dân tộc ít người

Tiếng Ê đê hiện nay có nhiều từ ngữ vay mượn, nhiều nhất là vay mượn của

tiếng Việt và các ngôn ngữ có tiếp xúc (tiếng Pháp, tiếng Anh).

Nhận xét chung về vấn đề chữ viết tắt

Từ những phân tích trên, luận án rút ra khi nghiên cứu lý thuyết và thực tiễn

sử dụng CVT:

1. Chữ viết tắt tiếng Việt cũng là một hướng làm biến đổi chữ viết tiếng Việt,

có thể được xem là cải tiến tự nhiên về chữ viết tiếng Việt.

2. Từ vựng của ngôn ngữ luôn biến đổi phát triển, trong đó phương thức viết

tắt, tạo lập các CVT tiếng Việt, làm xuất hiện các từ ngữ tiếng Việt mới.

Do đó, công việc tìm hiểu, lưu trữ và xây dựng các công cụ, khai thác CVT

tiếng Việt (được sáng tạo mới không ngừng, biến đổi nhanh chóng) cho chúng ta nhận

thấy được bước phát triển mới của NNTN trong kỷ nguyên số thời đại ngày nay [47].

Từ đó giúp ta hiểu sâu hơn về tính năng của ngôn ngữ, nhận thức được xu hướng phát

triển NNTN tiếng Việt trong tương lai.

1.4. NGỮ NGHĨA CHỮ VIẾT TẮT

1.4.1. Khái niệm ngữ nghĩa chữ viết tắt

Luận án sử dụng khái niệm ngữ nghĩa, hay nghĩa của từ để đưa ra khái niệm

ngữ nghĩa chữ viết tắt tiếng Việt dựa trên các đặc trưng của chúng.

Ngữ nghĩa chữ viết tắt: là những liên hệ được xác lập trong nhận thức của con

người giữa những cái mà CVT chỉ ra (những cái mà CVT làm tín hiệu cho chúng).

Nghĩa của CVT không tồn tại trong sự vật hiện tượng, không tồn tại trong ý thức, bộ

óc con người. Nghĩa của CVT tồn tại trong trong CVT, nói rộng ra là tồn tại trong hệ

thống ngôn ngữ mà trong đó CVT đã hình thành [30]. Sau đây là những đặc trưng

ngữ nghĩa CVT tiếng Việt:

1. Cùng một CVT có thể có một nghĩa duy nhất, nhưng có thể nhiều nghĩa khác

nhau trong ngữ cảnh khác nhau. Chẳng hạn KCS có nghĩa là "Kiểm tra Chất

lượng Sản phẩm", "Kinh Cầu Siêu" (trong lĩnh vực tôn giáo).

2. CVT cũng có thể có các phương thức biến đổi ý nghĩa tương tự như của từ: là

cách thức bổ sung nghĩa mới cho CVT không kèm theo sự biến đổi về từ ngữ

âm, làm cho CVT trở thành có nhiều nghĩa. Ví dụ, Dân ca Nam Bộ, nói “thôi”

nhưng người đọc luyến láy ra là "hoy", tạo ra CVT, cách nói "HOY đi!" thể

hiện sự thân mật; nghe như là sự từ chối, nhưng thật ra là đồng ý.

3. Yếu tố vay mượn CVT nước ngoài cũng làm cho ngữ nghĩa CVT tiếng Việt

càng phong phú, đa dạng; chẳng hạn chữ laser, ta thường nói là tia laser:

“Light Amplification by Stimulated Emission of Radiation” [94][95].

4. Ngữ nghĩa CVT có đặc trưng là chuyển tải ý nghĩa, chứa đựng lượng thông tin

lớn, có nhiều ngữ nghĩa khác nhau; người đọc, người nghe khó có thể suy luận

ngữ nghĩa theo nghĩa như từ vựng thông thường; nên mơ hồ, không rõ nghĩa,

hiểu nhầm thường xảy ra.

1.4.2. Biến đổi ngữ nghĩa chữ viết tắt

Biến đổi về số lượng chữ viết tắt: CVT có biến động theo hướng gia tăng số

lượng, ngày càng lớn do sự sản sinh liên tục CVT trong mọi ngôn ngữ, xuất hiện ngày

càng lớn CVT giống nhau, dẫn đến nhập nhằng, biến đổi ngữ nghĩa. Chẳng hạn, trang web tra cứu33 vào năm 2006 chữ CIA có 84 nghĩa khác nhau; đến nay, tìm thấy được

hơn 250 ngữ nghĩa khác cho CIA, tăng lên 3 lần.

Các phương thức biến đổi ngữ nghĩa chữ viết tắt: Dựa trên lý thuyết ngôn

ngữ về phương thức biến đổi ngữ nghĩa theo [31], ta đưa ra khái niệm phương thức

biến đổi ngữ nghĩa CVT. Đó là cách thức bổ sung nghĩa mới cho CVT không kèm

theo sự biến đổi về ngữ âm, làm cho CVT trở thành CVT nhiều nghĩa. Các phương

33 http://www.acronymfinder.com

thức chủ yếu mà các ngôn ngữ thường dùng để biến đổi ý nghĩa của CVT.

Hoán dụ là phương thức làm biến đổi ý nghĩa của CVT bằng cách lấy tên gọi

của sự vật, hiện tượng này để chỉ một sự vật, hiện tượng khác trên cơ sở mối quan hệ

tất yếu giữa các sự vật, hiện tượng ấy. Chẳng hạn, trong tiếng Việt, cách viết tắt một

chữ X, trong toán học thường có nghĩa là ẩn số phương trình, nhưng có khá nhiều

biến động ngữ nghĩa hoán dụ: thế hệ 6X, 7X … Ẩn dụ cũng là phương thức biến đổi

ý nghĩa của CVT bằng cách lấy tên gọi của sự vật, hiện tượng này để chỉ sự vật, hiện

tượng khác trên cơ sở của sự giống nhau về một khía cạnh nào đấy giữa hai sự vật

hay hiện tượng ấy. Chẳng hạn, trên mạng xã hội, lúc đầu các bạn trẻ xem chữ GATO

có nghĩa là “gà tồ” chỉ người ngu muội; nhưng nay có nhiều nghĩa khác: Bánh GATO:

bánh sinh nhật; GATO: “Ganh Ăn Tức Ở”.

Ngoài ra, còn có phương thức biến đổi ngữ nghĩa CVT: giữ tên gọi cũ để chỉ

những sự vật, hiện tượng hay khái niệm mới hoặc đã thay đổi. Ví dụ: Chữ viết tắt

HTX có nghĩa ban đầu là hợp tác xã (nông/công nghiệp), nay nhiều bạn trẻ hiểu và

sử dụng HTX như sự đóng góp đồng đều: “Hôm nay lớp mình liên hoan, hình thức

HTX nhé”, tức là mỗi người đều đóng góp cùng lo chi phí liên hoan.

Nguyên nhân biến đổi ý nghĩa của CVT: Nguyên nhân biến đổi ý nghĩa của

từ (sự chuyển nghĩa) thường rất phức tạp, đa dạng, trong đó các nguyên nhân có tính

xã hội đóng vai trò quan trọng. Về nguyên nhân chuyển nghĩa CVT do sự kiên kỵ:

Nguyên nhân này hiếm gặp trong CVT tiếng Việt. Nguyên nhân chuyển nghĩa CVT

do môi trường sử dụng từ, do nhu cầu giao tiếp: Đây là nguyên nhân đóng vai trò

quan trọng bởi sự bùng nổ thông tin và nhu cầu giao tiếp gia tăng hiện nay.

1.4.3. Nhập nhằng chữ viết tắt

Hiện tượng nhập nhằng của CVT sinh ra bởi các tính chất: Sự đa nghĩa, khó

tìm nghĩa đúng, hợp lý; sử dụng tùy tiện, không theo quy luật; khó xác định mục đích

trong văn bản.

1. Đa nghĩa: Đa nghĩa trong văn bản đơn ngữ, ví dụ như VH: Văn hóa, Văn

học; KCS: Kiểm tra Chất lượng Sản phẩm, “Kinh Cầu Siêu”. Đa nghĩa

trong văn bản đa ngữ, ví dụ như CN: Công nghiệp, châm ngôn (tiếng Việt);

Cartoon Network, Common Name (Tiếng Anh) [94][95].

2. Mang tính địa phương, ít phổ biến, ít quen thuộc: Cao Xà Lá : Cao su, Xà

phòng, Thuốc lá ; Phối kết hợp : Phối hợp, kết hợp.

3. Không theo quy luật, tùy tiện: SKZ : súng không giật/z ; XUNHASABA:

xuất nhập sách báo; Ke: Cây thước Ê-ke.

4. Sử dụng không nhất quán trong hoàn cảnh khác nhau: Ví dụ, cùng chữ

“Trung Ương” có nhiều kiểu chữ viết tắt: TW, TƯ, T.Ư.

5. Pha trộn ngôn ngữ: Ví dụ như 4U: For U; B2C: Business to Consumer,

Back to Cycles (kinh tế).

Một cách rất tự nhiên, CVT ngày càng được sáng tạo không ngừng. Trong giao

tiếp hiện đại Email, SMS, chatting, các ký hiệu khôi hài , , U (you)… sử dụng

như là cách viết tắt. CVT đã làm cho NSD ngày càng hưởng lợi, nhưng sự lạm dụng

CVT đều gây phiền phức, nhập nhằng [47][49][50].

1.4.4. Xử lý nhập nhằng chữ viết tắt

Con đường hình thành từ ngữ mới thông qua nhiều phương thức, trong đó có

phương thức viết tắt, cấu tạo nên từ ngữ mới bằng các chất liệu và quy tắc sẵn có

trong ngôn ngữ tiếng Việt. Do đó, CVT thực chất là một dạng biến đổi của từ vựng

và ngữ nghĩa, dẫn đến CVT chính nó có sự biến đổi về hình thức trong thực tế vô

cùng phong phú (về sự cấu tạo hình thành, về số lượng…). Chính CVT cũng có sự

biến đổi ngữ nghĩa ngày càng đa dạng (một CVT có nhiều nghĩa), tất yếu gây nên

nhập nhằng CVT, cần thiết phải đặt vấn đề tiếp cận xử lý CVT dưới góc nhìn của

chuyên ngành xử lý NNTN, trong đó có xử lý nhập nhằng CVT tiếng Việt.

Hiện nay, chưa có nhiều công trình nghiên cứu xử lý nhập nhằng CVT tiếng

Việt. Phần lớn các công trình chỉ dừng lại mức độ xây dựng kho ngữ liệu, chưa có

kết quả đóng góp đáng kể trong xử lý nhập nhằng CVT hay ứng dụng mặt tích cực

nhập nhằng CVT. Luận án đặt ra vấn đề xử lý nhập nhằng CVT theo hai hướng:

1. Sử dụng mặt tích cực nhập nhằng CVT, chẳng hạn như: ứng dụng xây dựng

CSDL chuyên ngành, phục vụ tìm kiếm; suy diễn nhận diện CVT.

2. Từng bước khử bỏ sự nhập nhằng CVT: Giải pháp khử nhập nhằng CVT

trong các ứng dụng CNTT thiết lập CSDL như: Mã hóa phần tử mạng trong

CSDL viễn thông, thương hiệu, nhãn hiệu...; tìm cách xác định tần số, tần

suất CVT, dựa vào tần suất cực đại CVT để khử bỏ nhập nhằng.

CVT đặt ra rất nhiều vấn đề phức tạp cần giải quyết, liên quan đến lĩnh vực xử

lý ngôn ngữ tự nhiên và xử lý dữ liệu, xử lý nhập nhằng.

1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt

Vấn đề XLTV đã được triển khai nghiên cứu từ năm 1990 với nhiều công trình

như [25][42][43][56]. Nghiên cứu [42] đề xuất xử lý nhập nhằng tiếng Việt và ứng

dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập, [43] xử lý nhập nhằng trong

tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; [6] đưa ra khả năng khắc phục

trong soạn thảo văn bản, nghiên cứu đề xuất giải quyết vấn đề khử nhập nhằng trong

bài toán tách từ tiếng Việt. Tuy vậy, cho đến nay vẫn có rất ít nghiên cứu về CVT

tiếng Việt. Nghiên cứu [26][29] đề cập đến hiện tượng nói tắt và viết tắt trong tiếng Việt34. Tựu trung, đến nay chưa có công trình nào nghiên cứu một cách hệ thống và

đầy đủ về CVT tiếng Việt, chưa chỉ ra được mối liên hệ dựa trên cơ sở lý thuyết ngôn

ngữ học và vấn đề CVT và nhập nhằng CVT tiếng Việt. Về nguyên nhân nói chung,

theo [9][10], do không có sự đồng thuận giữa các đơn vị nghiên cứu, nên các kết quả

nghiên cứu vẫn còn nhiều mặt hạn chế nhất định.

Trong bối cảnh chung thực trạng nghiên cứu XLTV, trên cơ sở tri thức lý

thuyết về ngôn ngữ học, ta thấy rằng NNTN, trong đó có tiếng Việt, luôn biến đổi và

phát triển không ngừng. Chữ viết tắt cũng là một hướng làm biến đổi chữ viết, có thể

được xem là cải tiến chữ viết. Phương thức viết tắt, tạo lập các CVT làm xuất hiện

các từ ngữ mới. Luận án này đặt vấn đề nghiên cứu bốn vấn đề lớn sau đây:

1. Tiếp cận vấn đề CVT tiếng Việt trên phương diện thực tế và nhu cầu sử

dụng, vấn đề ngữ nghĩa CVT dựa trên lý thuyết của ngôn ngữ học. Tìm

hiểu sự hình thành và tổng hợp các quy tắc hình thành CVT.

2. Xây dựng hệ thống khai thác CVT tiếng Việt, cung cấp cho NSD, sử dụng

CVT ngày càng thuận tiện, có tính gợi mở, tạo ra môi trường học tập và

trao đổi thông tin vấn đề liên quan đến CVT.

3. Xây dựng nguồn tài nguyên CVT tiếng Việt, phương pháp thu thập dữ liệu

và triển khai thực nghiệm.

4. Xây dựng các công cụ khai thác CVT và xử lý nhập nhằng CVT tiếng Việt

34 Tạp chí Ngôn ngữ và Đời sống, số 1+2 (87+88) năm 2003

trong văn bản và triển khai thực nghiệm.

1.5. TÓM TẮT CHƯƠNG 1

Chương này đã nghiên cứu tổng quan các vấn đề đặt nền móng cơ sở khoa học

cho đề tài nghiên cứu: Vấn đề ngôn ngữ học nói chung, vấn đề âm, chữ viết, ngữ

nghĩa học, sự hình thành nghĩa của từ, nhập nhằng ngữ nghĩa…

Nội dung chương này cũng đã nghiên cứu được sự biến đổi của từ vựng và sự

biến đổi của ngữ nghĩa. Sự biến đổi từ vựng đề cập đến sự biến mất và xuất hiện mới

của từ vựng và các phương thức làm biến đổi từ, trong đó có phương thức viết tắt

hình thành nên các từ ngữ mới. Sự biến đổi của ngữ nghĩa là cách thức bổ sung nghĩa

mới cho từ vựng không kèm theo sự biến đổi về ngữ âm, làm cho từ vừng trở thành

từ nhiều nghĩa.

Đây cũng chính là một trong những nguyên nhân gây nên hiện tượng nhập

nhằng ngôn ngữ học và nhập nhằng tiếng Việt, là cơ sở lý luận của ngôn ngữ học mà

quá trình nghiên cứu đã phát hiện ra. Việc tìm hiểu sự biến đổi của từ vựng và ngữ

nghĩa đặt nền móng khoa học và thực tiễn cho vấn đề tìm hiểu nghiên cứu CVT tiếng

Việt của luận án.

CHƯƠNG 2.

XÂY DỰNG HỆ THỐNG KHAI THÁC

CHỮ VIẾT TẮT TIẾNG VIỆT

Xuất phát từ các nghiên cứu trong chương 1 về hiện tượng CVT, vấn đề nhập

nhằng CVT tiếng Việt, phương thức viết tắt hình thành từ, ngữ mới… và cùng với việc vận dụng, mượn ý tưởng về hệ sinh thái phần mềm, chương này trình bày sự

hình thành CVT, đề xuất các quy tắc hình thành CVT, xem xét các yếu tố ảnh hướng

đến thành lập CVT. Đồng thời đề xuất xây dựng hệ thống khai thác CVT, tạo ra môi

trường khai thác có tính cộng đồng, nhiều người sử dụng cùng tham gia cập nhật, kế thừa và khai thác CVT.

2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT

2.1.1. Mô hình sự hình thành chữ viết tắt

Qua nghiên cứu thực tiễn, các tình huống hình thành CVT tiếng Việt có thể

Hình 2.1. Mô hình hình thành chữ viết tắt tiếng Việt

biểu diễn qua mô hình tập hợp:

Để đơn giản, luận án biểu diễn hình 2.1 nêu trên thành mô hình hình thành

CVT tiếng Việt dưới dạng sơ đồ khối trong hình 2.2. Theo đó, CVT tiếng Việt hình

thành từ các nguồn tạo sinh ra CVT, đó là 3 tập hợp con: Viết tắt tượng trưng, Viết

Từ tắt

Viết tắt trực tiếp

Viết tắt tượng trưng

tắt trực tiếp và Từ tắt.

Âm tiết

Ký tự

Đọc/Viết sáng tạo

Mã hóa tên

Hình 2.2. Mô hình sự hình thành chữ viết tắt tiếng Việt

Các từ điển

(1) Viết tắt tượng trưng: là cách viết tắt dùng các ký hiệu, ký tự ngắn gọn để

tượng trưng cho nội dung biểu đạt, được chuẩn hóa, thường dùng trong

chuyên ngành khoa học. Ví dụ: m: mét, g: gam, to: Nhiệt độ… Cách viết tắt

này vay mượn tiếng nước ngoài, thường có quy ước trong khoa học, công

thức,... có ý nghĩa tượng trưng, hàm chứa một khối lượng tri thức chuyên

môn lớn, là cách viết tắt chuẩn nghiên cứu khoa học và ứng dụng.

(2) Viết tắt trực tiếp: là cách viết tắt dùng trực tiếp khi người viết nhận thấy có

những từ, cụm từ lặp đi lặp lại. Chẳng hạn: Ng: Nguyễn, xứ Thanh: xứ

Thanh Hóa-Nghệ An-Hà Tỉnh, Jan: January,… Cách viết tắt này là khá tùy

tiện, trùng lặp và khó xác định do thói quen riêng của người viết tắt.

(3) Từ tắt hay chữ viết tắt: là cách viết tắt đa dạng phong phú và sáng tạo nhất,

người sử dụng dùng các ký tự, ký hiệu, âm tiết, biểu tượng để biểu đạt nội

dung, tạo thành từ tắt/ chữ viết tắt. Ví dụ như: HTX: Hợp tác xã.

(4) Mã hóa tên là sự kết hợp ký tự, âm tiết, sự viết sáng tạo để tạo nên các CVT

là bộ mã dùng trong chuyên ngành. Chẳng hạn mã danh mục CSDL, mã

chuyên ngành viễn thông.

(5) Đọc viết sáng tạo: Đây chính là đọc tắt, nói tắt, là cách viết sáng tạo (có

thể là tùy tiện, không theo quy luật). Qua quá trình sử dụng, cách đọc/viết

này có thể trở thành thông dụng. Ví dụ: Viết chữ x hay dấu nhân (trong

phép toán) biểu thị viết tắt cho chữ “người”.

Trong hình 2.2, phần giao nhau giữa các khối thể hiện việc sử dụng các “chất

liệu” cơ bản (ký tự, âm tiết, tiếng) để hình thành CVT. Các phần không giao nhau

giữa các khối thể hiện sự sáng tạo trong hình thành CVT của NSD.

Mô hình trên cũng thể hiện được từ điển chỉ lưu trữ một phần nhỏ tập các

CVT. Trong thực tế, không phải lúc nào từ điển cũng có thể cập nhật đầy đủ CVT, vì

việc hình thành CVT rất phong phú và đa dạng. Sự sáng tạo CVT của con người

không ngừng tăng lên trong cuộc sống, trong phát triển ngôn ngữ, trong nghiên cứu

và ứng dụng khoa học. Việc mô hình hóa sự hình thành CVT nhằm giúp cho NSD có

cái nhìn toàn diện, đầy đủ về nguồn gốc hình thành dữ liệu CVT.

2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt

Nghiên cứu [29] đã phân loại nói tắt và viết tắt theo nguồn gốc: Nội sinh và

ngoại nhập, chỉ ra tính “lâm thời và ổn định”, nêu lên các dạng thức của nói tắt và

viết tắt... Tuy vậy, nghiên cứu cũng nói rõ “tác giả chưa trực tiếp bàn đến vấn đề xác

lập quy tắc cấu tạo và sử dụng các dạng thức nói tắt và viết tắt từ ngữ”. Nghiên cứu

lý thuyết và thực tiễn sử dụng CVT, luận án tổng hợp vài đặc điểm hình thành CVT

để làm cơ sở xây dựng các quy tắc hình thành CVT:

1) Vấn đề CVT liên quan đến sự biến đổi chữ viết, viết tắt cũng là một hướng

làm biến đổi chữ viết có thể được xem là cải tiến chữ viết.

2) Phương thức viết tắt tạo nên từ, ngữ mới trong kho ngữ vựng; phương thức

này tạo ra số lượng CVT rất lớn và không ngừng phát triển.

3) Phương thức biến đổi ý nghĩa của CVT là cách thức bổ sung nghĩa mới cho

CVT không kèm theo sự biến đổi về ngữ âm, làm cho CVT trở thành CVT

nhiều nghĩa.

4) CVT hình thành ngay trong chính ngôn ngữ tiếng Việt (nội sinh), nhưng

CVT cũng hình thành bằng cách vay mượn tiếng nước ngoài (ngoại nhập);

hoặc kết hợp giữa nội sinh và ngoại nhập.

5) Vấn đề đọc các CVT: Khi đọc các CVT, có thể hình dung và khôi phục

ngay nguồn gốc CVT, chỉ đọc các tên chữ cái trong CVT mà không cần

đọc đầy đủ nguồn gốc hình thành CVT. Cách đọc này vay mượn theo cách

đọc các chữ cái tiếng nước ngoài.

6) Những yếu tố khác ảnh hưởng đến thành lập CVT: Yếu tố về số lượng ký

tự (hay độ dài CVT); yếu tố dấu thanh trong tiếng Việt; yếu tố tâm linh

người Á Đông; yếu tố âm tiết (khi đọc)...

Dựa trên các đặc điểm này, luận án đã đề xuất những quy tắc hình thành CVT

tiếng Việt, nhằm vận dụng trong việc xây dựng kho ngữ liệu về CVT.

2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt

Từ kết quả phân tích, tìm hiểu nhu cầu sử dụng CVT trong cuộc sống, luận án

đã đề xuất các quy tắc hình thành CVT.

1) Quy tắc 1: Viết tắt theo từ

Từ viết tắt thành lập bằng cách lấy lần lượt tất cả các chữ cái đầu của mỗi

tiếng độc lập có mặt trong từ cần viết tắt, sau đó ghép chúng lại thành từ viết tắt viết

hoa.

Ví dụ: ‘UBND’ = “Uỷ ban Nhân dân”; ‘CAND’ = “Công An Nhân dân”

Quy tắc này tương tự như cách thành lập thuật ngữ viết tắt thường sử dụng

trong tiếng Anh và nhiều ngôn ngữ khác. Cách viết tắt này dễ khôi phục lại nguyên

dạng cụm từ ban đầu, nên là cách viết tắt phổ biến nhất trong Tiếng Việt, được dùng

nhiều trong các văn bản pháp quy của Nhà nước, các văn bản học thuật như luận án

- luận văn, các ấn phẩm xuất bản như sách, báo, Internet… Cách thành lập này có

trường hợp dùng ký tự viết tắt của chữ và (&), dấu phân cách (/), gạch ngang (-), dấu

chấm (.), dấu cách, kết hợp chữ và số… để lập thành CVT, làm cho chúng dễ đọc,

dễ phân biệt, nhận biết, hữu ích đối với những CVT quá dài, quá nhiều ký tự.

2) Quy tắc 2: Ghép âm hay ghép tiếng

Chữ viết tắt thành lập bằng cách lấy lần lượt các tổ hợp phụ âm đầu cộng với

nguyên âm chính trong mỗi tiếng, hay phần âm dễ đọc, dễ nhận biết của mỗi từ trong

cụm từ cần viết tắt, sau đó ghép chúng lại thành chữ viết tắt.

Ví dụ: ‘DANA’ = “Đà Nẵng”; ‘VINA’ = “Việt Nam”; ‘HUDA’= Nhãn hiệu

bia Huế (Huế - Đan Mạch). Cách thành lập CVT này thường được dùng trong nhãn

hiệu, thương hiệu doanh nghiệp…, không nhất thiết phải viết hoa, tùy theo chủ ý trình

bày gây ấn tượng của người quảng bá nhãn hiệu, thương hiệu. Tuy vậy, trong những

văn bản chính thức, cách viết tắt này vẫn thường sử dụng chữ hoa.

3) Quy tắc 3: Ghép theo từ có nghĩa

Chữ viết tắt thành lập tương tự quy tắc 1 nhưng chỉ lấy lần lượt các chữ cái

đầu của mỗi từ có nghĩa (thường là từ kép) có mặt trong cụm từ cần viết tắt, sau đó

ghép chúng lại thành từ viết tắt viết hoa.

Ví dụ: ‘KCS’ = “Kiểm tra chất lượng sản phẩm”; ‘VTM’= “Văn hoá Thể dục

Mỹ thuật”. Cách viết tắt này cũng được sử dụng ở một số chuyên ngành. Cách viết

tắt này lược bỏ nhiều chữ cái, khó phục hồi nguyên dạng cụm từ khi đọc, nên sử dụng

không phổ biến.

4) Quy tắc 4: Sử dụng chữ cái viết phụ

Chữ viết tắt thành lập theo từ bằng cách viết tắt tương tự như quy tắc 1 (quy

tắc từ viết tắt) hoặc quy tắc 3 (ghép tắt theo từ có nghĩa) nhưng có sử dụng kèm theo

chữ cái phụ không viết hoa nhằm biểu ý.

Ví dụ: TTg = “Thủ tướng”, ‘Ng’ = “Nguyễn”. ‘Tr’ = “Trường”, ‘Cty' = Công

ty. Cũng như quy tắc 3, cách viết tắt này lược bỏ nhiều chữ cái, khó phục hồi nguyên

dạng cụm từ khi đọc, nên ít phổ biến.

5) Quy tắc 5: Kết hợp tiếng nước ngoài

Chữ viết tắt thành lập bằng cách sử dụng quy tắc thành lập như quy tắc 1, 2,

3 và 4 có kết hợp tiếng Việt với tiếng nước ngoài.

Theo cách thành lập này, có khá nhiều trường hợp CVT phối hợp ghép nối

tiếng Việt - tiếng nước ngoài (chủ yếu là tiếng Anh). Điều này chứng tỏ CVT tiếng

Việt chịu ảnh hưởng theo cách viết tắt của các ngôn ngữ khác, nhất là tiếng Anh. Ví

dụ: ‘DRT’ : Đà Nẵng Radio Tivi ; ‘VINACAFE’ = “Cà phê Việt Nam”...

6) Quy tắc 6: Mượn chữ viết tắt tiếng nước ngoài

Chữ viết tắt dùng trong tiếng Việt mượn nguyên chữ viết tắt tiếng nước ngoài

để sử dụng cho chữ viết tắt tiếng Việt.

Đây là cách sử dụng phổ biến trong tiếng Việt. CVT được mượn nguyên của

tiếng nước ngoài. Các lĩnh vực sử dụng nhiều nhất là thuật ngữ viết tắt Điện tử, Viễn

thông, Tin học, Y học, Kinh tế, Tài chính, Email - tin nhắn… Thuật ngữ viết tắt trong

Viễn thông [32] có hơn 3.500 thuật ngữ viết tắt mượn nguyên thuật ngữ viết tắt tiếng

nước ngoài. Phổ biến nhất là tiếng Anh, tiếng Pháp. Ví dụ: ‘AA’ = “Abreviated

Addressing” - Định vị địa chỉ viết tắt; ‘AA’ = “Absolute (acces) Address” - Địa chỉ

truy nhập tuyệt đối. Các thuật ngữ viết tắt mượn tiếng nước ngoài chuyên ngành có

đặc điểm ít được sử dụng rộng rãi trong giao tiếp, nhưng lại có phạm vi ảnh hưởng

mang tính quốc tế, sử dụng phổ biến trong chuyên ngành.

Về mặt ngữ pháp học [1][27], tiêu chuẩn xây dựng thuật ngữ là phải mang

tính chính xác, tính hệ thống, tính dân tộc và tính quốc tế. Tuy nhiên, trong thực tế,

dưới cách nhìn của người sử dụng, thuật ngữ viết tắt lại mang tính đa nghĩa. Do vậy,

thuật ngữ viết tắt vay mượn tiếng nước ngoài là một quá trình bổ sung rất tự nhiên

vào kho những CVT tiếng Việt, làm cho chúng phong phú và đa dạng hơn.

7) Quy tắc 7: Viết tắt ngẫu nhiên

Là quy tắc viết tắt tùy tiện, không theo nguyên tắc nào, nhưng ít nhiều cũng

tuân theo những quy tắc ngữ pháp tiếng Việt [1], [27], [31].

Theo quy định ngữ pháp tiếng Việt, viết tắt tùy tiện là dùng các kí hiệu viết tắt

mang tính chất cá nhân vào bài viết chính thức. Ðây là các kí hiệu bằng chữ viết Việt

Nam hay chữ viết nước ngoài, được chế biến lại, lẽ ra chỉ được dùng khi ghi chép cá

nhân, nhưng học sinh lại đưa vào bài kiểm tra, bài thi, do đó trở thành lỗi chính tả.

Ví dụ: fê fán (phê phán), ffáp (phương pháp), ndung (nội dung), ~ (những), ≠ (khác),

x vật (nhân vật), of (của), on (trên),… Tuy nhiên, những cách viết tắt tùy tiện, mang

tính sáng tạo cá nhân này lại được dùng khá phổ biến trong ghi chép bài vở, sổ tay

của nhiều người, rất hữu ích trong việc tiết kiệm thời gian, công sức ghi chép, soạn

thảo tin nhắn, email…

8) Quy tắc 8: Quy tắc viết tắt mã hóa

Nhiều lĩnh vực, chuyên ngành đã sử dụng CVT gợi nhớ hoặc theo một quy

luật định sẵn để mã hóa cho một cụm từ chỉ định, ví dụ: Các bảng danh mục trong

CSDL, bảng mã quốc gia, mã vùng, mã ngành, bộ mã cáp quang viễn thông.... Các

CVT mã hóa thường phải thỏa mãn:

a) CVT mã hóa thường được một tổ chức ban hành, có phạm vi áp dụng.

b) CVT mã hóa là duy nhất, không trùng lặp để tránh nhập nhằng.

c) CVT mã hóa thường dùng thêm các ký tự mới theo một quy luật.

9 ) Quy tắc 9: Quy tắc viết tắt trong CSDL

Từ nghiên cứu lý thuyết về các bài toán tìm kiếm, những kết quả thực tiễn liên

quan, để sử dụng CVT hiệu quả, luận án đề xuất nguyên tắc ứng dụng CVT lập chỉ

mục, giúp tra cứu dữ liệu trong những CSDL chuyên ngành:

a) CVT chỉ sử dụng chữ cái tiếng Anh (không dùng chữ Việt có dấu) và các

chữ số 0..9.

b) Không sử dụng các ký tự đặc biệt: các dấu ngắt câu, dấu cách (SP).

c) CVT có tính gợi nhớ, ngắn gọn, chấp nhận trùng lặp, nhập nhằng ngữ

nghĩa: Người tra cứu hình dung ngay CVT sau khi xác định yêu cầu tra cứu

tìm kiếm thông tin.

d) Thực hiện chỉ mục CSDL trên các trường CVT đã xây dựng.

Sử dụng quy tắc này, chúng tôi đã xây dựng CSDL với CVT chuẩn hóa làm

chỉ mục, phục vụ tra cứu danh bạ cho hệ thống thông tin kinh tế xã hội 1080 của

chuyên ngành viễn thông (chi tiết trong [1] phần Danh mục công trình công bố).

2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt

Tiếng Việt có những yếu tố rất riêng ảnh hưởng đến cách thành lập CVT.

Yếu tố về số lượng ký tự, dấu thanh, âm tiết

Số lượng ký tự (hay độ dài) CVT không được quá dài. Hiện nay CVT tiếng Việt

chưa tìm thấy chữ nào là dài hơn 18 ký tự. CVT quá dài sẽ gây khó khăn cho người

đọc khi tìm hiểu nguồn gốc cụm từ. Ví dụ CTTHHNHTMCPPTTPHCM tương ứng

với “Công ty Tài chính Trách nhiệm hữu hạn Một thành viên Ngân hàng Thương mại

Cổ phần Phát triển thành phố Hồ Chí Minh”.

Yếu tố dấu thanh: Người ta tránh viết tắt các ký tự có dấu thanh như Â, Ă, Ơ,

Ê… và hầu như không dùng các dấu huyền, sắc, hỏi ngã, nặng trong CVT để tránh

nhầm lẫn, khó đọc.

Yếu tố âm tiết (khi đọc): Chọn lựa CVT cho cho tên doanh nghiệp, công ty,

thương hiệu, nhãn hiệu hàng hoá… CVT khi đọc tạo ra âm vang và âm mở, tạo ấn

tượng dễ đọc, dễ nhớ. Người ta thường chọn âm đọc vang và mở như âm ‘A’- ‘Ô’-

‘I’, hay EX, EC, ít khi chọn âm ‘Ê’ - ‘Ơ’.

Yếu tố tâm linh người Á Đông: Đó là cách đếm ký tự của cụm từ viết tắt. Chẳng

hạn như cách đếm Sinh - lão - bệnh - Tử theo thứ tự các ký tự trong CVT. Trong cách

đặt tên viết tắt cho tên doanh nghiệp, thương hiệu, nhãn hiệu hàng hoá… Không phải

tất cả CVT đều chọn lựa số lượng ký tự trước, nhưng nhiều người cố ý chọn cho mình

một chữ trong hệ đếm “cơ số 4” này (thường là Sinh hoặc Lão) để định trước chiều

dài cho CVT. Chữ Sinh với độ dài CVT là 5, 9, 13… ký tự. Chữ Lão với độ dài CVT

là 2, 6, 14,… ký tự. Yếu tố tâm linh này có ảnh hưởng ít nhiều đến cách thành lập

CVT.

Những trường hợp không nên viết tắt: Sau đây là những trường hợp không

nên viết tắt:

a) Trong các bài thi vì thí sinh có thể bị đánh giá sai.

b) Trong giao dịch kinh doanh vì tạo cho người đọc cảm giác không được tôn

trọng, hiểu sai.

c) Trong hồ sơ bệnh án, ngoại trừ những CVT chuyên môn đã quy định, chỉ

dùng ký hiệu CVT phổ thông khi thật cần thiết, không nên viết tắt tránh

gây nhầm lẫn.

d) Trong các văn bản hành chính pháp quy, đơn từ.

e) Trong giao tiếp Email, chatting cần tránh việc lạm dụng và biến tướng CVT

tới mức làm biến dạng ngôn ngữ, gây phản cảm cho người đọc.

Quy định ngữ pháp chữ viết tắt tiếng Việt

Ngữ pháp tiếng Việt quy định: Khi tên gọi xuất hiện lần đầu trong văn bản thì

không được viết tắt, mà phải viết dạng đầy đủ và ghi chú CVT trong ngoặc đơn. Từ

lần xuất hiện thứ hai trở đi, ta mới viết tắt [1][27][31].

Trước khi sử dụng CVT trong văn bản nói chung, người viết phải định nghĩa

CVT. Có hai trường hợp:

1. Sử dụng CVT có sẵn: CVT đã được định nghĩa, hoặc thông dụng, nhiều người

biết, không mập mờ, phản nghĩa khi dùng; hoặc đã có quy định, chẳng hạn

như đã đăng ký nhãn hiệu, quy định bảng hay danh mục CVT … thì sử dụng

trực tiếp mà không cần định nghĩa lại.

2. Sử dụng CVT mới định nghĩa: Định nghĩa và sử dụng CVT ngay khi xuất

hiện lần đầu trong văn bản theo dạng thức:

()

Dấu hiệu nhận biết chữ viết tắt tiếng Việt: Từ các quy tắc thành lập, sử dụng

CVT, ta đưa ra dấu hiệu nhận biết CVT tiếng Việt trong văn bản:

1) CVT nằm trong dấu ngoặc đơn (..) ngay sau cụm từ viết đầy đủ khi CVT được

định nghĩa lần đầu.

2) CVT là chữ in hoa (có số ít trường hợp viết chữ thường).

3) CVT có thể có các ký tự hay dấu đặc biệt và (&), dấu phân cách (/), dấu gạch

ngang (-), dấu chấm (.), dấu cách, kết hợp chữ và số…

4) CVT là một từ có độ dài có thể đạt tới 15 ký tự.

5) CVT tiếng Việt không dùng các nguyên âm Â, Ă, Ơ, Ê, Ô… không dùng các

dấu thanh huyền, sắc, hỏi ngã, nặng.

Đọc các chữ viết tắt tiếng Việt: Vấn đề đọc các CVT có các trường hợp:

1) Khi đọc CVT, đọc đầy đủ cụm chữ gốc hình thành nên CVT, người đọc có thể

hình dung và khôi phục ngay nguồn gốc CVT. Trường hợp này là khá phổ

biến: MTTQ: Mặt trận tổ quốc, UBND: Uỷ ban nhân dân.

2) Đọc ghép các CVT theo kiểu phát âm tiếng Việt thông thường, tách từng nhóm

ký tự hình thành nên CVT, người nghe dễ hình dung ra nguồn gốc CVT. Ví

dụ: VINAPHONE (Vi-Na-Phôn), VINAMILK (Vi-Na-Milk).

3) Khi đọc, chỉ đọc các tên chữ cái trong CVT mà không cần đọc đầy đủ nguồn

gốc hình thành CVT. Cách đọc này vay mượn theo cách đọc các chữ cái tiếng

nước ngoài như các chữ cái La-tinh được Việt hoá cách đọc. Ví dụ như: VAC

(Vê-A-Cê), WTO (Vê đúp-Ti-Ô), ASCII (Et-xơ-ki), ISO (i-dô)...

Như vậy, vấn đề đọc các CVT cũng cần được quan tâm trong việc xây dựng

CSDL để sử dụng CVT được chính xác trong viết và nói.

Nhận xét chung: Toàn bộ nội dung các quy tắc thành lập trên đây đã được lần

đầu tiên công bố thảo trong Hội thảo quốc tế Ngôn ngữ học Việt Nam chủ đề “Ngôn

ngữ học Việt Nam những chặng đường phát triển và hội nhập quốc tế” tổ chức tại

ĐHSP Đà Nẵng tháng 12/2018, chi tiết trong [1] phần Danh mục công trình công bố.

So sánh với những quy tắc viết tắt đã có trong Quy định ngữ pháp chữ viết tắt tiếng

Việt được nêu trong [1][27][31], thì kết quả nghiên cứu đã công bố 9 quy tắc thành

lập CVT trên đây là tường minh, chuẩn hóa, bước đầu hệ thống hóa được quá trình

tạo sinh CVT từ thực tiễn trên cơ sở vận dụng lý thuyết ngôn ngữ học.

Kết quả công bố được xem như là gạch nối nhỏ giữa lý thuyết ngôn ngữ học

với thực tiễn sử dụng CVT và với ngành XLNNTN trong CNTT, góp phần cùng giải

quyết vấn đề CVT tiếng Việt được nhiều người quan tâm.

2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM

2.2.1. Hệ sinh thái phần mềm là gì

Hệ sinh thái phần mềm (Software Ecosystem - SECO)35 được xây dựng dựa

trên ý tưởng các hoạt động kinh doanh và các hệ sinh thái sinh học. Ví dụ: xây dựng

một bể nuôi cá trong nhà với hệ thống cây cảnh, tạo ra một hệ sinh thái sinh học.

SECO được hiểu là một tập hợp các doanh nghiệp hoạt động như một đơn vị

và tương tác với một thị trường chung cho các phần mềm và dịch vụ, cùng với mối

quan hệ giữa chúng. Những mối quan hệ thường xuyên được củng cố dựa trên nền

tảng công nghệ và hoạt động thông qua việc trao đổi thông tin, nguồn lực, vật chất.

SECO được định nghĩa là một tập hợp các phần mềm, được phát triển và hợp

tác phát triển trong cùng một môi trường. Môi trường có thể là tổ chức, công ty, xã

hội (cộng đồng hay một liên kết cộng đồng kỹ thuật nào đó) [54][96]. Hiện nay, vẫn

có ý kiến khác nhau về thuật ngữ "hệ sinh thái". Có ý kiến này cho rằng phần mềm

35 Theo https://en.wikipedia.org/wiki/Software_ecosystem

không có gì chung với một hệ sinh thái tự nhiên. Tuy nhiên, cộng đồng doanh nghiệp

phần mềm vẫn có xu hướng xây dựng một SECO. Lý do là: doanh nghiệp xem xây

dựng SECO thành công cũng là một cách xây dựng doanh nghiệp phần mềm phát

triển bền vững. Ví dụ về các SECO: iPhone, Microsoft, Google, Android, Symbian

[64]… Ở Việt Nam, nhiều Tập đoàn viễn thông, doanh nghiệp CNTT xây dựng dịch

vụ dưới dạng SECO: VNPT xây dựng vnEdu - Hệ sinh thái giáo dục, VNPT-HIS -

hệ sinh thái ngành Y tế. Trong [64] và [57], hệ sinh thái của Microsoft được mô tả

bao gồm các thành phần: Nhà sản xuất thiết bị, nhà sản xuất phần mềm, nhà cung cấp

(ISV), nhà bán lại dịch vụ (VAR), hệ thống tích hợp giá trị gia tăng (SI), người sử

dụng đầu cuối như được hiển thị trong hình 2.3.

NSD đầu cuối (End Users)

Đại lý bán lại dịch vụ

Kênh tích hợp giá trị gia tăng

Hệ sinh thái Phần mềm MICROSOFT

Nhà Sản xuất thiết bị

Nhà sản xuất phần mềm độc lập

Hình 2.3. Ví dụ Hệ sinh thái phần mềm Microsoft

2.2.2. Mô hình hóa hệ sinh thái phần mềm

Nghiên cứu [64][65] đã mô hình hóa SECO bằng I*, UML hoặc Petri nets

tương ứng để biểu thị biểu đồ UML. Hình 2.4 mô hình hóa sơ đồ SECO. Các nghiên

cứu trên cũng chỉ ra đặc trưng, lợi ích và thách thức của SECO: xây dựng các hệ

SECO là con đường đúng đắn, phù hợp với xu hướng chung và là sự đảm bảo sự tồn

tại của doanh nghiệp phần mềm trong môi trường sự cạnh tranh khốc liệt và đòi hỏi

sự sáng tạo, hợp tác để cùng tồn tại và phát triển.

Khai thác lợi ích

Người sử dụng

Sử dụng

Nhà CC hạ tầng, tài nguyên…

Nhà CC phần mềm/dịch vụ

Cung cấp tài nguyên

Quản lý/Chính sách/ Tiêu chuẩn/ Hỗ trợ

Sản xuất phần mềm

Đơn vị phát triển phần mềm

Nhà nước, chuẩn hóa, cơ quan chứng nhận, chuyên gia

Hình 2.4. Sử dụng UML mô hình hóa sơ đồ hệ sinh thái phần mềm

Trong đó, 5 tác nhân (actor) quyết định của SECO:

(1) Nhà cung cấp, đơn vị phát triển phần mềm (Software developers);

(2) Chính phủ, Nhà nước, các quy định tiêu chuẩn, chứng nhận kiểm định, các

chuyên gia đầu ngành (State, standards and certifications bodies);

(3) Nhà cung cấp dịch vụ tài nguyên (Nature): tài nguyên, không gian lưu trữ,

đường truyền, bảo mật hệ thống;

(4) Người sử dụng (Software users): người mua, đặt hàng/thuê sử dụng phần

mềm (Software As A Service - SaaS);

(5) Nhà cung cấp/Doanh nghiệp (Software vendor): là đối tác khai thác dịch

vụ thông qua hệ thống phần mềm, cùng cấp cho NSD dịch vụ đầu cuối;

Mô hình UML về SECO với 5 tác nhân nêu trên là một tập hợp các hệ thống

phần mềm, được hợp tác phát triển, có mối liên quan mật thiết lẫn nhau trong cùng

một môi trường vì lợi ích chung và riêng của hệ thống phần mềm đem lại cho mỗi

một tác nhân. Môi trường có thể tổ chức, công ty, xã hội, hay một liên kết cộng đồng

kỹ thuật nào đó.

2.2.3. Đặc điểm một hệ sinh thái phần mềm

Để xây dựng một hệ thống phần mềm, từ khi hình thành ý tưởng về sản phẩm

của mình, cần đặt vấn đề xây dựng SECO ngay từ đầu. Các nhà nghiên cứu đã phân

tích một số vấn đề liên quan đặc điểm SECO theo [64][65][54][57]:

Khi xây dựng một hệ thống phần mềm, người phát triển phần mềm nên xem

xét, phân tích kỹ mục tiêu, nhiệm vụ đặt trong mối quan 5 tác nhân; từ đó lựa chọn

thiết kế phần mềm dưới dạng “một sản phẩm” hay là “sản phẩm lõi + hệ sinh thái”.

Nói đến SECO, người phát triển phần mềm cần chú ý đến tính cộng sinh (sống

nhờ) phối ghép với hệ sinh thái khác, chẳng hạn như tận dụng Facebook, Yahoo,

Google… thay vì mình tự làm lấy toàn bộ hệ sinh thái của mình. Triển khai lập trình

giao diện ứng dụng API (Application Programming Interface) hay cơ chế plugin cho

sản phẩm/dịch vụ của mình. Từng bước tối ưu API, phát triển các dịch vụ bổ sung,

từ API - cơ chế plugin sản phẩm của mình.

Ngoài ra, để tạo cộng đồng tham gia, cần có cơ chế khuyến khích các lập trình

viên cùng tham gia vào hệ sinh thái của mình, đảm bảo hệ thống không bị “chết” vì

quá tải hay chậm chạp bởi chính tính cộng sinh hệ sinh thái của nó. Người phát triển

phần mềm cũng cần xem xét các yếu tố ảnh hưởng khác: nhân lực, kỹ thuật, công

nghệ, tiềm lực tài chính, thời gian sản phầm đưa ra thị trường. Nghiên cứu [64][65]

[54] và [57] tổng hợp, tóm tắt các đặc điểm của SECO như sau:

1. Tính kế thừa: Giống như đặc điểm của tự nhiên hệ sinh thái như hỗ sinh,

cộng sinh, hợp tác phát triển, kế thừa, phối ghép với các SECO khác.

2. Tính ổn định: Hệ sinh thái có kiến trúc ổn định: giao diện, quản lý phát

triển-tiến hóa, an ninh và độ tin cậy.

3. Tính mở: Đây là một mô hình phát triển mã nguồn mở, cộng đồng CNTT

cùng tham gia, có thể được sử dụng để đàm phán yêu cầu cho việc sắp xếp

nhu cầu với các giải pháp, các thành phần, danh mục đầu tư phát triển, tạo

khả năng cho quá trình đổi mới công nghệ.

2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm

Hiện nay, các SECO được ứng dụng và đem lại lợi ích khá lớn cho các tác

nhân: Thúc đẩy sự thành công của dòng sản phẩm phần mềm “đồng tiến hóa”, cùng

hưởng lợi ích với sự phát triển hệ sinh thái. Tạo lực hút cho nhân lực và cộng đồng

CNTT cùng tham gia phát triển, xây dựng và mở rộng. Giảm chi phí liên quan đến

việc phát triển, phân phối, bảo trì, bảo dưỡng hệ thống. Huy động chia xẻ kiến thức

hỗ trợ phân tích và hiểu được kiến trúc hệ thống phần mềm. Cho phép phân tích tốt

hơn, nắm bắt các yêu cầu phát triển và tăng cường trao đổi, kết nối giữa các tác nhân

liên quan. Cùng trợ giúp lẫn nhau để vượt qua những thách thức trong quá trình thiết

kế và bảo trì các ứng dụng phân tán. Cung cấp trợ giúp cho việc định hướng kinh

doanh, phát triển sản phầm thiết kế kiến trúc sản phẩm và xác định, phòng ngừa rủi

ro. Cung cấp thông tin cho người quản lý dòng sản phẩm liên quan, tạo tiềm năng

khai thác và cung cấp sản phẩm cho tập khách hàng.

Tuy nhiên, các SECO cũng có những thách thức, rủi ro về mặt ứng dụng [57].

Một SECO chậm chạp trong việc thay đổi công nghệ, cũ kỹ, rườm rà; không thích

nghi trước sự thay đổi của thị trường và thiếu khả năng liên kết dễ dàng giữa các tác

nhân; không hội đủ các tính chất đặc trưng: kế thừa, ổn định và tính mở sẽ đứng trước

nguy cơ rủi ro khi các tác nhân quay lưng do lợi ích của họ suy giảm.

2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES)

2.3.1. Hệ thống khai thác phần mềm

Xuất phát từ ý tưởng về hệ sinh thái phần mềm, luận án nghiên cứu, đặt vấn

đề xây dựng Hệ thống khai thác phần mềm - hướng phát triển như hệ sinh thái khai

thác CVT, hướng đến một ứng dụng phần mềm vừa có ổn định, vừa có tính mở, vừa

có tính kế thừa nhiều hệ thống khác để cùng phát triển.

Cụ thể là, xây dựng kho ngữ liệu CVT tận dụng nguồn dữ liệu trên Internet để

tập hợp, tìm kiếm CVT mới và nghiên cứu đánh giá tần số, tần suất xuất hiện CVT

sử dụng nguồn dữ liệu của hệ thống Yahoo.com, tức là cộng sinh trên đó để đề xuất

cách thống kê dữ liệu sử dụng CVT nhằm cung cấp một góc nhìn và cách đánh giá

CVT sử dụng trên Internet…

Luận án đặt ra mục tiêu là xây dựng hệ thống khai thác CVT như là một hệ

sinh thái CVT, nhằm tạo ra môi trường để NSD có thể khai thác, sử dụng, cập nhật

dữ liệu và đóng góp ý tưởng. Thông qua môi trường ngày, hệ thống khai thác CVT

sẽ có được tính kế thừa và phát triển.

2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt

Hệ thống khai thác chữ viết tắt là tập hợp thông tin nghiên cứu, sản phẩm phần

mềm cập nhật, xử lý, hiệu chỉnh, hình thành, khai thác và ứng dụng về CVT tiếng

Việt nhằm thực hiện trao đổi thông tin, dữ liệu với các hệ thống thông tin; đồng thời

thực hiện cung cấp và trao đổi với NSD thông qua một phương thức thống nhất trên

nền tảng web tại bất kỳ thời điểm nào và từ bất kỳ đâu.

Mô hình hệ thống khai thác CVT, viết tắt là AMES (Abbreviations

Management Exploit System). Cụ thể như hình 2.5

Trong mô hình này:

1. CSDL CVT: CSDL chứa các CVT được xây dựng trong chương 3 [9].

2. CSDL Luật sinh: CSDL chứa các Luật sinh (luật sản xuất) [39] mô

phỏng sự suy diễn tri thức CVT, tạo lập môi trường khai thác CVT được

xây dựng, có bổ sung và chỉnh sửa theo sự phát triển tự nhiên của ngôn

ngữ, trong đó có sự hình thành CVT.

3. CSDL khai thác: Tập hợp các loại văn bản mẫu có thể có để thử nghiệm

trong mô hình máy suy diễn, đó có thể là các tập Copus [23] có sẵn đã

được các nhà nghiên cứu xây dựng.

4. Chuyên gia, người tư vấn, người quản trị, người sử dụng: là các tác

nhân được nêu như trong mô hình UML của hệ sinh thái phần mềm.

Hình 2.5. Mô hình hệ thống khai thác chữ viết tắt tiếng Việt

2.3.3. Mô hình hệ thống khai thác chữ viết tắt

Sử dụng UML mô hình hóa (hình 2.6) minh họa những thành phần, công cụ

chi tiết để có cái nhìn tổng thể về xây dựng một hệ thống khai thác cần hướng đến, 5

tác nhân cụ thể:

(1) Tác nhân Phát triển phần mềm (Software developer): Đó là đơn vị phát triển

phần mềm, xây dựng, lập trình, tạo công cụ khai thác, cung cấp giao diện

kết nối.

(2) Tác nhân Chuẩn hóa (State, standards and certifications bodies): Là nhà

nghiên cứu ngôn ngữ học, XLNNTN, XLTV, chuyên gia tư vấn, những quy

định, quy tắc ngữ pháp tiếng Việt, phương pháp, thuật toán.

(3) Tác nhân Tài nguyên (Nature): Là nhà cung cấp hạ tầng tài nguyên, đường

truyền, không gian lưu trữ, đường truyền, kết nối Internet.

(4) Tác nhân Người sử dụng (Software users): Người sử dụng, người mua, đặt

hàng/thuê phần mềm.

(5) Tác nhân Đối tác sử dụng phần mềm (Software vendor): Đó là nhà cung cấp

dịch vụ hợp tác sử dụng hệ thống phần mềm, cung cấp cho NSD dịch vụ đầu

cuối, hai bên cùng chia sẻ lợi ích kinh tế và các lợi ích khác.

Hình 2.6. Mô hình UML hệ thống khai thác chữ viết tắt tiếng Việt

Với mô hình trên, triển khai từng bước và đề xuất cộng đồng cùng hợp tác tiếp

tục phát triển các công cụ chỉ mục, tra cứu, tìm kiếm, cập nhật; hình thành, trích rút,

tách CVT; phân tích, chuyển đổi, khử nhập nhằng, ứng dụng CVT trong xử lý văn

bản, suy đoán CVT, xử lý văn bản có CVT... Trong đó, chú trọng việc trao đổi thông

tin, dữ liệu, kết quả nghiên cứu, xử lý CVT tiếng Việt.

2.4. THỰC NGHIỆM XÂY DỰNG AMES

Trên cơ sở nghiên cứu đã thực hiện các chương 1, luận án triển khai thực

nghiệm xây dựng nguồn dữ liệu, công cụ phần mềm, từng bước hình thành nên

AMES.

2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt

Xây dựng kho ngữ liệu CVT tiếng Việt, bao gồm phân tích thiết kế CSDL,

triển khai cài đặt để thu thập dữ liệu CVT thủ công, tự động từ môi trường Internet.

Đề xuất giải pháp và xây dựng thuật toán cập nhật tự động CVT mới từ môi

trường Internet, tiếp tục cập nhật dữ liệu theo kịp sự biến động, tạo sinh mới CVT

trong thực tiễn.

Thực hiện biên tập dữ liệu, chuyên ngữ dữ liệu CVT tiếng Việt thông dụng

sang tiếng Anh, lưu trữ và công bố dữ liệu CVT.

2.4.2. Xây dựng công cụ khai thác chữ viết tắt

Triển khai thực nghiệm xây dựng công cụ khai thác CVT, bao gồm:

Xây dựng các công cụ ứng dụng CVT vào chỉ mục tìm kiếm, khai thác CSDL

chuyên ngành, ứng dụng CVT vào bộ mã chuyên ngành, đề xuất bộ mã danh mục

quốc gia.

Xây dựng thư viện CVT cung cấp cho NSD. Xây dựng công cụ tư vấn đặt

CVT thương hiệu (brandname) cho doanh nghiệp.

Xây dựng từ điển tra cứu trực tiếp chữ viết tắt trên máy di động, thực hiện

đồng bộ dữ liệu giữa website thư viện CVT và từ điển CVT trên máy di động.

Các kết quả xây dựng công cụ khai thác CVT sẽ từng bước minh họa thực

nghiệm xây dựng hệ thống khai thác chữ viết tắt AMES.

2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt

Luận án tiếp cận các hướng xử lý nhập nhằng CVT tiếng Việt:

Hướng thứ nhất, xử lý nhập nhằng CVT thực nghiệm văn bản trong lĩnh vực

chuyên ngành viễn thông: xây dựng vị từ và hàm nhận diện CVT trong văn bản; đề

xuất xây dựng cơ sở luật, thuật toán nhận diện và xử lý nhập nhằng CVT.

Hướng tiếp cận khác để xử lý nhập nhằng là đề xuất dựa vào phương pháp

thống kê chỉ số tần suất xuất hiện CVT. Chỉ số tần suất xuất hiện CVT cũng là cơ sở

cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa và nhận diện CVT.

2.5. TÓM TẮT CHƯƠNG 2

Chương này đã nghiên cứu đề xuất được 9 quy tắc hình thành, 6 đặc điểm hình

thành CVT và chỉ ra những yếu tố ảnh hưởng đến hình thành CVT tiếng Việt.

Đây là cơ sở cho việc xác định các quy tắc cấu tạo và sử dụng CVT tiếng Việt

mà từ trước đến nay chưa được các nhà khoa học nghiên cứu và tổng hợp đầy đủ.

Đồng thời kết quả này cũng cho thấy được CVT tiếng Việt được hình thành ngay

trong chính ngôn ngữ tiếng Việt (nội sinh), cũng được hình thành bằng cách vay

mượn từ tiếng nước ngoài (ngoại nhập), hoặc hình thành bằng cách kết hợp giữa nội

sinh và ngoại nhập.

Các nghiên cứu trên còn cho thấy sự biến động và phát triển của CVT tiếng

Việt là rất lớn, cần thiết phải xây dựng kho ngữ liệu CVT tiếng Việt.

Chương này đã đề xuất xây dựng được môi trường AMES nhằm khai thác

CVT. Trong các chương tiếp theo sẽ trình bày kết quả thực nghiệm và những đóng

góp cho môi trường AMES.

CHƯƠNG 3.

XÂY DỰNG NGUỒN TÀI NGUYÊN

CHỮ VIẾT TẮT

Trong chương này sẽ trình bày về xây dựng cơ sở dữ liệu CVT, các giải pháp thu

thập dữ liệu từ nhiều nguồn dữ liệu khác nhau, đề xuất và triển khai thuật toán tìm

kiếm CVT trên Internet.

Từ CSDL thu thập được, chương này tiếp tục trình bày đề xuất một số ứng dụng

th thực nghiệm trong ngành Viễn thông, CNTT.

3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT

Cở sở dữ liệu CVT tiếng Việt gồm các mục từ là các chữ viết tắt, gọi tắt là mục

từ viết tắt (MTVT). Mỗi MTVT bao gồm cách phát âm, nghĩa tiêu biểu tiếng Anh,

nghĩa tiếng Việt, lĩnh vực chuyên môn, một số ví dụ sử dụng, nguồn gốc, xuất xứ

CVT, chỉ dẫn sử dụng liên quan (nếu có). Các MTVT có thể có nhiều nghĩa khác

nhau tùy theo lĩnh vực sử dụng. Luận án tiến hành phân lớp, phân loại CVT theo lĩnh

vực sử dụng.

3.1.1. Mô hình quan hệ dữ liệu

Ứng dụng lý thuyết cơ sở dữ liệu [20] để xây dựng CSDL chính với các thông

tin chi tiết:

Cở sở dữ liệu CVT chứa thông tin về CVT gồm thông tin số thứ tự của CVT,

CVT, phiên âm (để có thể đọc được dễ dàng). Thực thể PhanLop dùng phân lớp theo

loại hình, lĩnh vực gồm thông tin mã lớp, tên phân lớp; NguonCVT gồm các thông tin

nguồn gốc cập nhật CVT, ngày cập nhật của người cập nhật trực tuyến hay địa chỉ

trang web; NgonNgu gồm các thông tin ngôn ngữ CVT là tiếng Việt, tiếng Anh, hay

mở rộng ra ngôn ngữ khác; HinhThuc gồm các thông tin hình thức hình thành, tạo

sinh CVT theo nhưng quy tắc nào, có thể giúp thống kê, đánh giá tần số, tần suất xuất

hiện hay dùng cho việc phân loại, xử lý dữ liệu CVT. Ngoài ra, còn có bảng dữ liệu

trung gian được xây dựng để phục vụ cho việc cập nhật dữ liệu, làm giàu kho dữ liệu.

Mô hình quan hệ dữ liệu được biểu diễn bằng lược đồ quan hệ hình 3.1. dưới đây:

NguonCVT

PhanLop

Nguon_ID MaCN HoTen DiaChi ......

n-1

NgonNgu

MaLop TenLop ...

MaNN TenNN ...

CVT

1-n

n-1

CVT_ID CVT PhienAm MaLop MaCN MaNN MaHT

HinhThuc

1-n

MaHT Nghia Vidu …

Hình 3.1: Mô hình quan hệ dữ liệu kho ngữ liệu CVT tiếng Việt.

Ví dụ như mục từ viết tắt KCS có mã ngôn ngữ (01) là tiếng Việt, có 2 nghĩa

tiếng Việt: nghĩa “Kiểm tra Chất lượng Sản phẩm” (phân lớp lĩnh vực sản xuất,

thương mại), nghĩa “Kinh cầu siêu” (phân lớp lĩnh vực tôn giáo). Trong tiếng Anh

(mã 02), mục từ viết tắt KCS có hơn 20 nghĩa khác nhau, chẳng hạn như: nghĩa

“Knowledge-Centered Support” trong lĩnh vực khoa học công nghệ, nghĩa “King's

Cross Station (London, UK)” trong lĩnh vực văn hóa36… Các bảng dữ liệu CVT tiếng

36 KCS tra cứu trên www.chuviettat.com/cvts/search/ và www.acronymfinder.com/Slang/KCS.html

Việt, tiếng Anh chi tiết được trình bày trong trong phần phụ lục 2.

3.1.2. Triển khai cài đặt

Để thống nhất với cách lựa chọn công cụ xây dựng CSDL là MySQL và PHP

nhằm xây dựng các ứng dụng phù hợp với công nghệ, thiết bị và các ứng dụng hiện

có, ta xây dựng mô hình CSDL theo cách tổ chức dữ liệu MySQL với sự trợ giúp của

phần mềm SQLyog và Navicat premium. Trên cơ sở mô hình logic dữ liệu và các

bảng thuộc tính, ta xây dựng cơ sở dữ liệu cho CVT tiếng Việt bằng MySQL có tên

là dulieucvt gồm các bảng: cvts (dữ liệu CVT), phanlop (còn gọi lĩnh vực hay phân

lớp CVT), nguoncncvt (nguồn cập nhật CVT), ngonngu (ngôn ngữ CVT) có quan

hệ với nhau như hình 3.2:

Hình 3.2. Quan hệ giữa các CSDL chữ viết tắt.

Bảng CVTs chứa thông tin về CVT gồm trường số thứ tự của CVT, trường

CVT, trường PhienAm (phiên âm) để có thể đọc được dễ dàng. Trường MaLop (mã

lớp) và trường MaCN (mã cập nhật) là hai khoá ngoài liên kết với hai bảng

phanlopcvt và nguoncncvt tương ứng... Bảng CVTs chứa tất cả CVT có được để

khai thác và tiếp tục cập nhật.Bảng phanlopcvt liệt kê các lớp CVT gồm MaLop (mã

lớp) và TenLop (tên lớp). Bảng nguoncncvt chứa các trường mã cập nhật, họ tên, e-

mail, mật khẩu... ngày cập nhật của người cập nhật trực tuyến CVT và nguồn cập nhật

hay địa chỉ trang web.

Ngoài ra, con có các bảng dữ liệu trung gian được xây dựng để phục vụ cho việc

cập nhật dữ liệu, làm giàu kho dữ liệu.Bảng thuthapviet phục vụ cho việc cập nhật

trực tuyến, làm giàu kho dữ liệu CVT tiếng Việt của NSD trên mạng Internet. Bảng

bao gồm các trường tương tự như bảng cvtviet (phụ lục 2). Bảng tttdviet phục vụ

cho việc cập nhật tự động làm giàu kho dữ liệu CVT tiếng Việt trên Internet hoặc từ

các tập tin văn bản. Bảng gồm các trường: cvt (chữ viết tắt), Cau (câu hay cụm từ

đầy đủ của CVT), Doan (đoạn văn bản chứa câu hay cụm từ viết tắt), NguonURL,

GhiChu (nguồn gốc CVT, website hay tập tin...), Ngay (ngày thu thập được CVT),

MaCN (mã cập nhật của người biên tập) - khoá ngoài liên kết với bảng nguoncncvt

(phụ lục 2).

Để đảm bảo an toàn dữ liệu, tính chính xác của thuật ngữ viết tắt, dữ liệu lưu ở

các bảng trung gian được biên tập lại sau đó mới đưa vào sử dụng chính thức trong

bảng cvts. Kết quả xây dựng, cài đặt CSDL như hình 3.2.

3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT

3.2.1. Thu thập dữ liệu thủ công

Giải pháp cập nhật thủ công thường được sử dụng để cập nhật dữ liệu khi xây

dựng bất kỳ một hệ thống CSDL nào. Nguồn dữ liệu được thu thập từ các nguồn khác

nhau như sách, từ điển, báo, tạp chí, văn bản pháp quy, báo cáo khoa học, hay từ

thực tiễn cuộc sống…Có chú ý lưu lại nguồn tham khảo CVT, người cập nhập, người

biên tập dữ liệu. Phương pháp thực hiện:

Trước đây, sử dụng hệ soạn thảo văn bản Winword để tiến hành cập nhật và

kiểm tra thủ công nội dung hệ thống CVT theo từng lĩnh vực sử dụng khác nhau. Các

CSDL của CVT trong Winword được xây dựng trước khi cập nhật có cấu trúc dạng

mẫu văn bản (document template) đã được phát triển ở Khoa CNTT, Đại học Đà

Nẵng [44][45]. Từ các CSDL văn bản Winword, tiếp tục chuyển đổi qua dạng XML

hoặc dạng CSDL khai thác sử dụng bằng MySQL.

Do số lượng CVT lớn, phân ra nhiều lĩnh vực khác nhau, để từng bước làm đầy

kho ngữ liệu CVT, đối với những CVT phát sinh trong thực tiễn, hiện nay ta sử dụng

cách cập nhật trực tuyến thủ công bởi hệ thống website hoàn chỉnh, thực hiện quản

trị và biên tập cập nhật, tiến đến cung cấp cho NSD cập nhật trực tuyến. Cách thu

thập thông tin trực tuyến là cách huy động nguồn lực và trí tuệ tập thể nhiều người để

làm giàu kho dữ liệu.

3.2.2. Thu thập dữ liệu tự động

Từ kết quả cập nhật thủ công, trực tuyến nêu trên, tiếp tục làm giàu CSDL của

CVT một cách tự động từ môi trường Internet hoặc các tập tin dữ liệu đã có. Đây là

giải pháp cập nhật tự động dữ liệu. Giải pháp cập nhật tự động giới hạn trong việc

tìm kiếm những CVT mới tiếng Việt.

Nguồn dữ liệu được thu thập từ các website trên mạng Internet, các tập tin dữ

liệu dạng *. HTM, tập tin dữ liệu văn bản phổ biến như *.DOC. Có lưu lại nguồn

tham khảo, trích dẫn CVT, người cập nhập, người biên tập dữ liệu.

Phương pháp thực hiện: Dựa vào các dấu hiệu nhận biết CVT trong một văn

bản, trích lọc ra các CVT mới để bổ sung vào CSDL. Hai phương pháp đề xuất:

1) Cập nhật CVT mới từ tập tin văn bản DOC

Dữ liệu văn bản hiện nay được soạn thảo và lưu giữ rất phổ biến bởi phần mềm

Winword. Việc thu thập CVT mới từ các văn bản word là khả thi. Có thể thực hiện

giải pháp thu thập các CVT mới từ trong các tập tin văn bản *.DOC. Thay vì phải tìm

từng cụm từ viết tắt, phương pháp đề xuất là “bán tự động”, dựa vào Macro và lập

trình VBA để thực nghiệm. Bằng cách mở tập tin Word, thực hiện một Marcro chọn

lọc các cụm từ trong cặp dấu ngoặc đơn (...), đưa về một bảng, từ đó tiếp tục biên tập,

chuyển đổi thành dữ liệu CVT chính thức. Macro này sẽ thực hiện các bước theo

thuật toán đã chỉ định như mục 1, phần phụ lục 3).

2) Cập nhật CVT mới tự động từ Internet

Luận án nghiên cứu, phát triển máy tìm kiếm CVT dựa vào công cụ máy tìm

kiếm đã được giới thiệu nguyên lý trong [11]. Ý tưởng hoạt động như sau: máy tìm

kiếm CVT nhận một danh sách URL, gửi yêu cầu đến Web Server và nhận lại một

trang HTML tương ứng với mỗi URL (tương tự chức năng View Source trong trình

duyệt Internet Explorer).

Bước tiếp theo, chương trình sẽ phân tích nội dung tập tin dạng HTML. Vận

dụng các hàm chức năng của các ngôn ngữ lập trình có hỗ trợ ứng dụng biểu thức

chính quy (Regular Expressions) để loại bỏ các thẻ HTML và các thẻ khác, chuyển

tập tin về dạng đơn giản hơn. Tiếp theo là xử lý tập tin theo kiểu xử lý chuỗi để bóc

tách nội dung văn bản cần tìm, lọc ra CVT mới để lưu vào CSDL, so sánh với CVT

trong CSDL để lưu giữ hoặc không, hoặc có những đánh giá cần thiết khác. Thuật

toán mô tả hoạt động của máy tìm kiếm CVT trong môi trường Internet như sau:

Mô tả thuật toán tìm kiếm CVT mới: Thuật toán sẽ thực hiện 4 vòng lặp:

(1) Vòng lặp thứ nhất mở tập tin trong danh sách liên kết tìm thấy của URL.

(2) Với mỗi tập tin được mở, vòng lặp thứ 2 đọc từng đoạn văn bản. Nếu nhận

thấy đoạn văn bản nào có dấu hiệu CVT nằm trong cặp dấu (...) thì thực hiện

vòng lặp thứ 3 đọc từng câu trong đoạn.

(3) Với mỗi câu được đọc, nếu nhận thấy câu văn bản nào có dấu hiệu CVT

nằm trong cặp dấu (...) thì thực hiện vòng lặp thứ 4 xét chọn lấy các cụm từ

nằm trong (...).

(4) Với mỗi một cụm từ được chọn (...), dùng các dấu hiệu nhận biết CVT để

loại bỏ các cụm từ không là CVT để trích chọn ra CVT. Từ đó trích chọn ra

nghĩa của CVT là gì, trích chọn ra câu hay đoạn chứa CVT, so sánh CVT tìm

được với dữ liệu đã biên tập, chưa biên tập. Lưu vào CSDL và in ra màn hình

kết quả tìm kiếm CVT.

Sau đó biên tập và lưu chính thức vào kho ngữ liệu CVT.

3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới

Ý tưởng thuật toán: Máy tìm kiếm CVT nhận một URL, gửi yêu cầu đến Web

Server, nhận lại một trang HTML tương ứng với mỗi URL; xử lý tập tin theo kiểu xử

lý chuỗi để bóc tách nội dung văn bản cần tìm, lọc ra CVT mới, so sánh với CVT

trong CSDL để lưu hoặc không, hoặc có những đánh giá cần thiết khác, thuật toán

đặt tên là SENVA - máy tìm kiếm chữ viết tắt tiếng Việt mới (Search Engines for

New Vietnamese Abbreviations).

Thuật toán: SENVA

Input: Địa chỉ URL Output: Dữ liệu CVT nhận được bảng TTTDVIET Begin

Kết nối và mở các CSDL làm việc trung gian Xác định URL làm việc Xác định DanhSach các liên kết trên URL để tìm kiếm CVT Khởi động bộ đếm CVT, các biến đánh giá CVT Repeat

Open một tệp HTML/PHP trong DanhSach Read nội dung tệpHTML và xử lý bóc tách: Repeat Read từng đoạn trong tệp gán vào biến Doan If Xoá bỏ khoảng trắng đầu cuối Xoá bỏ các thẻ HTML, PHP Bóc tách dữ liệu Trích các câu trong Doan gán vào biến MotCau

Repeat

If - Trích ra được CVT, trích chọn nghĩa của CVT - Trích chọn câu chứa CVT, So sánh với CSDL đã biên tập,

If Trích CVT nằm trong (...) gán cho TuDuocChon Repeat chưa biên tập

- Lưu vào CSDL trung gian, cập nhật bộ đếm - In ra màn hình tham khảo

endif

Until

Endif

Until

Endif Until

Until

End

Đánh giá thuật toán SENVA

Thuật toán xử lý nội dung tập tin dưới dạng chuỗi, ký tự; sử dụng bốn vòng lặp

lồng nhau có các điều kiện kết thúc lần lượt là: khi không còn một cụm từ được trích

chọn trong một câu (danh sách câu là hữu hạn), khi không còn một câu trong một

đoạn (danh sách đoạn là hữu hạn), khi không còn đoạn văn bản trong tệp và khi

không còn tệp trong danh sách hữu hạn các tệp đảm bảo tính kết thúc giải thuật.

Đánh giá độ phức tạp thuật toán: Do sử dụng bốn vòng lặp lồng nhau, độ phức

tạp của thuật toán là O(n4). Tuy nhiên, vòng lặp trong cùng (thứ 4) có chứa lệnh so

sánh CVT tìm được với CSDL đã có, tương ứng như một vòng lặp duyệt các mẩu tin

trong CSDL, sẽ làm tăng độ phức tạp giải thuật thành O(n5); cần cải tiến thuật giải

theo hướng loại bỏ sự so sánh trực tiếp mỗi CVT tìm được với CSDL đã có.

3.2.4. Thực nghiệm cài đặt thuật toán SENVA

Chương trình cài đặt bởi các mã lệnh PHP, các thẻ HTML trong trang web

thuthapv5.php với mã nguồn chi tiết trên website [74]. Ở đây luận án chỉ trình bày

những thủ tục chính trong phần phụ lục 3, và sử dụng chú thích bởi dấu // trước hoặc

sau dòng lệnh. Chương trình cài đặt sử dụng các biểu thức chính quy và các hàm PHP

để xử lý chuỗi. Ví dụ: $btcqdaungoac="/[^$]+[$$]/" là biểu thức chính

quy chọn chuỗi nằm trong cặp dấu ngoặc. Hàm:

preg_match_all($btcqdaungoac,$xetcau,$Upwords)

trích chuỗi trong dấu ngoặc từ câu hiện hành đang xét là lưu vào biến mảng hai chiều

$Upwords.

Thực hiện chương trình

Upload chương trình lên máy chủ: http://10.59.0.14. Đây là server ảo hóa trong

mạng điều hành sản xuất kinh doanh của VNPT Đà Nẵng. Tệp mã nguồn chương

trình chính lưu trữ trên C:\inetpub\wwwroot\thuthapCVT.php. Chương trình có thể

thực hiện tìm CVT mới tự động trên một website bất kỳ bằng cách: Kết nối Internet,

khởi động Internet Explorer (IE)/ Google Chrome. Sau đó: Gõ lệnh thực thi máy tìm

kiếm trên thanh Address theo dạng thức:

http:///thuthapcvt.php?url=<địa chỉ URL>

Kết quả sẽ được nhận được là danh sách liên kết được duyệt trên trang chủ. Phần

sau là các CVT tìm thấy được được đánh số thứ tự, mỗi CVT có trích chọn nghĩa

CVT, đánh giá trùng lặp dữ liệu hay không và hiển thị câu, đoạn có chứa CVT - xem

như ngữ cảnh sử dụng CVT, để phục vụ cho biên tập dữ liệu.

3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT

3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành

Phân tích nhu cầu thực tế: Hàng ngày, tại Đài Thông tin Kinh tế Xã hội VNPT Đà Nẵng37 (Đài 108), mỗi điện thoại viên (ĐTV) chuyên nghiệp làm việc trong ca trực

thường xuyên nhận được khoảng vài trăm cuộc gọi đến từ khách hàng yêu cầu cung

cấp thông tin. ĐTV trực máy, lắng nghe, xác định nội dung yêu cầu rồi thao tác trên

máy tính để tìm thông tin, trả lời khách hàng.

Thực tế cho thấy, ĐTV dành hơn một nửa thời gian giao dịch để thao tác trên máy

tính: nhận diện được nội dung văn bản, gõ phím (tiếng Việt), tìm kiếm, xem xét và

thông báo ngay kết quả. Suốt tiến trình này, hoạt động thao tác xử lý văn bản, cập nhật

giá trị (khóa) tìm kiếm thường lặp đi, lặp lại, thường hay xảy ra nhập nhằng, không rõ

ràng… về tên gọi, địa chỉ, về vị trí địa lý hay vùng miền…

Với mục đích rút ngắn thời gian thao tác trên bàn phím, làm tăng hiệu năng hoạt

động của hệ thống và trợ giúp ĐTV giúp tăng năng suất lao động, giải pháp đề xuất

dựa trên ý tưởng vận dụng những kết quả nghiên cứu có tính hệ thống về CVT, kết

hợp với hệ thống CSDL giao dịch thường sử dụng của ĐTV: xây dựng vừa đủ các

quy tắc CVT để ứng dụng vào CSDL phục vụ hoạt động tìm kiếm chuyên nghiệp của

các ĐTV.

Khảo sát thực tế

Hoạt động giao dịch qua điện thoại: ĐTV là những người có chuyên môn nhận,

nghe điện thoại từ khách hàng yêu cầu, tìm kếm thông tin và trả lời ngay cho khách

hàng càng nhanh càng tốt. Số liệu hoạt động khai thác dữ liệu cung cấp cho khách

37VietNam Posts and Telecommunications Group: Tập đoàn Bưu chính Viễn thông Việt Nam.

hàng [2] được thống kê trong bảng 3.1 dưới đây.

Bảng 3.1. Thống kê số liệu tác nghiệp

Số ĐTV trong mỗi ca trực (8 giờ)

ĐTV

Tổng số cuộc gọi đến

Cuộc

59.046

Tổng số cuộc gọi DBĐT

Cuộc

37.788

Tổng thời gian giao dịch tối đa trong ngày làm việc

Phút

366

Thời gian xử lý cho một cuộc tìm kiếm trên DBĐT

Giây

100

Thời gian truy tìm thông tin trong CSDL một cuộc gọi

Giây

Số cuộc điện thoại phải xử lý trong ngày

Cuộc

220

Stt Nội dung tác nghiệp của ĐTV Đơn vị Giá trị

Từ bảng 3.1 có thể phân tích như sau: Trung bình mỗi ngày ĐTV nhận trên 160

cuộc gọi, nhưng vẫn có thể xử lý được hơn 220 cuộc, nếu ĐTV có thao tác hợp lý.

Trên 60% cuộc gọi yêu cầu truy cập DBĐT cung cấp địa chỉ, số điện thoại... (tỷ lệ tại

thời điểm thống kê 37.788/59.046 cuộc). ĐTV dành trên 50% thời gian (183/366 phút

làm việc theo ca) để truy tìm trong DBĐT. Mỗi cuộc gọi, ĐTV dành rất ít thời gian

(~40 giây) để thực hiện nghiệp vụ giao tiếp với khách hàng. Cấu trúc CSDL phục vụ

ĐTV tra cứu: Hình 16, phụ lục 5, minh họa hệ thống CSDL 108.

Kết quả thống kê có 24 nhóm danh mục CSDL được mô tả trong Bảng 3.2:

Bảng 3.2. Thống kê CSDL tác nghiệp

DBĐT

148.250

Tin nóng

5.914

Các nhóm khác

61.244

Tổng

215.408

153

Stt Nhóm danh mục Số bản ghi Dung lượng (MB)

Phân tích bảng 3.2 cụ thể hơn như sau:

Nhóm DBĐT gồm các CSDL địa phương (Đà Nẵng và 12 tỉnh/thành trong khu

vực) có cùng cấu cấu trúc gồm các trường: SO_MAY, TEN_CQ, DIA_CHI…; Nhóm

CSDL theo lĩnh vực (du lịch, kinh tế, văn hoá...) có cấu trúc riêng. Ví dụ, CSDL du

lịch có trường: MA_SO, TIEU_DE, NOI_DUNG. CSDL hàng tháng có khoảng 1.000

bản ghi mới (chiếm 0,46%) được bổ sung, cập nhật. Nhóm DBĐT chiếm 28% lượng

dữ liệu Đài 108. Hơn 60% yêu cầu ĐTV phải truy cập tìm kiếm.

Phân tích thực tiễn khai thác CSDL cho thấy: Khối lượng dữ liệu phục vụ ĐTV

tìm kiếm rất lớn; Hoạt động truy tìm thông tin lặp đi, lặp lại, gây nhàm chán, tiêu tốn

thời gian thao tác, gây tắc nghẽn cục bộ; ĐTV thường gặp lỗi tìm kiếm do trao đổi

ngắn, nhanh qua điện thoại với khách hàng, do sự khác biệt giữa khóa tìm kiếm với

nội dung dữ liệu trong CSDL 108 (lỗi chính tả, lỗi dùng từ địa phương...); ĐTV cần

nhiều thông tin (dù là gần đúng) cho một yêu cầu của khách hàng, ĐTV có thể tư vấn,

giải thích thêm với nhiều phương án trả lời, làm hài lòng khách hàng.

Giải pháp sử dụng CVT - chỉ mục tìm kiếm: Đối với các CSDL chuyên trách

phục vụ cho các ĐTV tìm kiếm, tra cứu thông tin phục vụ nhu cầu của khách hàng,

cần sử dụng CVT làm chỉ mục tìm kiếm để tăng hiệu năng khai thác theo các bước:

1. Lập trường chỉ mục CVT: Bổ sung vào CSDL các trường chứa nội dung các

CVT tương ứng. Ví dụ trường TEN_CQ, cần có TEN_CQ_CVT chứa nội

dung CVT đại diện tên cơ quan/ doanh nghiệp/ cá nhân...

2. Xây dựng các quy tắc chuyển đổi CVT: ĐTV phải thuộc các quy tắc. Lưu

ý: Số lượng quy tắc vừa đủ, không quá nhiều để dễ gợi nhớ.

3. Xây dựng các hàm hình thành CVT chuyển đổi CVT: Chuyển đổi nội dung

các bản ghi thành các CVT tương ứng. Đây là bước rút gọn dữ liệu.

4. Chỉ mục CSDL và cài đặt chương trình: Chỉ mục CSDL theo trường CVT,

cài đặt chương trình có chức năng tìm kiếm trên nó. Cần thiết kế các phím

nóng để kích hoạt nhanh chức năng tìm kiếm.

5. Khai thác CSDL dựa trên CVT: Khi tra cứu, tìm kiếm, ĐTV chi cần gõ nội

dung tìm kiếm theo CVT thay vì gõ cụm từ đầy đủ.

Triển khai ứng dụng

Xây dựng CSDL: Áp dụng giải pháp xây dựng lại CSDL 108 bằng cách bổ sung

trường dữ liệu CVT mới làm trường chỉ mục tìm kiếm. Cách bổ sung như sau: gọi F

là trường dữ liệu của CSDL, S là nội dung của F trong một bản ghi, khi đó trường F1

được bổ sung sẽ có nội dung là ABBRFUNC(S), với ABBRFUNC là hàm hình thành

CVT đã xây dựng ở trên. Các trường đã bổ sung: TBT (Thuê bao tắt) tương ứng với

TEN_CQ (chứa tên cơ quan, doanh nghiệp, cá nhân...). DCT (Địa chỉ tắt) tương ứng

với DỊA_CHI. Sau khi áp dụng các hàm ABBRFUNC, kết quả CVT có độ dài lớn

nhất là 18 ký tự. Ví dụ CTTHHNHTMCPPTTPHCM tương ứng với “Công ty Tài

chính Trách nhiệm hữu hạn Một thành viên Ngân hàng Thương mại Cổ phần Phát

triển thành phố Hồ Chí Minh”. Xây dựng các hàm ứng chuyển đổi sang CVT lưu vào

các trường CVT (ví dụ như hàm Function Chuviettat được nêu trong mục 2, phụ lục

3). Kết quả CSDL đã xây dựng trong hình 17, phụ lục 5, minh họa hệ thống CSDL

đã xây dựng.

Xây dựng ứng dụng: Nguyên tắc thiết kế ứng dụng chương trình tìm kiếm cho

ĐTV chuyên nghiệp khai thác cần phải đảm bảo:

- Việc chọn lựa CSDL theo tỉnh/thành giúp tìm kiếm dễ dàng, nhanh chóng.

- Thiết kế cửa số tìm kiếm DBĐT nằm trọn vẹn trong màn hình giao tiếp.

- Sử dụng các phím nóng kích hoạt nhanh các chức năng tìm kiếm, hay thao

tác thường lặp đi lặp lại. Chằng hạn: Phím F1 tìm kiếm theo tên thuê bao, F2

tìm kiếm theo địa chỉ, phím F5 tìm kiếm theo tên thuê tắt...

- Tìm kiếm hỗn hợp khác để khi cần kết hợp tìm kiếm chuẩn xác (hình 3.3).

Hình 3.3. Các chức năng tìm kiếm

Một số chức năng khác như sau: Tìm danh bạ theo địa chỉ tắt: thực hiện “Tìm

số điện thoại, hay tên cơ quan, tại K626/11 Trưng Nữ Vương”, ĐTV nhấn F6 kích

hoạt chức năng tìm kiếm, gõ vào “626TNV”, hệ thống trả về danh sách các cơ quan/cá

nhân cùng ở tại địa chỉ này. ĐTV lựa chọn một phương án trả lời.

Đánh giá kết quả đo đạt dựa trên kết quả thống kê số liệu tác nghiệp trước và

sau khi sử dụng giải pháp CVT trong CSDL 108 được nêu trong mục 3.4.2.

3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục

Lý thuyết phân tích và thiết kế CSDL đã chỉ ra các bước tiến hành phân tích và

thiết kế CSDL bao gồm phân tích dữ liệu và thiết kế CSDL quan hệ [19].

Đầu tiên là phân tích CSDL (a), là bước xác định các yêu cầu về dữ liệu, mô

hình hoá dữ liệu (xây dựng mô hình thực thể liên kết biểu diễn các yêu cầu về dữ

liệu). Tiếp theo là bước thiết kế CSDL quan hệ (b), thực hiện thiết kế logic CSDL

(xác định các quan hệ, chuẩn hoá các quan hệ, thiết kế vật lý CSDL, cài đặt vật lý chi

tiết trong hệ quản trị CSDL đã lựa chọn.

Thuộc tính định danh và CSDL danh mục: Thuộc tính định danh hay còn gọi

là định danh thực thể, hoặc là thuộc tính khoá, có giá trị phân biệt các thực thể khác

nhau. Việc xác định và định danh thực thể thoả mãn các tiêu chí: Tên gọi là danh từ,

có nhiều thể hiện, có duy nhất một định danh, có ít nhất một thuộc tính mô tả, có quan

hệ với ít nhất một thực thể khác. Thực chất đó là quá trình phân tích xác định CSDL

danh mục cơ sở, từ đó xác định liên kết giữa các thực thể.

Nhận xét: Thiết kế CSDL danh mục có tầm quan trọng trong xây dựng chương

trình, bảo trì và khai thác sử dụng.

Xây dựng CSDL danh mục trong Hệ thống ĐHSXKD chuyên ngành

Thực tế khi xây dựng hệ thống phần mềm điều hành SXKD chuyên ngành VT-

CNTT của VNPT Đà Nẵng, đã có 55 bảng CSDL danh mục cơ sở, trong tổng số gần

100 bảng CSDL. Khi bổ sung thêm dịch vụ, số bảng CSDL danh mục sẽ tăng lên tùy

theo đặc trưng dịch vụ bổ sung. Phân tích chi tiết các bảng CSDL danh mục cơ sở,

nhận thấy dữ liệu có số mẫu tin không lớn, các lập trình viên thường ít chú trọng đến

giá trị các trường mã hóa của CSDL danh mục, thường dùng kiểu số/ký tự để khai

báo, cấu trúc chung như bảng 3.4 dưới đây:

Bảng 3.3. CSDL danh mục chuyên ngành

ID_XYZ

C(2)

ID là mã hóa

ND_XYZ

C(100)

Tên chi tiết XYZ

STT Tên trường Kiểu dữ liệu Ý nghĩa

Trong đó, trường ID_XYZ thường được chọn lấy các giá trị gần như các giá trị

số: 01, 02, ... các giá trị này gần như là số hóa, ít gợi nhớ, gây khó khăn trong lập

trình, bảo trì, bảo dưỡng và khai thác. Trong lĩnh vực bưu chính, Bộ Thông tin Truyền

thông đã ban hành Bộ mã quốc gia và công bố trên [78] (hình 8, phụ lục 5), chủ yếu

là mã số hóa theo thông lệ quốc tế. Đối với ngành VT-CNTT hiện chưa có bộ mã

danh mục nào thống nhất ban hành toàn quốc.

Đề xuất ứng dụng CVT quy định bộ mã chuyên ngành VT-CNTT

Giải pháp đề xuất này có tính chất hành chính, tuy nhiên nó đã góp phần chuẩn

hóa dữ liệu cho CSDL danh mục, áp dụng cho toàn mạng lưới VT- CNTT, giúp cho

công tác quản lý, lập trình, bảo trì, bảo dưỡng phần mềm, mạng lưới và sử dụng

chương trình được thuận lợi. Trong đó, các dữ liệu mã hóa sử dụng CVT thường phải

(1) CVT mã hóa được một tổ chức ban hành, có phạm vi, giới hạn áp dụng.

(2) CVT mã hóa là duy nhất, không trùng lặp để tránh nhập nhằng.

(3) CVT mã hóa thường dùng thêm các ký tự theo một quy luật định sẵn.

thỏa mãn các điều kiện:

Ví dụ 1: Quy định Chuẩn hóa danh mục hình thức thanh toán

DM_HT_TTOAN áp dụng CVT trong cụm từ mô tả:

Chữ viết tắt cho hình thức thanh toán

Mô tả

Tại nhà

Chuyển khoản

Bảng 3.4. CSDL danh mục hình thức thanh toán

Tiền mặt

UNC

Ủy nhiệm chi qua ngân hàng

UNT

Ủy nhiệm thu qua ngân hàng...

Ví dụ 2: Quy định mã thanh toán của khách hàng như bảng dưới đây:

Bảng 3.5. Bảng mã vùng thanh toán

+ <09 Mã thanh toán DNG+xxxxxxxxx chữ số>

Nhiều quy định mã hóa có sử dụng CVT đã được đề xuất ban hành và áp dụng

(bảng 1, phụ lục 4): Quy định đánh mã trong phần mềm điều hành sản xuất kinh

doanh cho các tỉnh/thành trong khu vực, quy định bộ mã mạng cáp đồng, quy định

bộ mã cột treo cáp, quy định bộ mã mạng cáp quang GPON...

3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia

Ngày nay, vai trò của CSDL quốc gia trong phát triển chính quyền điện tử, chính

phủ điện tử là rất quan trọng, hiện vẫn còn tình trạng không thống nhất về danh mục,

chia xẻ thông tin dùng chung trong các CSDL của các ngành.

Việc xây dựng CSDL quốc gia đóng vai trò quan trọng trong phát triển kinh tế,

xã hội bởi vì [84]: Cơ sở dữ liệu quốc gia là cơ sở dữ liệu lõi, được dùng chung, chia

xẻ sử dụng thuận tiện giữa các hệ thống thông tin của các Bộ, ngành, địa phương khác

nhau, phù hợp với yêu cầu quản lý. CSDL đóng vai trò như hạ tầng thông tin, tạo nền

tảng cho các hệ thống thông tin khác hoạt động và phát triển.

Một trong những yêu cầu căn bản của CSDL quốc gia là việc thống nhất, chuẩn

hóa Bộ mã danh mục dùng chung tầm mức quốc gia. Nghiên cứu CVT và sự ứng

dụng trong xây dựng bộ mã chuyên ngành, luận án đề xuất ý tưởng về một giải pháp

có tính chất tăng cường quản lý trong CNTT và truyền thông: Nhà nước cần có cơ

quan nghiên cứu ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng

CVT để có tính gợi nhớ, dễ hiểu, dễ sử dụng, nhất là đối với đội ngũ chuyên gia thiết

kế CSDL, lập trình viên, bảo trì, bảo dưỡng phần mềm, tạo điều kiện trao đổi chia xẻ

thông tin, khai thác CSDL quốc gia được dễ dàng và đồng bộ.

Chẳng hạn, cần ban hành Bộ mã CSDL quốc gia, sử dụng thống nhất trong mô

tả, xây dựng các ứng dụng phần mềm. Trong đó, yếu tố cần thiết và ưu tiên là sử dụng

CVT trong cấu trúc mã hóa CSDL danh mục, được quản lý thống nhất, bắt buộc dùng

chung bộ mã; tạo điều kiện để xây dựng CSDL lõi quốc gia, nhằm hướng đến xây

dựng chính phủ điện tử, chính quyền điện tử, thành phố thông minh.

Cấu trúc CSDL đề xuất:

Bảng 3.6. CSDL danh mục quốc gia chuyên ngành

ID_XYZ

ID là mã hóa sử dụng quy tắc hình thành CVT (ví dụ quy tắc 1, 2…)

2 ND_XYZ

Tên chi tiết XYZ danh mục

SOHOA_XYZ

Mã số hóa khác như mã vạch38,…

STT Tên trường Kiểu dữ liệu Cấu trúc

1. Bộ mã CSDL danh mục tỉnh/thành: Sử dụng tương tự bộ mã viễn thông

như: HNI (Hà Nội), DNG (Đà Nẵng)... Chi tiết: bảng 2, phụ lục 4.

2. Bộ mã CSDL danh mục thành phần dân tộc: KINH (dân tộc Kinh), BANA

(dân tộc Ba Na), GIRA (dân tộc gia rai),...

3. Bộ mã CSDL danh mục chuyên ngành: EDU: Giáo dục; YTE: Y Tế; ITC:

Công nghệ Thông tin và Truyền thông;...

4. Bộ mã CSDL danh mục học hàm, học vị, chức danh, nghề nghiệp, trình độ

văn hóa, năng lực chuyên môn...

5. Đối với từng ngành, từng lĩnh vực: tiếp tục ban hành các bộ mã CSDL

danh mục riêng. Ví dụ: Ngành Y Tế ban hành bộ mã danh mục ngành riêng

phần mềm khám chữa bệnh: Danh mục thuốc, danh mục thiết bị, danh mục

cơ sở y tế ... Ngành giáo dục: ban hành bộ mã danh mục mã trường học,

danh mục mã môn học, danh mục mã tài liệu sách giáo khoa (theo quy tắc

38 https://vi.wikipedia.org/wiki/Mã _vạch

1 thành lập CVT để ứng dụng trong quản lý thư viện)...

3.4. ĐÁNH GIÁ KẾT QUẢ

3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt

Quá trình cập nhật tự động CVT và biên tập kiểm tra thủ công nội dung, đến

thời điểm này được thống kê số lượng CVT tiếng Việt hiện có trong CSDL như bảng

3.7 với các phân tích kết quả dưới đây.

Phân tích kết quả: Trong kết quả gần 7.000 CVT thu thập được thống kê, cập

nhật tự động mới chỉ đạt 60%, tuy có nhiều loại CVT phát sinh và biến động không

ngừng. Tỷ lệ cập nhật tự động sẽ ngày càng ít đi do CVT trùng lặp đã lưu trữ trong

CSDL. Lĩnh vực giáo dục - đào tạo có CVT khá lớn, chủ yếu các CVT liên quan đến

mã trường học, mã ngành nghề... Lĩnh vực CNTT và truyền thông cũng có lượng

CVT khá nhiều, có sự phát triển mạnh các thuật ngữ viết tắt. Việc cập nhật thủ công

sẽ có tỷ lệ dần tăng lên do sử dụng website, khuyến khích NSD cập nhật.

Bảng 3.7. Thống kê kết quả dữ liệu chữ viết tắt

Loại

Chữ viết tắt thuộc lĩnh vực

Tổng cộng

cập nhật tự động

Tỷ lệ % cập nhật Tự động

cập nhật thủ công

Công nghệ thông tin và truyền thông Chính phủ, tổ chức chính trị xã hội

Tài chính, thương mại Tài nguyên môi trường

1 2 3 Khoa học công nghệ, kỹ thuật 4 Quân sự 5 Y học 6 Giáo dục 7 8 9 Giao tiếp cộng đồng 10 Tôn giáo 11 Tên riêng 12 Khác

350 120 253 120 255 2.378 140 130 125 150 75 120

1104 421 526 322 508 2.679 543 293 246 150 75 120

32% 29% 48% 37% 50% 89% 26% 44% 51% 100% 100% 100%

754 301 273 202 253 301 403 163 121 0 0 0

Tổng cộng

2.771

4.216

6.987 60%

So sánh với cơ sở dữ liệu CVT tiếng Việt [13] đã được Hội Ngôn ngữ học Việt

39Hội Ngôn ngữ học Việt Nam, "Danh sách chữ viết tắt xếp theo tần số"[13] (năm 2002)

Nam (ghi nhận được 1.151 đơn vị CVT39, với cách làm thủ công, thiếu quản lý, cập

nhật thường xuyên) thì giải pháp cập nhật CVT nêu trên đã ghi nhận được 4.216 đơn

vị CVT, bằng 366% so với [13]; bước đầu theo kịp sự phát triển CVT trong thực tế

và xu hướng sử dụng CVT.

Đánh giá các phương pháp: Phương pháp cập nhật CVT mới từ tập tin Word:

Thay vì phải tìm từng cụm từ viết tắt, phương pháp đề xuất là “bán tự động”, mở tập

tin Word, thực hiện một Marcro chọn lọc các cụm CVT; việc thực hiện này với dữ

liệu tập tin Word sẵn có, số lượng cập nhật CVT sẽ không lớn. Phương pháp cập nhật

CVT mới tự động từ Internet: cho thấy cập nhật tự động chỉ giới hạn trong việc tìm

kiếm CVT mới tiếng Việt. Số CVT mới được cập nhật tự động còn rất khiêm tốn, tỷ

lệ càng ngày sẽ càng ít đi do CSDL được làm giàu bằng nhiều phương pháp và đã có

CSDL. Một trong những nguồn CVT từ người sử dụng, do đó cần phải có giải pháp

cập nhật trực tuyến để có kho ngữ liệu CVT phong phú hơn.

Đánh giá cài đặt chương trình: Do chương trình chạy trực tuyến trên Internet,

nên cần cải tiến để tăng tốc độ xử lý: có thể bỏ qua việc so sánh từng CVT tìm được

với CVT có trong CSDL đã biên tập để giảm bớt việc truy nhập CSDL. Việc so sánh,

đối chiếu CVT có thể thực hiện được ở tại máy tính đơn. Cần thiết phải xây dựng một

hệ thống website thư viện CVT cung cấp chức năng vừa cho phép tra cứu, sử dụng

CVT, vừa cho phép cập nhật CVT. Đây cũng là cách thức tạo ra môi trường sử dụng

CVT ngày càng thuận lợi cho NSD.

Về ý nghĩa mở rộng thuật toán SENVA, ý tưởng cập nhật CVT mới tự động từ

Internet (máy tìm kiếm CVT) có thể được mở rộng, phát triển thành máy thống kê,

đánh giá tần số, tần suất sử dụng CVT. Điều này giúp ích cho việc biên soạn những

từ điển theo tần suất sử dụng, phục vụ cho việc đánh giá từ vựng tiếng Việt.

3.4.2. Kết quả ứng dụng khai thác dữ liệu chữ viết tắt

Đánh giá kết quả: Bảng 3.8 thống kê số liệu tác nghiệp thực tế sau khi sử

dụng giải pháp CVT trong CSDL 108 có so sánh với trước khi sử dụng giải pháp đã

thực hiện trong mục 3.3:

Stt

Nội dung

Đơn vị

So sánh

Bình thường

Sử dụng CVT

1 Tìm kiếm TBT trên DBĐT

Cuộc

22.673

2 Thời gian xử lý/cuộc/ĐTV

Giây

55%

Giây

100

75%

Thời gian xử lý tìm tên, địa chỉ trên DBĐT/cuộc

4 Khả năng ĐTV xử lý được số cuộc/ca trực Cuộc

220

293

133%

Giây

Thời gian tiết kiệm được khi gõ bàn phím / cuộc / ĐTV

6 Số cuộc tăng lên /cuộc/ĐTV

Cuộc

Bảng 3.8. Thống kê số liệu sử dụng giải pháp CVT

Kết quả phân tích sau khi so sánh Bảng 3.1 và Bảng 3.8: Tuy dung lượng dữ

liệu của CSDL mới (bổ sung hai trường TBT, DCT) có tăng 32% so với trước, nhưng

hoàn toàn phù hợp với năng lực máy chủ hiện có. Thời gian gõ phím của mỗi ĐTV

giảm đáng kể, chỉ cần 30 giây, thay vì mất 55 giây trong hệ thống cũ, rút ngắn 45%

thời gian. Với ca làm việc 8 giờ, ĐTV có trung bình 6 giờ nghe và tìm kiếm thông tin

trên CSDL, chỉ dành 1,8 giờ gõ bàn phím, xử lý được 293 cuộc, thay vì mất 3,3 giờ gõ

bàn phím, chỉ xử lý được 220 cuộc. Mỗi ca trực có 14 ĐTV, thời gian tiết kiệm được

tăng lên 14 lần. Như vậy: hiệu năng tìm kiếm sử dụng trường CVT làm chỉ mục và

gõ giá trị CVT giúp giảm thời gian gõ phím 45%; tăng hiệu năng làm việc ĐTV lên

133%, làm tăng năng suất lao động, giảm thiểu tắc nghẽn.

Mở rộng giải pháp: Những kết quả đạt được trong quá trình xây dựng và khai

thác CSDL có sử dụng CVT cho phép chúng ta tiếp tục hoàn thiện, từng bước đưa

vào phục vụ khai thác nhiều CSDL khác trong ngành viễn thông như: danh bạ cố

định, danh bạ di động..., đặc biệt khi thực hiện mở rộng Đài 108 Đà Nẵng cung cấp

dịch vụ 108 cho toàn khu vực miền Trung và Tây Nguyên với 20 tỉnh. Mở rộng ra

đối với các CSDL khác cho người chuyên trách tìm kiếm, tra cứu thông tin: Tổng đài

dịch vụ hành chính công, CSDL hỗ trợ và chăm sóc khách hàng nhiều ngành nghề

khác nhau, danh mục sách - tác giả trong thư viện online... có thể áp dụng CVT làm

trường chỉ mục tìm kiếm để tăng hiệu năng khai thác, tăng năng suất lao động của

người khai thác thông tin để phục vụ khách hàng.

Ngoài ra, các đề xuất ứng dụng CVT trong xây dựng CSDL danh mục và ứng

dụng CVT quy định bộ mã chuyên ngành VT-CNTT nêu trên nhằm mục đích góp

phần chuẩn hóa dữ liệu cho CSDL danh mục, áp dụng cho nhiều ngành, giúp cho

công tác quản lý, lập trình, bảo trì, bảo dưỡng phần mềm, mạng lưới và sử dụng

chương trình được thuận lợi. 3.5. TÓM TẮT CHƯƠNG 3

Chương này đã xây dựng được cơ sở dữ liệu CVT; đề xuất thuật toán SENVA;

xây dựng ứng dụng vào CSDL chuyên ngành VT-CNTT.

Các nghiên cứu trên có thể mở rộng ra đối với các CSDL chuyên trách tìm kiếm,

tra cứu thông tin: Tổng đài dịch vụ hành chính công, CSDL hỗ trợ và chăm sóc khách

hàng nhiều ngành nghề khác nhau, thư viện online...; có thể áp dụng CVT làm trường

chỉ mục tìm kiếm để tăng hiệu năng khai thác, tăng năng suất lao động.

Nghiên cứu trong chương này, bước đầu đã khẳng định được mối liên hệ giữa

lý thuyết ngôn ngữ học và những ứng dụng trong ngành VT-CNTT. Từ đó có những

so sánh, đối chiếu và kiểm nghiệm với những vấn đề lý thuyết đã nghiên cứu. Đồng

thời qua đó cũng đánh giá được hiệu quả thực tiễn ứng dụng CVT trong một số lĩnh

vực và làm cở sở cho bước nghiên cứu tiếp theo trong luận án.

CHƯƠNG 4.

XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT

Chương 4 đề xuất và xây dựng hệ thống khai thác CVT (AMES) có tính cộng

đồng. Thông qua AMES các nhà khoa học, NSD có thể tham gia cập nhật, kế thừa

và khai thác.

Nội dung chương này sẽ giới thiệu công cụ từ điển tra cứu CVT trên máy di

động, hệ thống website và công cụ tư vấn đặt tên CVT thương hiệu (brandname) cho

doanh nghiệp… minh họa một kết quả thực nghiệm xây dựng hệ thống khai thác CVT.

4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT

4.1.1. Lựa chọn công cụ lập trình

Để thống nhất với phần xây dựng CSDL trong hệ quản trị MySQL và một số

chương trình thu thập dữ liệu, ta tiếp tục chọn PHP để xây dựng thực nghiệm ứng

dụng web khai thác dữ liệu CVT. Trong PHP, sử dụng biểu thức chính quy để thành

lập biểu thức, dùng các hàm hỗ trợ để xử lý chuỗi. Trang web động có sử dụng kỹ thuật AJAX (Asynchronous JavaScript and XML)40 để minh hoạ việc xử lý dữ liệu

trên giao diện web.

4.1.2. Thiết kế chương trình

Thiết kế giao diện: Cũng như CSDL, bộ mã tiếng Việt Unicode cũng được lựa

chọn để thiết kế giao diện website. Chức năng của website:

- Cung cấp những thông tin chung nghiên cứu về CVT, kết quả tìm hiểu về

CVT như lịch sử, quy tắc thành lập;

- Tra cứu CVT theo hai dạng ngôn ngữ là tiếng Anh và tiếng Việt;

- Cập nhật, thu thập dữ liệu CVT;

- Thống kê số lượng CVT;

- Quản trị bao gồm biên tập, đăng ký thành viên...

40 https://vi.wikipedia.org/wiki/Ajax_(Lập_trình)

Mô hình hoạt động website như hình 4.1.

Quá trình xử lý

Đầu ra

Đầu vào

Không tìm thấy

CVT tiếng Việt

Tra cứu chính xác

Truy nhập trang web Tracứu

Giải thích

Tra cứu gần đúng

CVT tiếng Anh

CSDL Chữ viết tắt

Người sử dụng

Hình 4.1. Mô hình hoạt động của website tra cứu chữ viết tắt.

4.1.3. Kết quả xây dựng thư viện chữ viết tắt

Trang chủ đã được thiết kế và xây dựng với khung tiêu đề có liên kết tra cứu

CVT xếp theo vần A, B, C… để giúp NSD tra cứu nhanh CVT theo vần.

Kết quả tra cứu được hiện thị ngay bên dưới khung tra cứu, thuận lợi cho thao

tác tra cứu nhiều lần và tăng hiệu năng tìm kiếm của khai thác của NSD. Các chức

năng cấu hình, tra cứu, biên tập, cấu hình… minh họa trong các hình 2, 3, 4 trong

phần phụ lục 5. Thư viện CVT có địa chỉ www.chuviettat.com, cung cấp cho NSD

khai thác. Hình ảnh trang chủ Website như hình 4.2. dưới đây:

Hình 4.2. Trang chủ website thư viện chữ viết tắt

4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU

4.2.1. Tin nhắn thương hiệu là gì

Vài nét về quy định đặt tên doanh nghiệp: Theo quy định đặt tên doanh

nghiệp41, tên Tiếng Việt của doanh nghiệp bao gồm hai thành tố như sau:

Loại hình doanh nghiệp + Tên riêng

Trong đó tên riêng được viết bằng các chữ cái trong bảng chữ cái tiếng việt,

các chữ F, J, Z, W, chữ số và ký hiệu. Những điều cấm trong đặt tên doanh nghiệp:

Đặt tên trùng hoặt tên gây nhầm lẫn với tên của doanh nghiệp đã đăng ký theo quy

định; sử dụng tên cơ quan nhà nước, đơn vị vũ trang nhân dân, tên của tổ chức chính

trị...; sử dụng từ ngữ, ký hiệu vi phạm truyền thống lịch sử, văn hóa, đạo đức và thuần

phong mỹ tục dân tộc.

Tin nhắn thương hiệu: Để quảng bá và giới thiệu sản phẩm hay dịch vụ,

41Luật doanh nghiệp 2014

doanh nghiệp thường sử dụng thương hiệu của mình trong ấn phẩm truyền thông,

hoặc sử dụng tin nhắn đến máy di động khách hàng thông qua dịch vụ tin nhắn thương

hiệu (Short Message Services Brandname), gọi tắt là SMS BrandName. SMS

BrandName là một dịch vụ gửi tin nhắn hàng loạt, cho phép các doanh nghiệp có thể

triển khai các chương trình tiếp thị và chăm sóc khách hàng một cách hiệu quả với

chi phí thấp. Đặc điểm nổi bật của tin nhắn thương hiệu chính là thương hiệu của

Khách hàng được hiển thị tại mục người gửi (Sender) thay vì một số điện thoại di

động, qua đó làm tăng mức độ nhận biết của khách hàng đối với thương hiệu doanh

nghiệp [93]. Để sử dụng dịch vụ SMS Brandname, nhà cung cấp dịch vụ cần tư vấn

cho doanh nghiệp chọn lựa cho mình một Brandname. Brandname thực chất là CVT

hiển thị trên máy di động khi khách hàng nhận tin nhắn, chính là hình ảnh thương

hiệu, là “chính danh” của doanh nghiệp. Như vậy, việc đặt CVT làm Brandname, đại

diện cho doanh nghiệp phụ thuộc vào "tên doanh nghiệp". Tên riêng bao giờ cũng

nằm cuối của chuỗi tên doanh nghiệp, đặc điểm này giúp ta nhận diện thành phần tên

riêng để có tư vấn đặt tên Brandname hợp lý.

Quy tắc đặt tên SMS Brandname: Yêu cầu căn bản của Brandname là giới hạn

trong 11 ký tự (có thể phải tận dụng tối đa 11 ký tự, hạn chế tối đa ký tự trống). Cần

áp dụng các quy tắc tạo sinh CVT để đặt tên Brandname, nhằm phản ảnh nhận diện

thương hiệu của doanh nghiệp. Thực chất vấn đề đặt tên thương hiệu Brandname là

dùng CVT đại diện, trong CVT đó cần hội đủ các yếu tố đại diện, trợ giúp doanh

nghiệp phát triển thương hiệu.

4.2.2. Các bước xây dựng công cụ tư vấn đặt tên Brandname

Xây dựng công cụ tư vấn đặt tên Brandname qua các bước:

1) Bước 1: Xây dựng CSDL quản trị Brandname; tích hợp vào hệ thống CSDL

kho ngữ vựng chữ viết tắt.

2) Bước 2: Xây dựng quy tắc tạo sinh chữ viết tắt Brandname, mô phỏng dùng

công cụ lập trình tạo sinh.

3) Bước 3: Xây dựng công cụ phần mềm quản lý SMS Brandname, công cụ

tư vấn doanh nghiệp đặt tên và quản trị Brandname.

4) Bước 4: Triển khai áp dụng vào thực hiện hoạt động kinh doanh, cung cấp

cho khách hàng có nhu cầu sử dụng tin nhắn SMS Brandname.

Trong các bước đó, việc xây dựng công cụ tư vấn thông minh đặt tên

Brandname được đề xuất thực hiện theo quy trình: Khi có khách hàng hợp đồng sử

dụng brandname, nhà cung cấp dịch vụ tư vấn cách đặt tên bằng cách gõ tên đầy đủ

Doanh nghiệp/công ty... Chương trình tìm kiếm, so khớp trong CSDL, định vị tên

công ty gần đúng với tên công ty trong bảng Brandname, hiển thị ra Brandname, CVT

và khuyến nghị nên tránh đặt tên trùng với Brandname, CVT đã có (vì dễ gây nhầm

lẫn). Sau đó khuyến nghị vài cách đặt tên nào đó không trùng với các tên đã có trong

CSDL chữ viết tắt và Brandname đã lưu trữ của các doanh nghiệp đã có.

Sau đây là đề xuất thuật toán sử dụng tư vấn đặt tên CVT là Brandname.

4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu

Ý tưởng thuật toán Tư vấn đặt tên tin nhắn thương hiệu cho doanh nghiệp,

công ty - Consultant SMS brandname to the company (CSBCOM):

1) Phân tích chuỗi tên doanh nghiệp thành k chuỗi con: n1,.. nk.

2) Với từng chuỗi ni , tìm cách đưa ra các CVT, bằng cách học dữ liệu CVT

trong một tập huấn luyện lưu trữ các CVT có thể có của chuỗi ni . Nếu đã

có các CVT thì đưa ra sử dụng, nều không có các CVT, thì thành lập các

CVT của chuỗi ni (theo các quy tắc hình thành CVT); đồng thời lưu vào

tập huấn luyện để sử dụng lần sau.

3) Sau khi xử lý từng chuỗi ni, thực hiện tổ hợp kết quả theo thứ tự các chuỗi

n1,.. nk để đề xuất các CVT có thể có của chuỗi đầu vào.

4) So khớp trong bảng NGHIA_CVT_DATBIET để hiển thị các nghĩa tích

cực, nghĩa tiêu cực kèm theo, để giúp NSD có thể có diễn dịch ý nghĩa tích

cực hay tiêu cực, từ đó chọn lọc CVT làm các Brandname.

Thuật toán 1: Tạo sinh tên thương hiệu (CSBCOM)

Mô tả: Nhận chuỗi vào là tên doanh nghiệp, tư vấn đặt tên thương hiệu là các CVT cho doanh nghiệp sử dụng tin nhắn quảng bá, giới thiệu, chăm sóc khách hàng.

Input:

+ Chuỗi tên Doanh nghiệp/Công ty; địa phương, lĩnh vực

+ Tập các CVT có nghĩa đặc biệt: NGHIA_CVT_DACBIET + Kho ngữ liệu CSDL các Chữ viết tắt: CVTS

Output:

+ Hiển thị khung cửa số các CVT là các tên Brandname

+ Đưa ra ý nghĩa các tên Brandname có thể có (tích cực/tiêu cực)

Begin

- Khởi tạo tham số, biến (biến đếm, cấu trúc Cây lưu trữ từ/cụm từ phục vụ

lưu trữ khi phân tích String tên doanh nghiệp, cấu trúc mảng dữ liệu chứa

kết quả tư vấn)

- Tiếp nhận giá trị Input (String tên doanh nghiệp–sNameCompany) - Gọi hàm “Phân tích chuỗi”; - Tìm trong Từ điển dữ liệu chữ viết tắt:

 Nếu tìm thấy thì gắn nhãn cho nút lá;  Ngược lại: Gọi hàm "Xây dựng chữ viết tắt và Đánh trọng số"

cho các từ trong từ điển dữ liệu;

- Thực hiện phép toán tổ hợp trên tầng lá của Cây để cho ra kết quả tư vấn;

- Lưu trữ tại mảng đã khai báo; - Hiển thị khung cửa sổ các CVT là các tên Brandname

- Đưa ra ý nghĩa các tên Brandname có thể có (tích cực/tiêu cực)

End

Trong đó, hàm “Phân tích chuỗi” và hàm "Xây dựng chữ viết tắt và Đánh trọng

số" được xây dựng:

Hàm “Phân tích chuỗi”: Nhận chuỗi nhận vào tên doanh nghiệp, phân tích

chuỗi và tạo ra cây lưu trữ các chuỗi để chuẩn bị sử dụng quy tắc đặt tên CVT.

Input: Tên của doanh nghiệp - sNameCompany Output: Cây lưu trữ dữ liệu đã được phân tích - sTree

Begin

+ Đếm số từ đơn trong sNameCompany (Gọi là nCount) + Khởi tạo số nút của Cây nElement = int(nCount/2) – Số nguyên của phép chia

cho 2; + Khởi tạo biến đếm i = 1; While i < nElement do

+ Mỗi nút lá thứ i của Cây được gán giá trị =

substr(sNameCompany,i2-1,i2) (giá trị lớn nhất của i = nElement-1);

+ Tăng biến đếm i = i + 1; + Giảm từ trong sNameCompany =

substr(sNameCompany, i*2+1);

End While

+ Gán giá trị cho Nút lá thứ i = sNameCompany;

End.

Ghi chú: Trong hàm này, tạm thời áp dụng phân tích chuỗi đơn giản để thể hiện

thuật toán, có thể cải tiến và áp dụng tách từ tiếng Việt để phân tích chuỗi như nghiên

cứu [24] và [85] đã chỉ ra.

Hàm “Xây dựng chữ viết tắt và đánh trọng số”: Xây dựng chữ viết tắt và

đánh trọng số, tạo cơ sở lựa chọn tư vấn đặt tên thương hiệu cho doanh nghiệp(học

lại các từ đã có/chưa có trong từ điển).

Input: Cây dữ liệu - sTree

Output: sTree có gắn nhãn viết tắt và được đánh trọng số

Begin

While do

- Với mỗi nút trên sTree, tìm trong kho ngữ liệu CVT, kể cả trọng số

đang có trong CSDL viết tắt. Nếu tìm được thì:

 Tương ứng mỗi từ tìm được sẽ là một nút lá tại sTree.Element

tương ứng (gồm cả nhãn viết tắt và trọng số);

 Ngược lại, từ này chưa có trong từ điển thì: tạo từ viết tắt (Theo

quy tắc hình thành CVT), đưa vào sTree và CSDL từ viết tắt vừa

tạo với trọng số = 0(khởi tạo);

End While - Cập nhật trọng số cho các từ viết tắt trong sTree tìm được = Trọng số hiện

tại + 0.1 (0.1%); //Sau khi kết thúc vòng lặp trên, cây sTree sẽ có 3 tầng (Root là sNameCompany, các nút tầng 2 là các sTree.Element, các nút là

đến thời điểm này là kết quả của vòng lặp trên;

- So khớp trong bảng NGHIA_CVT_DACBIET để hiển thị các nghĩa tích

cực, và nghĩa tiêu cực kèm theo

- So khớp trong bảng CVTs để hiển thị các nghĩa CVT đã có trong CSDL

End: Trả về danh sách CVT Brandname sắp xếp theo trọng số giảm dần.

Bảng NGHIA_CVT_DACBIET lưu các CVT có nghĩa nào đó, khi đưa ra tư

vấn tên Brandname, sẽ rà soát, so khớp để lấy nghĩa tích cực, diễn dịch ý tưởng CVT,

lấy nghĩa tiêu cực để loại bỏ và khuyến nghị không nên sử dụng CVT này để tránh

Bảng 4.1. Bảng NGHIA_CVT_DACBIET

nhầm lẫn, hiểu sai hay nhập nhằng ý nghĩa CVT.

CVT Ý nghĩa

VINA HOAPHAT

1 0 0

4U TANGTOC HATHU

HAPHA

Việt Nam, Vinaphone Hóa phát, không hòa thì phát Phát triển, phương trình, phương thức, phương thanh, phát thanh For U, vì bạn, cho bạn, Tăng tốc, tang tóc Hà Thu, Hận thù, Hạnh phúc, phẩm hạnh, hồng ân phát, phát hồng ân, hãy phát triển ...

Tích cực/ tiêu cực 1 1

HUAN_LUYEN là một bảng huấn luyện lưu các CVT hình thành trong quá

trình xử lý cấu trúc cây (sTree), các lá cây được sinh ra các CVT (quy tắc hình thành

CVT). So khớp CVT vừa hình thành với CVT đã có trong tập HUAN_LUYEN, tức

là quá trình "học máy" xem các CVT nào đã từng tồn tại hay chưa. Nếu đã có CVT

trong tập HUAN_LUYEN, đọc tất cả để sử dụng; nếu chưa có, thì CVT mới hình

Bảng 4.2. Bảng HUAN_LUYEN

thành được lưu trữ vào để sử dụng cho lần kế tiếp.

Cụm từ CVT tạo sinh Trọng số

Tích cực/ tiêu cực 1 1 1 1 0.01 0 0.05 0.04

Công ty Công ty Đà Nẵng Đà Nẵng .. CT COM DN DNG

Tập HUAN_LUYEN sẽ được bổ sung dần các CVT mới một khi sự so khớp

không phát hiện CVT đã được tạo sinh nào được sử dụng trước đó. Ví dụ: Cây minh

họa mô tả các bước của thuật toán. Đầu vào: Tên = ”Tập đoàn Bưu chính Viễn thông

Việt Nam”. Quá trình xử lý: Khởi tạo các biến, cấu trúc mảng (Arr) và cấu trúc Cây

(sTree), tiếp nhận giá trị ‘Tên doanh nghiệp” gán vào biến sNameCompany. Thuật

toán con 1: “Phân tích chuỗi”, sau khi kết thúc thuật toán này, sTree sẽ có giá trị như

hình 4.3. Thuật toán con 2 “Xây dựng CVT và đánh trọng số”, đầu vào của thuật toán

Tập đoàn Bưu chính Viễn Thông Việt Nam

Tập Đoàn

Bưu Chính

Viễn Thông

Việt Nam

Hình 4.3. Cây phân tích chuỗi.

Tập đoàn Bưu chính Viễn Thông Việt Nam

Trọng số

Chữ viết tắt

Tích cực (1)/ Tiếu cực = -1

Tập Đoàn

TD, 0.1,1

Inc, 0.2, 1

Grp, 0.1, 1

Bưu Chính

BC, 0.1,1

Post, 0.2, 1

VT, 0.1,1

Viễn Thông

Tel, 0.2, 1

VN, 0.3,1

Việt Nam

VINA, 0.1, 1

VNM, 0.1, 1

Hình 4.4. Cây phân tích chuỗi và giá trị trọng số

là sTree, Out, sTree có gán nhãn CVT và có trọng số như hình 4.4:

Giả sử với mỗi từ (4 nút lá của sTree) như trên “Tập đoàn”,”Bưu chính”, “Viễn

Thông” và “Việt Nam”, thuật toán sẽ tìm, so khớp trong kho dữ liệu, tập huấn luyện

và cho ra kết quả như hình 4.4. Từ kết quả hiện có của sTree, thực hiện phép toán tổ

hợp (có thứ tự) trên các nút lá ta được mảng (Arr), ta có thể kết hợp cộng thêm các

dấu phân cách, ký tự đặc biệt để tạo ra thêm các cụm CVT khác nhau... Kết quả:

Bảng 4.3. Kết quả tạo chữ viết tắt Brandname

Arr[] Brandname Tích cực/Tiêu cực

Trọng số = Trung bình cộng các giá trị 0.15 1 TDBCVT_VN 1

2 TDBCVT_VINA 0.1 1

3 TDBCVT_VNM 0.1 1

4 TDBCTel_VN 0.125 1

5 TDPostVT_VN 0.1 1

6 TDBCVTVN 0.1 1

7 TDBCVTVINA 0.1 1

... ... ... ...

Đánh giá thuật toán CSBCOM: Thuật toán CSBCOM có tính xác định: Các

bước của thuật toán được xác định một cách chính xác, các chỉ dẫn rõ ràng, có thể

thực hiện được; áp dụng được cho mọi bài toán cùng loại, với mọi dữ liệu đầu vào

như đã được mô tả. Thuật toán CSBCOM có tính hữu hạn, chủ yếu dựa trên kỹ thuật

xử lý chuỗi; các tập huấn luyện, tập nghĩa đặc biệt các CVT có bản ghi là hữu hạn,

quá trình so khớp, tạo sinh CVT là hữu hạn; việc tổ hợp có thứ tự các CVT tìm thấy

được đảm bảo giảm được số lượng tổ hợp (tùy ý), bảo đảm tính kết thúc sau một số

hữu hạn bước của giải thuật.

Độ phức tạp của thuật toán phụ thuộc vào số mục từ trong từ điển dữ liệu CVT.

Trong từ điển các mục từ đã được sắp xếp theo trật tự, vì vậy trong CSBCOM đã áp

dụng thuật toán tìm kiếm nhị phân để tìm từ trong từ điển dữ liệu CVT. Độ phức tạp

của thuật toán O(log2n), n là số mục từ trong từ điển dữ liệu CVT.

4.2.4. Cài đặt chương trình, kết quả thử nghiệm

Cài đặt thuật toán và chương trình quản lý SMS Brandname, thực hiện thử

nghiệm bằng cách sử dụng ngôn ngữ lập trình C#. Để tạo hệ thống khai thác CVT

hướng đến tính mở, tạo điều kiện dễ giao tiếp, bảo trì; chương trình đã triển khai lập

trình giao diện ứng dụng API (Application Programming Interface), đó là cơ chế

plugin cho các hàm khi cài đặt thuật toán CSBCOM. Từng bước tối ưu API để thực

sự dễ nắm bắt, đầy đủ, không chồng chéo, dư thừa; các lập trình viên có thể phát triển

các dịch vụ bổ sung để tạo các hàm sử dụng cơ chế plugin vào hệ thống khai thác để cùng chia xẻ kinh nghiệm, ứng dụng. Cài đặt hàm API trên một server42 độc lập với

server (hoặc máy tính nào đó có kết nối Internet) chứa phần mềm SMS Brandname.

Hàm API có cấu trúc:

GetSMSBrand(, )

Khi có được công cụ tư vấn, quản trị Brandname, việc thực hiện, triển khai dịch

vụ SMS Brandname thuận lợi, hiệu quả, tăng uy tín chất lượng dịch vụ. Quá trình

thực hiện từng bước làm đầy kho ngữ liệu CVT, trong đó có Brandname doanh

nghiệp; hỗ trợ doanh nghiệp quảng bá thương hiệu, đưa sản phẩm của mình đến công

chúng bằng công cụ marketing hiệu quả SMS Brandname. Kết quả thực hiện chương

trình với các chức năng tư vấn tự động Brandname trong hình 13 và 14, phụ lục 5.

Đo đạc kết quả thử nghiệm: Qua kết quả tư vấn dịch vụ Brandname 6 tháng từ

8/2019 đến 2/2020, với khoảng 118 doanh nghiệp (DN) đến đăng ký cung cấp dịch

vụ SMS Brandname tại đơn vị, kết quả thống kê được trong CSDL ở bảng 4.4:

Doanh nghiệp không chọn tên đã tư vấn

Tổng số Doanh nhiệp đã được tư vấn

Doanh nghiệp chọn đúng tên theo Brandname tư vấn

118

Doanh nghiệp chọn đúng Brandname tư vấn

Doanh nghiệp không chọn, (chọn lại, thay đổi lựa chọn)

42 Server: 10.59.10.250:81/CSSbilsource.asmx

Bảng 4.4. Thử nghiệm tư vấn Brandname và sự lựa chọn của doanh nghiệp

Tỷ lệ chính xác (Precision) chương trình đề xuất tên đúng như DN chọn trong

danh sách tư vấn là Precision = 75/(75+43) = 0,635 (tức khoảng 64%). Đây là tỷ lệ

xác suất chương trình tư vấn đặt tên Brandname là 64%. Đây là tỷ lệ chưa cao, cần

tăng giá trị này càng cao, càng tốt. Tuy nhiên, tỷ lệ này phụ thuộc vào dữ liệu học

máy của tập huấn luyện (HUAN_LUYEN, NGHIA_CVT_DACBIET) trong thực

hiện chương trình.

Nhận xét chung:

Những đề xuất, ứng dụng thực nghiệm nêu trên là bước đầu góp phần xây dựng

Hệ thống khai thác chữ viết tắt AMES. Cần thiết phải tích hợp nhiều hơn nữa các

công cụ cập nhật, xử lý, hiệu chỉnh, tạo sinh, ứng dụng… vào AMES. AMES từng

bước hướng đến thỏa mãn các tính chất đặc trưng của hệ sinh thái phần mềm: Tính

kế thừa, Tính ổn định và Tính mở; đồng thời hướng đến một phương thức thống nhất

trao đổi thông tin AMES với các hệ thống thông tin khác.

Việc triển khai lập trình giao diện ứng dụng API để khi cần, có thể hiệu chỉnh

hàm GetSMSBrand mà không cần biên dịch hay sửa chữa bất cứ dòng lệnh nào tại

nới máy tính chứa phần mềm SMS Brandname. Đây chính là tính mở và tiện dụng

của các hàm API thể hiện trong hệ thống AMES.

4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG

4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình

Để tạo hệ thống khai thác, tra cứu CVT, từ việc xây dựng hệ thống website, ta

mở rộng xây dựng thực nghiệm ứng dụng tra cứu CVT trên máy di động, trước mắt

là thực nghiệm đối với máy di động sử dụng hệ điều hành Android.

Cơ sở dữ liệu: Sử dụng cấu trúc đã thiết kế và kho ngữ liệu CVT sẵn có như đã

trình bày trong chương 2. Công cụ hỗ trợ quản trị CSDL phục vụ lập trình trên máy

di động là phần mềm SQLite Expert Personal 4.2 (64bit). Về cơ bản, CSDL sử dụng

lại các bảng dữ liệu như đã thiết kế trong chương 2. Các bảng dữ liệu có tên

CVT_FTS_... sinh ra trong quá trình xây dựng thuật toán, sử dụng kỹ thuật tìm kiếm

toàn văn (Full Text Search) được nêu trong mục 4.3.3. Ngôn ngữ lập trình: Ngôn

ngữ lập trình sử dụng Java, công cụ lập trình sử dụng Android Studio cùng với hệ

thống phần mềm giả lập máy di động Genymotion (các hình ảnh chi tiết trình bày

trong mục 3, phụ lục 8). Sau khi lập trình, sử dụng Android Studio biên dịch thành

tập tin chương trình, cài đặt trên máy di động, chạy như một ứng dụng thông thường.

Thiết kế chương trình: Ý tưởng thiết kế chương trình từ điển CVT trên máy di

động hướng đến môi trường khai thác thuận tiện cho NSD trên máy di động (khác

với thư viện CVT đã xây dựng có địa website www.chuviettat.com):

(1) Thứ nhất, chương trình sử dụng trên máy di động tra cứu CVT theo cách

thông thường, có chức năng tìm kiếm, tra cứu, thống kê...

(2) Thứ hai, chương trình thiết kế tối ưu hóa cho người sử dụng di động: chạy

thường trú trong bộ nhớ, sử dụng tính năng copy. Khi người dùng cần tra cứu trực

tiếp CVT trên file văn bản, email, website…, nhấn màn hình cảm ứng trên cụm CVT

để chọn khối, sau đó chọn copy vào vùng nhớ đệm, chương trình sẽ lấy dữ liệu CVT

trong vùng nhớ đệm, NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm

kiếm CVT, hiển thị dữ liệu tra cứu khung cửa sổ phía trên (vẫn giữ nguyên dữ liệu

cửa sổ bên dưới), sau đó có thể đóng cửa sổ hiển thị tra cứu và tiếp tục công việc.

4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt

Cập nhật dữ liệu mới đồng bộ về máy di động: CSDL trên máy di động (client)

sẽ liên kết với website www.chuviettat.com (lưu trữ trên server) để khi có CVT mới,

dữ liệu sẽ được cập nhật về máy di động như mô hình trong hình 4.5:

a) Chương trình client sẽ lưu lại ngày cập nhật dữ liệu sau cùng (ngày A).

b) Khi client gửi yêu cầu cập nhật dữ liệu (gửi ngày A), chương trình sẽ kiểm

tra trên CSDL tại server (www.chuviettat.com) và trả về dữ liệu mới được

thêm vào (từ ngày A trở đi).

Ngày cập nhật sau cùng

Dữ liệu mới

NSD

CSDL trên máy di động

CSDL trên www.chuviettat.com

Hình 4.5. Đồng bộ dữ liệu về máy di động

Dữ liệu tần số, tần suất trên hệ thống www.chuviettat.com

Chương trình được thiết kế không cập nhật dữ liệu này về client. Vì khi làm như

vậy, mỗi lần cập nhật dữ liệu trả về khá lớn và phải cập nhật lại toàn bộ dữ liệu tại

client. Hơn nữa, phần dữ liệu này chỉ phục vụ thống kê. Việc thống kê dữ liệu tần số

và tần suất toàn mạng sẽ được thực hiện trực tuyến (online) khi có kết nối mạng. Khi

nào thực hiện thống kê, client gửi yêu cầu lên server và server chỉ trả về dữ liệu đã

tính toán thống kê (dữ liệu rất nhỏ) cho client và hiển thị. Tại client trên máy di động

có tính toán thống kê tần số, tần suất (chẳng hạn trong top 10 CVT thường sử dụng)

của NSD. Mã lệnh chương trình được giới thiệu trong mục 3 phần phụ lục 3, tiếp theo

trình bày thuật toán chính.

4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển

Vài nét về kỹ thuật tìm kiếm toàn văn (Full Text Search): FTS là kỹ thuật tìm

kiếm toàn văn trên dữ liệu "Full text database", "Full text database" là cơ sở dữ liệu

chứa "toàn bộ" các ký tự (text) của một hoặc một số các tài liệu, bài báo, hoặc của

website [88]. Khác với kỹ thuật tìm kiếm rất cơ bản, đó là thông qua câu

lệnh LIKE của SQL:

Select column_name(s)

From table_name

Where column_name LIKE pattern;

Sử dụng từ khóa LIKE tìm kiếm ở trường đã định trước, do đó lượng thông tin

phải tìm giới hạn lại chỉ trong các trường đó của CSDL; độ phức tạp sẽ là tuyến tính

với số dòng, và số kí tự của từng dòng, hay chính là toàn bộ ký tự chứa trong trường

cần tìm kiếm.

Một kỹ thuật tìm kiếm khác, tốt hơn LIKE, mềm dẻo hơn, giảm độ phức tạp

hơn, đó chính là FTS. FTS khác biệt với các kỹ thuật tìm kiếm thông thường khác

chính là kỹ thuật chỉ mục (Inverted Index). Inverted Index là kỹ thuật chỉ mục (index)

theo đơn vị (term) thay vì chỉ mục theo từng dòng row(document) giống như

MYSQL; Inverted Index là một cấu trúc dữ liệu, nhằm mục đích liên kết (map) giữa

đơn vị (term), và các tài liệu (document) chứa đơn vị đó.

Thuật toán tìm kiếm CVT trên máy di động: Search abbreviations on mobile

devices - used Full Text Search (SAOM -FTS):

+ NSD nhấn giữ trên màn hình máy di động; + Chọn cụm CVT/hoặc copy CVT vào vùng nhớ đệm. + Hiển thị khung cửa số giải thích nghĩa CVT; + Thống kê số tần số, tần suất sử dụng.

Mô tả: SAOM-FTS là thuật toán tìm kiếm chữ viết tắt trên di động - sử dụng FTS. Người dùng tra cứu trực tiếp CVT trên file văn bản, email, tin nhắn, website… bằng cách nhấn màn hình cảm ứng trên cụm CVT để chọn khối (trên máy điện thoại di động), sau đó kích chọn biểu tượng từ điển CVT, kết quả tra cứu sẽ hiện thị.

Input: OutPut: Begin

If < Chưa tồn tại CSDL trong bộ nhớ hệ thống của điện thoại > Begin

- Khởi tạo CSDL CVT (T1) - Khởi tạo CSDL CVT phục vụ tìm nhanh (T2)

Begin

- Tách các CVT trong CSDL T1 bởi khoảng trống để có thể tìm chính xác đến

từng ký tự Ví dụ như "ABC"=> A B C

- Chuyển đổi các ký tự đặc biệt về dạng ∞ + (mã ASCII của ký tự) để tìm các

ký tự đặc biệt (AB# => A B ∞35)

- Lưu nội dụng CVT đã chuẩn hóa ở trên vào T2 là CSDL đã được định nghĩa và đánh index theo cơ chế FTS (Full-Text Searches): bảng CSDL được tích hợp sẵn FTS

End

- Sao chép toàn bộ các cơ sở dữ liệu T1 và T2 vào bộ nhớ hệ thống của điện thoại - Mở kết nối đến CSDL

End Else

- Mở kết nối đến CSDL

End If While do

Begin - Lấy giá trị vùng nhớ đệm, gán vào biến X - Xóa các ký tự không phải là BMP (BMP= Basic Multilingual Plane, như ký tự

mặt cười ):

- Tách các ký tự của X bởi khoảng trống ("ABC"=> A B C):

- Chuyển đổi các ký tự đặc biệt của X về dạng ∞ + mã ASCII của ký tự (AB# =>

A B ∞35):

- < Tìm kiếm CVT X >

Begin

- Truy vấn trong CSDL T2 tất cả các CVT chứa X //chú thích mục (1) - Kết quả trùng khớp với tìm kiếm sẽ chứa tất cả các ký tự của X theo thứ

tự trước sau // mục (2).

- Kết nối với CSDL T1 để lấy đầy đủ thông tin, định nghĩa của các CVT

tìm được.

- Lưu danh sách các CVT tìm được vào mảng A.

End

- Tăng tần số và tần suất truy vấn của CVT X lưu vào dữ liệu thống kê trên

CSDL T1. Chú thích mục (3).

- Hiển thị nút thông báo có kết quả tìm kiếm CVT cạnh bên của màn hình điện

thoại và chờ NSD bấm/chạm tay vào If < NSD bấm/chạm vào nút thông báo >

Begin

- Thủ tục ẩn nút thông báo - Hiển thị danh sách giải thích chi tiết CVT tìm được (mảng A) trên màn

hình điện thoại.

- Lưu nhớ thông tin thống kê tần số và tần suất của các CVT trên hệ thống. - Hiển thị thống kê tần số và tần suất sử dụng của các CVT trên hệ thống

End Else - Nút thông báo sẽ tự động ẩn sau N giây (mặc định N = 5s, NSD có thể điều chỉnh trong chức năng cài đặt)

End If

End End While End

Mã nguồn chương trình và chú thích chúng tôi trình bày trong phần phụ lục 3.

4.3.4. Cài đặt và kết quả thực nghiệm

Sau khi xây dựng chương trình, thực hiện lệnh Build trong Android Studio, ta

có được ứng dụng có tên là: "ABC Acronym Dictionary". Sao chép tập tin lên máy

di động và cài đặt biểu tượng ABC Acronym Dictionary, hình ảnh ứng dụng chạy

trên máy di động giả lập trên máy tính (bởi Genymotion) như mục 5 phụ lục 5. Hình

ảnh ứng dụng thực tế chạy trên máy di động Samsung Not 3 như mục 6 phụ lục 5.

4.4. ĐÁNH GIÁ KẾT QUẢ

4.4.1. Đánh giá kết quả thực nghiệm AMES

Từ AMES, ta rút ra được những nhận xét, cũng là những bài học:

1. Nghiên cứu của luận án đã kết nối, liên thông theo đặc trưng chuyên ngành

khoa học máy tính đã chỉ ra, như quá trình thực hiện hình 4.6. dưới đây:

Thực tiễn sử dụng CVT + Lý thuyết ngôn ngữ học + Chuẩn hóa, xây

dựng công cụ khai thác => Hình thành hệ thống AMES

Hình 4.6. Tiếp cận nghiên cứu hình thành AMES

Nghiên cứu đã tiếp cận sử dụng CVT từ thực tiễn cùng với nghiên cứu

lý thuyết cơ sở ngôn ngữ học, từng bước chuẩn hóa quy tắc hình thành CVT,

xây dựng nguồn dữ liệu và công cụ ứng dụng khai thác CVT, hình thành hệ

thống khai thác CVT tạo lập môi trường trao đổi thông tin, thu thập, xử lý, lưu

trữ, khại thác CVT. Kết quả nghiên cứu này xem như là gạch nối nhỏ giữa lý

thuyết ngôn ngữ học với thực tiễn sử dụng và với chuyên ngành xử lý ngôn

ngữ tự nhiên trong CNTT của khoa học máy tính, góp phần cùng giải quyết

vấn đề CVT tiếng Việt được nhiều người quan tâm.

2. Đặc điểm AMES hướng đến SECO bởi các tính chất đặc trưng quan trọng

được quan tâm trong xây dựng công cụ khai thác AMES:

a) Tính kế thừa: Cộng sinh, hợp tác cùng phát triển, kế thừa, kết nối với các

hệ sinh thái phần mềm khác.

b) Tính ổn định: Hệ sinh thái có kiến trúc ổn định: Giao diện, quản lý phát

triển-tiến hóa, an ninh và độ tin cậy.

c) Tính mở: Mô hình phát triển mã nguồn mở, cộng đồng CNTT cùng tham

gia. Công cụ phần mềm của AMES được thiết kế cho nhiều tác nhân (nhà

cung cấp dịch vụ VT-CNTT) sử dụng, quảng bá, kết nối, hợp tác, tạo khả

năng cho quá trình đổi mới công nghệ, tăng năng suất lao động.

4.4.2. Đánh giá AMES đặc tả theo mô hình UML

Tổng hợp xây dựng AMES như hình 4.7 dưới đây với các chú thích (1), (2), (3)

(4) và (5) là các phần mềm và công cụ khai thác CVT đã xây dựng và cài đặt thực

•

nghiệm:

(4) Server lưu trữ hàm API: 10.59.10.250:81/CSSbilso urce.asmx

http://www.c huviettat.com Từ điển tra cứu máy tính, di động

•

(5) Cập nhật tự động CVT mới từ Internet; Xử lý nhập nhằng

(1) Công cụ tư vấn đặt tên Brandna me doanh nghiệp

(3) Phương pháp đánh giá tần số, tần suất CVT tiếng Việt

(2) Các hàm API: GetSMSBrand(, )

Hình 4.7. Kết quả thực nghiệm AMES

(6) Đơn vị phát triển phần mềm: Đóng vai trò chủ yếu trong xây dựng, lập trình

phần mềm, công cụ khai thác CVT, cung cấp giao diện kết nối (hàm API)

và trao đổi thông tin.

(7) Nhà nghiên cứu ngôn ngữ học, chuyên gia tư vấn, quy định ngữ pháp CVT:

Nghiên cứu, xây dựng quy tắc hình thành CVT, dấu hiệu nhận biết CVT, đề

xuất quy định bảng danh mục CVT quốc gia; tham gia tạo các hàm API, đề

xuất phương pháp, xây dựng thuật toán, cập nhật CVT, đánh giá tần số và

tần suất CVT.

(8) Nhà cung cấp hạ tầng tài nguyên, đường truyền, không gian lưu trữ: Cung

cấp kết nối Internet, xây dựng hoặc thuê hệ thống Server lưu trữ hàm API,

chẳng hạn như server 10.59.10.250:81/CSSbilsource.asmx.

(9) Người sử dụng, người mua, đặt hàng/thuê phần mềm (SaaS): Đó là NSD từ

điển trên máy di động, thư viên website; NSD di động nhận tin nhắn

(brandname) từ nhà cung cấp dịch vụ quảng bá SMS brandname.

(10) Nhà cung cấp dịch vụ/Doanh nghiệp: Là các đối tác hợp tác sử dụng hệ

thống phần mềm, cung cấp cho NSD dịch vụ đầu cuối: Sử dụng Công cụ tư

vấn tin nhắn Brandname, hợp đồng các doanh nghiệp để cung cấp tin nhắn

cho NSD đầu cuối di động.

Bảng 4.5 dưới đây nêu lên kết quả so sánh các tác nhân, đặc điểm và công cụ

thực nghiệm xây dựng được thể hiện AMES hướng đến SECO:

Bảng 4.5. Kết quả so sánh các tác nhân và đặc điểm AMES và SECO

Chú thích

(1)

Tác nhân của SECO Tác nhân và đặc điểm của AMES Công cụ thực nghiệm của AMES

Software developer

Xây dựng, lập trình phần mềm, công cụ khai thác, cung cấp giao diện kết nối, trao đổi thông tin

(2)

Quy tắc hình thành CVT, các hàm API, phương pháp cập nhật tự động, đánh giá tần số tần suất CVT

State, standards and certifications bodies

(3) Nature

Server lưu trữ hàm API: 10.59.10.250:81/CSSbilsourc e.asmx; Kết nối Internet

(4)

Software users

NSD từ điển trên di động, website; NSD di động nhận tin nhắn (brandname) từ nhà cung cấp dịch vụ.

Đơn vị phát triển phần mềm; Có tính kế thừa (kỹ thuật FTS, API…) Ngôn ngữ học, chuyên gia tư vấn, Quy định ngữ pháp CVT, quy tắc hình thành… Có tính kế thừa tri thức CVT, tính mở Nhà cung cấp hạ tầng tài nguyên, đường truyền, không gian lưu trữ Có tính mở, tính ổn định, sử dụng nguồn lực của nhà CC dịch vụ chuyên nghiệp. Người sử dụng, người mua, đặt hàng/thuê phần mềm (SaaS). Có tính mở khi NSD cập nhật, khai thác CVT, tù điện có tùy biến cá nhân

(5)

Software vendor

Sử dụng Công cụ tư vấn tin nhắn Brandname, cùng các Doanh nghiệp cung cấp tin nhắn cho NSD đầu cuối di động.

Nhà cung cấp dịch vụ hợp tác sử dụng hệ thống phần mềm, cung cấp cho NSD dịch vụ đầu cuối. Có tính mở, kết nối đối tác cùng khai thác và phát triển.

Như vậy, AMES hình thành cung cấp môi trường khai thác CVT cho 5 tác

nhân với các đặc điểm, được hợp tác phát triển, có mối liên quan mật thiết lẫn nhau

trong cùng một hệ thống khai thác phần mềm, vì lợi ích chung và riêng của hệ thống

phần mềm đem lại cho mỗi một tác nhân. 4.5. TÓM TẮT CHƯƠNG 4

Chương 4 đã đề xuất xây dựng hệ thống khai thác AMES nhằm thông qua

AMES các nhà khoa học, NSD có thể tham gia cập nhật, kế thừa và khai thác CVT.

Kết quả so sánh các tác nhân AMES và SECO khẳng định ý nghĩa khoa học và ứng

dụng của nghiên cứu: Từ những hiện tượng sử dụng CVT, sự hình thành CVT trong

sự phát triển ngôn ngữ tự nhiên, luận án đã từng bước quy tắc hóa CVT, xây dựng

kho ngữ liệu, khai thác được kho ngữ liệu, phát triển các công cụ, ứng dụng. Từng

bước hình thành môi trường khai thác, chia xẻ giá trị lợi ích riêng đem lại cho mỗi

một tác nhân.

Chương này cũng đã trình bày chi tiết về công cụ từ điển tra cứu CVT trên

máy di động, xây dựng thư viện CVT, công cụ tư vấn đặt CVT thương hiệu

(brandname) cho doanh nghiệp. Trong đó, xây dựng thuật toán SAOM-FTS trong

công cụ từ điển chữ viết tắt trên máy di động, đồng bộ dữ liệu giữa website thư viện

chữ viết tắt và từ điển chữ viết tắt trên máy di động. Cùng với các kết quả thực nghiệm

trình bày trong các chương trước, chương này đã minh họa kết quả thực nghiệm xây

dựng hệ thống khai thác chữ viết tắt AMES.

CHƯƠNG 5.

XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT

Chương 5 tập trung phân tích và đề xuất hướng tiếp cận giải quyết vấn đề xử lý

nhập nhằng CVT. Tiếp cận phân tích ngữ cảnh văn bản, nhận diện tình huống sử

dụng CVT trong văn bản. Xây dựng vị từ và hàm nhận diện CVT trong văn bản, từ

đó đề xuất xây dựng cơ sở luật, thuật toán nhận diện và xử lý nhập nhằng CVT trong

văn bản, giới hạn thực nghiệm văn bản trong lĩnh vực chuyên ngành viễn thông.

Một hướng tiếp cận khác xử lý nhập nhằng là dựa vào chỉ số tần suất xuất hiện

CVT. Các CVT có chỉ số tần suất cao được ưu tiên gán ngữ nghĩa tương ứng, tính

phổ dụng CVT càng cao. CVT có tần suất xuất hiện ít và thấp thì ít phổ biến, có thể

là rất cá biệt. Từ ý tưởng này, luận án xây dựng thuật toán, thực nghiệm đánh giá

tần số, tần suất CVT và đưa ra một vài áp dụng thực tiễn.

5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT

5.1.1. Ngữ cảnh sử dụng chữ viết tắt

Trong thực tiễn công việc chuyên môn, tác giả đã lưu trữ, tập hợp 15 loại hình

mẫu văn bản phát hành của VNPT Đà Nẵng, với các mẫu có sẵn (mục 1, phụ lục 5).

Mỗi một mẫu văn bản có hàng trăm văn bản phát hành. Trong đó, người đọc và ký

duyệt văn bản là các nhà quản lý đơn vị. Thống kê sơ lược 100 văn bản:

Bảng 5.1. Bảng thống kê sử dụng chữ viết tắt (Mẫu báo cáo gửi đi)

1. VT

Viễn thông

100%

2. VBG

Văn bản giấy

100%

3. MDV

Mạng dịch vụ

70%

4. …

…

STT Sử dụng CVT Nghĩa CVT Tần suất sử dụng

Nhận xét:

1. Ứng với một ngữ cảnh văn bản (cụ thể là mẫu báo cáo gửi đi), CVT được

sử dụng khá thống nhất một số cụm CVT với tần suất sử dụng khá lớn.

2. Để đọc và xét duyệt văn bản trước khi ký kết, nhà quản lý nhận diện các

CVT dựa trên sự nhận biết cảm tính của mình, sự quen thuộc, sự lặp lại các

CVT. CVT có tần suất sử dụng càng cao càng dễ nhận biết.

3. Những CVT có tần suất sử dụng thấp, không quen thuộc thường bị yêu cầu

giải thích rõ ngữ nghĩa trong văn bản. Trong một văn bản, vẫn có sự sử

dụng CVT nhập nhằng. Ví dụ như hai CVT khác nhau cùng thể hiện cùng

một nghĩa; trường hợp này thường bị quy về sai chính tả.

Với phân tích nêu trên, cần xây dựng mô hình nhận diện CVT trong văn bản,

nhằm giúp nhận diện được CVT trong văn bản. Giải pháp thực hiện là xây dựng cơ

sở luật (luật sinh) và căn cứ trên ngữ cảnh văn bản, đề xuất xây dựng máy suy diễn

nhận diện CVT.

5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản

Xử lý vấn đề CVT tiếng Việt trong văn bản gặp phải những khó khăn như:

tính đa tạp ngôn ngữ, không nhất quán, lẫn lộn tiếng Anh, tiếng Việt, thiếu quy chuẩn,

không có định hướng, nhập nhằng ngữ nghĩa trong nhiều ngữ cảnh khác nhau. Vấn

đề đặt ra là làm thể nào để nhận diện CVT, mô phỏng sự suy diễn của NSD văn bản

để có được tri thức về CVT, tạo lập môi trường khai thác CVT thuận lợi hơn. Sau đây

là một số khả năng nhận diện tình huống NSD gặp CVT trong văn bản tiếng Việt:

Trường hợp 1: Nếu CVT đã biết, quen thuộc. Đó là CVT có tần suất sử dụng

cao, quen thuộc, NSD đọc và hiểu được dễ dàng. Có thể dựa vào chỉ số tần suất sử

dụng để nhận biết CVT thuộc dạng này.

Trường hợp 2: Nếu CVT mới lạ, chưa gặp bao giờ. Tình huống có thể xảy ra

các trường hợp:

1. CVT đã có định nghĩa: Trong văn bản đã có bảng các CVT chỉ dẫn đầy đủ,

hoặc đã có chỉ dẫn trong đoạn văn bản, NSD tra cứu để sử dụng, đọc và

hiểu ngữ nghĩa CVT. Hoặc có thể CVT đã được định nghĩa trước đó (nhưng

không có trong bảng CVT của văn bản), trường hợp này NSD sẽ gặp khó

khăn, xem như CVT chưa định nghĩa được phân tích dưới đây.

2. CVT chưa định nghĩa: Tình huống này, trong văn bản không có bảng định

nghĩa các CVT, NSD sẽ thực hiện:

a) Tra cứu CVT trên mạng (website, từ điển CVT trên máy di động). Nếu

tìm thấy, CVT hợp lý với ngữ cảnh văn bản, NSD có thể sử dụng để

đọc, hiểu ngữ nghĩa CVT; trường hợp tìm thấy CVT, nhưng lại có quá

nhiều ngữ nghĩa. Đây là tình huống nhập nhằng ngữ nghĩa CVT (tình

huống 1).

b) Trường hợp nếu tra cứu mà không tìm thấy CVT, NSD sẽ gặp khó khăn

trong xác định ngữ nghĩa. CVT có thể mới lạ, chưa định nghĩa, nhưng

lặp lại nhiều lần NSD có thể nhận diện dựa vào ngữ cảnh văn nhiều

đoạn văn hoặc cả văn bản. Đây là tình huống xác định không chắc chắn

ngữ nghĩa CVT (tình huống 2).

c) Trường hợp nếu tra cứu mà không tìm thấy CVT, CVT có thể hoàn toàn

mới lạ, chưa định nghĩa bao giờ, được viết tùy tiện vào văn bản, hiếm

khi viết lặp lại, NSD có thể nhận diện dựa vào ngữ cảnh một vài đoạn

văn của bản. Đây cũng là tình huống không xác định được ngữ nghĩa

CVT (tình huống 3)

Trong hai trường hợp đã nêu, cần bóc tách, nhận diện 3 tình huống NSD gặp

CVT trong văn bản tiếng Việt, cần thiết phải có giải pháp nhận diện và xử lý nhập

nhằng CVT.

5.1.3. Xây dựng mô hình nhận diện chữ viết tắt trong văn bản

Để có thể nhận diện được CVT trong văn bản (thủ công/tự động), giải pháp

triển khai là xây dựng cơ sở luật (luật sinh) và căn cứ trên ngữ cảnh văn bản, đề xuất

xây dựng máy suy diễn nhận diện thủ công, tự động CVT. Mô hình nhận diện CVT

trong văn bản đề xuất như hình 5.1.

Văn bản sau khi qua giai đoạn nhận diện lĩnh vực, thể loại, tính chất; phân tích

văn bản bằng cách tách câu, tách từ… ta tiếp tục xem xét tình huống gặp CVT:

100

Văn bản

Gặp CVT

Y

N

Quen thuộc

Tra cứu CVT

Nghĩa CVT

CSDL Bảng CVT

Tìm thấy hợp lý

Không tìm thấy

Tìm thấy không hợp lý

CVT tường minh

Đoán nhận, nhập nhằng ngữ nghĩa CVT, tạo mới CVT

Xử lý nhập nhằng CVT

Hình 5.1. Mô hình nhận diện CVT trong văn bản.

5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt

Từ mô hình nhận diện CVT trong văn bản nêu trên, đề xuất các bước nhận

diện một CVT, xử lý nhập nhằng CVT trong văn bản tiếng Việt chuyên ngành viễn

thông gồm:

1. Xây dựng CSDL CVT tiếng Việt, thư viện CVT trên Internet, từ điển tra cứu CVT trên máy di động, CSDL tần suất sử dụng CVT trên Internet, bảng mã danh mục CVT chuyên ngành.

2. Xây dựng các vị từ (Predicate) nhận diện các tình huống gặp phải CVT trong văn bản, sau đó xây dựng cơ sở luật nhận diện ngữ nghĩa, xử lý nhập

101

nhằng các CVT trên cơ sở xác định CVT xuất hiện trong câu, trong đoạn

và ngữ cảnh văn bản

3. Xây dựng máy suy diễn (MSD) hoạt động theo cơ chế quay lui nhận diện

CVT trong văn bản.

Bước 1 thực hiện xây dựng CSDL CVT tiếng Việt, thư viện CVT xây dựng trên

Internet trong, từ điển tra cứu CVT trên máy di động, xây dựng bảng mã danh mục

CVT chuyên ngành (phụ lục 2). Để đơn giản, ta gọi chung chúng là miền dữ liệu D

các CVT sẵn có. Sử dụng dạng tệp XML để xây dựng CSDL CVT có cấu trúc đơn

giản, dễ cập nhật. Tuy nhiên khi cài đặt trong máy, tệp XML được tổ chức dưới dạng

các mảng dữ liệu một chiều (hình 15, phụ lục 5).

Trong bước 2, xây dựng các vị từ dựa vào các dấu hiệu nhận biết CVT trong

một văn bản từ các quy tắc thành lập, sử dụng CVT:

(1) Văn bản có bảng định nghĩa trước các CVT: Đây là bảng dạng cột định

nghĩa n chữ viết tắt phân biệt, được trình bày trong phần đầu văn bản. Các CVT

thường được lặp lại nhiều lần, phổ biến, được giải thích rõ nghĩa và không có sự nhập

nhằng khi NSD đọc hiểu văn bản.

(2) Văn bản không có bảng định nghĩa trước các CVT: Các CVT được sử dụng

trong văn bản, nhận biết chúng bởi các dấu hiệu nhận biết nêu ở (3) dưới đây.

(3) Các dấu hiệu nhận biết CVT dùng trong văn bản:

a) CVT nằm trong dấu ngoặc đơn (..) ngay sau cụm từ viết đầy đủ khi

CVT được định nghĩa lần đầu, CVT này được sử dụng từ đó về sau.

b) Thông thường CVT là chữ in hoa (có số ít trường hợp viết chữ thường).

CVT là một từ có độ dài có thể đạt tới 15 ký tự.

c) CVT có các ký tự hay dấu đặc biệt và (&), dấu phân cách (/), dấu gạch

ngang (-), dấu chấm (.), kết hợp chữ và số, không dùng dấu cách…

d) CVT tiếng Việt phần lớn dùng phụ âm, không dùng các nguyên âm Â,

Ă, Ơ, Ê, Ô… không dùng các dấu thanh huyền, sắc, hỏi ngã, nặng.

Quá trình nhận diện từ được đề xuất bởi thuật toán trong mục tiếp theo dưới

đây. Ý tưởng thuật toán: Văn bản lấy từ kho dữ liệu văn bản sưu tập, hoặc có thể sử

dụng các tập Copus [23]. Văn bản được tách lần lượt từng đoạn, từng câu S để xử lý.

102

Máy suy diễn hoạt động theo cơ chế quay lui sử dụng cơ sở luật sẽ lần lượt trích từng

từ đơn W trong câu tùy theo ngữ cảnh. Từ đơn W sau khi xem xét các dấu hiệu nhận

biết CVT, xác định rõ CVT, ngữ nghĩa CVT, được cập nhật vào bảng CVT tường

minh, giải thích rõ ngữ nghĩa. Văn bản đầu ra sẽ được chuẩn hóa với Bảng các CVT

tường minh, đầy đủ, không còn sự nhập nhằng CVT, lưu vào kho dữ liệu văn bản đã

chuẩn hóa sử dụng CVT.

Trong bước 3, có thể sử dụng phương pháp khác như so khớp tối đa MMS

(Maximum Matching Segmentation) với CSDL đã được xây dựng trong bước 1 để

nhận diện ngữ nghĩa CVT. Ở đây, các mục tiếp theo trình bày các bước xây dựng

máy suy diễn, nhận diện CVT trong văn bản.

5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT

Để xây dựng cơ sở luật nhận diện từ trong câu, bước đầu tiên là xây dựng các

vị từ và các hàm xử lý liên quan.

Mỗi vị từ dạng P(X), hoặc P(f(X, Y)) có kết quả đúng/True nếu biến X hoặc

hàm f(X, Y) của vị từ thoả mãn điều kiện đang xét, trong đó X ϵ Di và Y ϵ Dj, Di và

Dj là các miền giá trị đã được xác định từ CSDL tập chữ cái tiếng Việt. Vị từ sẽ trả về

kết quả sai/False trong trường hợp ngược lại. Từ những phân tích dấu hiệu nhận biết

CVT, xây dựng các vị từ xác định vị trí của mỗi ký tự là điểm bắt đầu, điểm kết thúc,

hay nằm trong một từ.

5.2.1. Xây dựng các miền dữ liệu

D là tập các CVT (là miền dữ liệu) đã đươc xây dựng trong bước 1 nêu trên.

Với mỗi CVT thuộc D, có các thuộc tính ngữ nghĩa, tần số, lĩnh vực, tần suất xuất

hiện...

V = {A.. Y} là tập 29 chữ cái tiếng Việt in hoa.

A ={A.. Z} là tập chữ cái tiếng Anh in hoa.

P = {.,;:, !, ?, SP} tập các dấu ngắt câu, SP là dấu cách.

N ={0.. 9}.

NA ={A, Ă, Â, E, Ê, I, Y, O, Ô, Ơ, U, Ư} tập 11 nguyên âm đơn.

NAs ={Ă, Â, Ê, Ô, Ơ, Ư} tập 6 nguyên âm đơn có dấu.

103

Gọi =VAPN, * là tập mọi câu (chuỗi) có thể, tùy ý, được xây dựng

bằng cách ghép lần lượt (ký hiệu  ghép/Concatenation) các ký tự của .

Từ đơn W(SP})* (không chứa SP). Ví dụ W=’H’’ộ’’i’ = “Hội”.

Một câu S * gồm các từ đơn Wi, i=1..L, với L là số từ có mặt trong S hay

độ dài của S không kể các dấu cách.

5.2.2. Xây dựng vị từ và hàm

Một vị từ là một hàm (function) luôn có giá trị trả về là đúng (true) hoặc sai

(false). Bảng 5.2. là vị từ và hàm được xây dựng cụ thể:

Bảng 5.2. Bảng vị từ và hàm

Vị từ Định nghĩa

1. Vị từ nhận diện CVT định nghĩa mới trong đoạn văn bản

BeginW(W)

EndW(W)

NumWowd(W, <=15)

CheckUpper(W)

CheckSign(W)

CheckSignSpec(W)

AcronymWord(S,W) Xác định từ W có chứa ký tự bắt đầu là "(" hay không Xác định từ W có chứa ký tự kết thúc là ")" hay không Vị từ xác định từ W có tổng số ký tự nhỏ hơn hoặc bằng 15 Vị từ xác định từ W là một từ viết hoa (có tất cả ký tự đề viết hoa) Xác định tất cả ký tự của W thuộc tập V \ NAs = {A.. Y} \ {Ă, Â, Ê, Ô, Ơ, Ư} Vị từ xác định từ W có thể chứa các ký tự đặc biệt trong tập {&, /, -,.}  N={0..9} Vị từ nhận diện S là chuỗi chứa chữ viết tắt W trong một câu đang xét

Xác định X là đoạn văn bản Paragraph(X)

Xác định S là câu trong đoạn văn bản Sentence(S)

2. Vị từ xác định văn bản đầu vào có Bảng chữ viết tắt

TableAcromyn(X) Vị từ xác định văn bản X có Bảng T chữ viết tắt định nghĩa trước

3. Vị từ xác định chữ viết tắt có trong bảng

AcronymTable(W, T) Vị từ xác định W là chữ viết tắt trong Bảng T các chữ viết tắt

104

4. Vị từ nhận diện từ trong câu

S là một câu (string) trong văn bản đang rỗng EmptyString(S)

S là một từ đơn trong chuỗi S đang rỗng EmptyWord(W)

5. Vị từ tìm kiếm CVT trên miền dữ liệu CVT sẵn có

FindAcronym(W,D) Vị từ xác định W là các chữ viết tắt trong miền D chữ viết tắt

6. Vị từ xác định chữ viết tắt sử dụng nhập nhằng, nhận diện ngữ nghĩa

Ambiguous(W)

Conjecture(W) Vị từ xác định W là chữ viết tắt có nhập nhằng ngữ nghĩa Vị nhận diện W là chữ viết tắt có ngữ nghĩa nào đó

Vị nhận diện W là chữ viết tắt sử dụng hợp lý AcronymUsed_Ok(W)

7. Vị từ điều khiển

Vị từ kết thúc văn bản EoF()

Vị từ kết thúc đoạn văn bản EoP()

Vị từ báo gặp lỗi khi nhận diện CVT Error()

Kết thúc Finish()

8. Xây dựng các hàm xử lý ký tự và chuỗi

Con(W1, W2,... WL)

ConcatFirstLetter(S)

NumberAcrTable(T)

MaxFrequency(T,W)

NewAcronym(S,W) Ghép liên tiếp các từ đơn Wi, i=1..L. trả về từ ghép. Ví dụ: Con(‘N’, ‘V’)=”NV” Trả về từ ghép mọi chữ cái đầu của các từ đơn W có trong S sau khi loại bỏ các dấu ngắt câu (quy tắc 1 thành lập chữ viết tắt). Ví dụ: ConcatFirstLetter(“Hội đồng Nhân dân”) = “HĐND” Hàm trả về số n là tổng số các CVT đã được định nghĩa trên bảng T. Gán trọng số tần suất sử dụng các CVT trong bảng T là cao nhất bằng 1,0 Hàm trả về chữ viết tắt W mới định nghĩa của chuỗi S bằng cách loại bỏ ký tự đầu"(" và ký tự cuối ")" của W trong câu S.

AcronymT(T,W)

MeanNewAcr (S,W) Trả về chữ viết tắt W đã định nghĩa trong bảng T Hàm trả về câu S là ngữ nghĩa chữ viết tắt W định nghĩa trong dẫu hiệu nhận biết CVT

105

AddAcrnym(T,W) Khi có CVT định nghĩa mới (chưa có trong bảng T), hàm này bổ sung CVT mới vào Bảng T, số CVT trong bảng T tăng lên, bằng n + 1

Trả về câu S là ngữ nghĩa CVT W trong Bảng T MeanAcronym(T,W)

FindAcr(D,W,S)

CurentFrequency(D,W,F)

CurentContext (D,W,C) Hàm tìm kiếm chữ viết tắt W trên miền dữ liệu CVT sẵn có D, trả về ngữ nghĩa trong câu S, nếu không tìm thấy trả về câu rỗng Lấy giá trị trọng số tần suất sử dụng lớn nhất của các CVT có trùng lặp, nhập nhằng nghĩa trong D Lấy giá trị ngữ cảnh của CVT (thuộc tính lĩnh vực CVT, nguồn gốc sử dụng...) trong miền D

5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản

Hiện tượng nhập nhằng xảy ra khi: Một CVT thường có nhiều hơn một nghĩa,

có biểu hiện hiểu lầm, mơ hồ ngữ nghĩa của CVT. Tác động của nhập nhằng làm cho

người đọc, kể cả người viết, hiểu lầm, gặp sai sót, hay bế tắc.

Để khử nhập nhằng nghĩa CVT, các nhà nghiên cứu sử dụng nhiều thông tin

của ngữ cảnh ở nhiều cấp độ (hình thái, ngữ pháp, ngữ nghĩa,...) cùng với các luật suy

diễn ngữ nghĩa. Các luật suy diễn này tạo thành có thể từ thủ công hoặc từ quá trình

bán tự động - tự động hóa, hoặc có sự phối kết hợp giữa chúng. Luật suy diễn xây

dựng bằng tay đòi hỏi công sức lớn và khó có thể bao quát hết mọi trường hợp.

Trong văn bản, hiện tượng nhập nhằng CVT xảy ra trong các trường hợp:

(1) Trường hợp 1: Khi có CVT định nghĩa mới mà CVT này đã có trong bảng

T hiện hành: tức là tồn tại chữ viết tắt W thỏa mãn:

NewAcronym(S,W) =AcronymT(T,W)

và ngữ nghĩa chúng khác nhau:

MeanNewAcr (S,W) ≠ MeanAcronym(T,W)

(2) Trường hợp 2: Nếu trong trường 1 mà xảy ra:

MeanNewAcr (S,W) =MeanAcronym(T,W)

thì trong văn bản có sự định nghĩa CVT trùng lặp, không cần thiết, ta cũng

có thể coi là nhập nhằng định nghĩa, sử dụng CVT trong văn bản.

(3) Trường hợp 3: Nếu phát hiện W là thỏa các dấu hiệu nhận biết CVT trong

106

văn bản, tức là các vị từ sau đây có giá trị True: NumWowd(W, <=15),

CheckUpper(W), CheckSign(W), CheckSignSpec(W). Xác định khả

năng W là CVT; và nếu không tìm thấy W trong bảng T và không có định

nghĩa trước đó, thì đây cũng là sự nhập nhằng, không rõ nghĩa CVT. Việc

tra cứu W trên miền D (tập CSDL CVT sẵn có):

a) Nếu tìm thấy có thể đưa ra nhận diện CVT. Trường hợp CVT có

nhập nhằng ngữ nghĩa, ta dựa vào tần suất sử dụng cao nhất để có

thể chọn CVT đề xuất, nhận diện.

b) Nếu không tìm thấy thì không thể chỉ ra ngữ nghĩa CVT là gì, có

cảnh báo việc sử dụng CVT này chưa chính xác trong văn bản.

5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT

5.3.1. Xây dựng cơ sở luật

Từ các vị từ và các hàm trên đây, tiếp tục xây dựng cơ sở luật:

{Rk, k=1, 2… }

Mỗi luật gắn nhãn Rk có dạng P(X)  Q(X) được biểu diễn theo câu lệnh điều

kiện:

Rk: If <Điều kiện> Then

Trong đó:

P(X) = <Điều kiện>, hay giả thiết, gồm các vị từ liên kết với nhau bởi các phép

toán logic And và/hoặc Or.

Còn Q(X) = luôn luôn là một vị từ. Khi <Điều kiện> có giá trị

đúng True, thì cũng có kết quả là True.

Cơ sở luật gồm các luật lần lượt như sau:

1. Luật xác định có định nghĩa CVT mới W trong câu S:

R1: If BeginS(W)And EndS(W)

And NumWowd(NewAcronym(S,W))<=15)

And CheckUpper(NewAcronym(S,W))

And CheckSign(NewAcronym(S,W))

And CheckSignSpec(NewAcronym(S,W))

107

Then AcronymWord(S,W)

Với W là một từ thỏa mãn các dấu hiệu nhận biết CVT, nằm bên trong câu S

đang xét. NewAcronym(S,W) trả về W là hàm bóc tách CVT mới định nghĩa.

AcronymWord(S) trả về kết quả là có CVT định nghĩa mới trong câu đang xem xét.

2. Luật xác định sử dụng CVT trong bảng câu văn bản S:

R2: If Not BeginS(W)And Not EndS(W)

And NumWowd(NewAcronym(S,W), <=15)

And CheckUpper(NewAcronym(S,W))

AndCheckSign(NewAcronym(S,W))

AndCheckSignSpec(NewAcronym(S,W))

Then AcronymWord(S,W)

3. Luật xác định CVT mới định nghĩa có "nhập nhằng" trong bảng T:

R3: If AcronymWord(S)

And (NewAcronym(S,W) = AcronymeT(T,W))

And (MeanNewAcr (S,W) ≠ MeanAcronym(T,W))

Then Ambiguous (W)

Luật này xác định nghĩa CVT nhập nhằng, trùng lặp.

R4: If AcronymWord(S)And(NewAcronym(S,W) = AcronymT(T,W))

And (MeanNewAcr (S,W) = MeanAcronym(T,W))

Then Ambiguous(W)

Luật này chỉ ra định nghĩa CVT trùng lặp, không cần thiết, ta cũng có thể coi

là nhập nhằng định nghĩa, sử dụng CVT.

R5: If Not BeginS(W)AndNot EndS(W)

And NumWowd(W, <=15) And CheckUpper(W)

And CheckSign(W)And CheckSignSpec(W)

And (NewAcronym(S,W) ≠ AcronymT(T,W))

And (MeanNewAcr (S,W) ≠ MeanAcronym(T,W))

Then Ambiguous(W)

Luật này chỉ ra việc sử dụng CVT mà không có định nghĩa trước đó, là sự

108

nhập nhằng, không rõ nghĩa. Hoặc có thể rút gọn luật này dựa vào luật R2 ở trên.

R6: If AcronymWord(S,W)And

And (NewAcronym(S,W) ≠ AcronymT(T,W))

And (MeanNewAcr(S,W) ≠ MeanAcronym(T,W))

Then Ambiguous(W)

4. Luật xem xét W là CVT nhập nhằng, so khớp trên miền D để có thể nhận diện

ngữ nghĩa CVT được hay không:

R7: If Ambiguous(W)And FindAcronym(W,D)

Then Conjecture(W)

Luật này tra cứu W trên miền D (tập CSDL CVT sẵn có), nếu tìm thấy có thể

đưa ra nhận diện CVT.

R8: If Ambiguous(W) AndNot FindAcronym(W,D)

Then Not Conjecture(W)

Luật này tra cứu W trên miền D (tập CSDL CVT sẵn có), nếu không tìm thấy

thị không đủ cơ sở để chỉ ra ngữ nghĩa CVT.

5. Các luật xử lý nhận diện CVT sử dụng hợp lý hay không:

R9: If NotAmbiguous (W)

Then AcronymUsed_Ok(W)

Luật này xem xét CVT đang sử dụng W là hợp lý.

R10: If Ambiguous (W)

Then NotAcronymUsed_Ok(W)

Luật này xem xét CVT đang sử dụng W là không hợp lý.

6. Luật điều khiển:

R11: If EoF()Or Error()

Then Finish()

R12: If Error()AndNot EoF()

Then Finish()

R13: If NotEoF()And EmptyString(S)And EmptyWord(W) Error()

Then Finish()

109

5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt

Văn bản đầu vào sẽ được tách lần lượt từng đoạn, từng câu, gọi là S để xử lý.

Xây dựng máy suy diễn cơ chế quay lui (back chaining) theo ý tưởng như sau:

Máy suy diễn sẽ xem xét từng từ W của câu S (từ trái qua phải), khi gặp W

thỏa mãn dấu hiệu nhận biết CVT sẽ nhận diện CVT, làm rõ ngữ nghĩa nhờ cơ sở luật

đã xây dựng. Để đơn giản cách trình bày, ta quy ước gọi AcronymBase là CSDL chữ

viết tắt (trong miền D dữ liệu đã xây dựng), Rules là cơ sở luật đã xây dựng,

AcronymTable là bảng CVT đã định nghĩa trong văn bản đầu vào. Cơ chế hoạt động

của máy gồm bốn thủ tục chính lần lượt là:AcronymSetup(W), Setup1(Rules),

Setup2(Rule, Symbols), WordAcronymSetup(Symbols).

Máy suy diễn được khởi động bằng cách gọi một trong các thủ tục này. Chẳng

hạn, để nhận diện một từ W (trích ra từ câu vào S), sử dụng lời gọi AcronymSetup(W).

Cơ chế suy diễn lùi của máy là so sánh phần kết luận của các luật với các sự kiện cần

xác định là từ W cần nhận diện tại mỗi thời điểm đang xét. Phần kết luận (phần bên

phải) của các luật là phần khởi động tiếp tục theo chu kỳ chọn luật.

Chẳng hạn khi gọi AcronymSetup(W), vị từ BeginS(W) vàEndS(W) xác định

W có dấu hiệu là định nghĩa mới CVT. Nếu luật R1 được sử dụng và được khởi động

{ Khởi động CSDL chữ viết tắt tiếng Việt, được xem là các sự kiện (Facts) }

thì sự kiện thiết lập W là CVT bởi vị từ AcronymWord(S,W):

Procedure AcronymSetup(W)

[1]

If WAcronymTableThen Return(“Success”, Conjecture(W)=.T.)

[2]

Return(Setup1(W))

{ Khởi động cơ sở luật nhận diện chữ viết tắt, nhận diện nhập nhằng}

Procedure Setup1(Rules)

[3]

If Rules =  Then Return(“Failure”)

[4]

ARule Chọn một luật ARule từ Rules

(luật gặp đầu tiên, từ trên xuống danh sách luật R1.. Rn)

[5]

Rules  Rules  { ARule }

//Phép gán giá trị loại trừ luật vừa chọn để có Tập luật mới

[6]

If (AcronymWord(S,W) and Ambiguous(W)) Then

// W là chữ viết tắt và xuất hiện nhập nhằng

[7]

110

If Setup2(ARule) = “Success” Then Return(“Success”,

Conjecture(W)=.T.)

[8]

Return(Setup1(Rules)) // Khởi động luật

{ Nhận diện W chữ viết tắt nhập nhằng, xác định sử dụng trong câu vào S có phù

hợp hay không }

Procedure Setup2(Rule, W)

[9]

If Conjecture(W) Then Return(“Success”,

Conjecture(W)= .T.) // Chữ viết tắt W có thể nhận diện

[10] WordAcronymSetup (W)

{ Xử lý tách lấy cụm chữ viết tắt trong từ (W), lấy ngữ nghĩa CVT }

Procedure WordAcronymSetup (Symbols)

[11]

If W =  Then Return(“Success”)

[12] W NewAcronym(S,W)

[13]

If AcronymSetup (W) = “Failure” Then Return(“Failure”)

[14] Return(WordAcronymSetup (W))

Hình 5.2. Cơ chế hoạt động của máy suy diễn nhận diện chữ viết tắt.

Độ phức tạp thuật toán: Gọi n là độ lớn của CSDL chữ viết tắt tiếng Việt, n = ||

AcronymBase || và m là độ lớn của cơ sở luật, m = ||RuleBase||, máy suy diễn hoạt

động theo cơ chế quy lui có độ phức tạp đa thức xấp xỉ O(n*m) cho mỗi chu kỳ nhận

diện một chữ viết tắt từ câu vào S.

5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt

Mục 5.3.2 đã mô phỏng cơ chế hoạt động máy suy diễn nhận diện CVT trong

văn bản chuyên ngành viễn thông. Sau đây là mở rộng đề xuất thuật toán nhận diện

và xử lý nhập nhằng CVT trong văn bản tiếng Việt.

Ý tưởng: Trong mô hình trên, văn bản lấy từ kho dữ liệu sưu tập. Văn bản được

tách lần lượt từng đoạn, từng câu S, tách bảng định nghĩa CVT lưu vào mảng để xử

lý. Với mỗi câu S vào, đọc từng từ đơn W. Nếu phát hiện chúng thỏa các dấu hiệu

nhận biết CVT, xem xét chúng có phải CVT, từ đó tìm ra ngữ nghĩa CVT. Văn bản

đầu ra sẽ được chuẩn hóa với bảng các CVT tường minh, đầy đủ, không còn sự nhập

111

nhằng CVT, lưu vào kho dữ liệu văn bản đã chuẩn hóa sử dụng CVT.

Input: Tập tin văn bản

Output: Văn bản nhận diện đầy đủ CVT, chuẩn hóa CVT

Begin

Open các CSDL D

Khởi động bộ đếm CVT, mảng hai chiều T,L và các biến

Open một tệp Văn bản

Nếu văn bản có bảng chữ viết tắt, gán vào mảng hai chiều T(i,j)

Repeat

Read từng đoạn trong tệp gán vào biến Doan

Read câu S trong đoạn

Repeat

Read từng từ W trong câu S

If

If
If

Trích CVT trong cặp dấu (...):CVT

Trích Ngữ nghĩa CVT trong câu S: NguNghia

Bổ sung CVT vào Bảng T: t(i+1,j+1) = t(CVT, NguNghia)

CVT này được làm rõ ngữ nghĩa, bản T có thêm CVT.

Else

CVT này được nhận diện trong bảng T đã định nghĩa,

Endif

Else

Tìm kiếm CVT trên CSDL D;

- Nếu có, chọn lọc Danh sách các CVT, gán vào mảng L(i,j)

Chọn lọc CVT với điều kiện có ngữ nghĩa L(j) của W tần suất sử dụng

cao nhất trong và sử dụng kỹ thuật FTS để xác định L(j) tương đồng ngữ

nghĩa với câu S.

- Nếu không tìm thấy, cảnh báo sử dụng CVT không phù hợp.

Endif

Endif

112

Until

Until Eof()

End

Thuật toán có sử dụng kỹ thuật tìm kiếm toàn văn FTS (Full Text Search). FTS

là kĩ thuật tìm kiếm trên "Full text database", ở đây "Full text database" là cơ sở dữ

liệu chứa "toàn bộ" các kí tự (text) của một hoặc một số các tài liệu, bài báo.

Đánh giá độ phức tạp thuật toán: Do sử dụng bốn vòng lặp lồng nhau, độ phức

tạp của thuật toán là O(n4). Tuy nhiên, vòng lặp trong cùng (thứ 4) có chứa lệnh so

sánh CVT tìm được với CSDL đã có, tương ứng như một vòng lặp duyệt các mẩu tin

trong CSDL, làm tăng độ phức tạp giải thuật thành O(n5); cần cải tiến thuật giải theo

hướng loại bỏ sự so sánh trực tiếp mỗi CVT tìm được với CSDL đã có.

5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng

Trong thực tế, có nhiều khả năng xảy ra nhập nhằng CVT khi xem xét một văn

bản tiếng Việt. Đề tài tập trung giải quyết vấn đề nhập nhằng CVT xảy ra. Mô hình

CSDL Chữ viết tắt

Văn bản đầu vào

Khử bỏ nhập nhằng CVT

Văn bản xử lý nhập nhằng CVT

Cơ sở luật khử nhập nhằng

giải pháp được đề xuất như sau :

Hình 5.3. Mô hình kết hợp xử lý nhập nhằng CVT trong văn bản.

Trong mô hình (hình 5.3), văn bản chưa xử lý nhập nhằng có thể bao gồm ba

loại tệp văn bản (.html,.doc,.text); văn bản này được tách thành đoạn, từng câu, từ.

Sau đó kiểm tra từng từ, nếu có dấu hiệu nhận biết CVT, sẽ kiểm tra theo thuận toán

113

trình bày trong mục 5.3.3 để kết hợp với cơ sở luật đã xây dựng và CSDL chữ viết tắt

để khử bỏ nhập nhằng. Việc thực hiện khử một phần các hiện tượng nhập nhằng CVT

đối với văn bản tiếng Việt còn dựa trên các vấn đề:

a) Sử dụng một cơ sở luật để nhận diện CVT nhập nhằng.

b) Dựa trên tiêu chuẩn thống kê được tần số, tần suất sử dụng CVT.

Như vậy, trong một ngữ cảnh một loại hình văn bản chuyên ngành (hạn hẹp),

việc xử lý nhập nhằng CVT có thể dựa trên cơ sở luật để xử lý nhập nhằng, nhận diện

CVT. Vậy trong ngữ cảnh dữ liệu lớn và phức tạp như môi trường Internet, việc xử

lý nhập nhằng CVT, người sử dụng nhận diện CVT cần dựa trên các tiêu chí nhất

định.

Ngành ngôn ngữ học [46] sử dụng khái niệm tần số sử dụng ngôn ngữ để đưa

ra tần số sử dụng CVT như [13]. Từ ý tưởng đó, trên cơ sở lý thuyết xác suất, thống

kê [16], các mục tiếp theo trình bày kết quả nghiên cứu, đề xuất các khái niệm, xây

dựng giải pháp đánh giá tần số, tần suất sử dụng CVT trên mạng Internet để cung cấp

chỉ số hướng đến xử lý nhập nhằng CVT.

5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG

Trên cơ sở lý thuyết ngôn ngữ học [17][28][30] và lý thuyết xác suất thống kê

[16], luận án vận dụng và đưa ra thống kê tần số sử dụng CVT bằng cách kế thừa dữ

liệu CVT trên hệ thống tìm kiếm chuyên nghiệp (như Google, Yahoo…). Từ đó, tìm

cách tính toán, đánh giá tần số sử dụng, tần suất xuất hiện của CVT, đưa ra một chỉ

số tham khảo mức độ sử dụng CVT, làm chỉ số đánh giá CVT.

5.4.1. Tần số chữ viết tắt

Hiện nay, chưa có nhiều công trình, bài báo nghiên cứu đầy đủ đến vấn đề này,

đặc biệt là về tiếng Việt (Kinh). Một số công trình nghiên cứu thu thập và xây dựng

cơ sở dữ liệu CVT tiếng Việt [13] đã thống kê được các CVT thông dụng, nhưng

chưa thống kê được tần suất xuất hiện, nghiên cứu này ghi nhận được 1.151 đơn vị CVT43, có thống kê tần số xuất hiện, nhưng hầu như không đưa ra các CVT trùng

43Hội Ngôn ngữ học Việt Nam, "Danh sách chữ viết tắt xếp theo tần số" [13] (năm 2002)

nhau và tần suất xuất hiện của chúng. Ở đây, không nói rõ căn cứ, tiêu chí thống kê

114

nào để đưa ra tần số sử dụng CVT. Với cách làm thủ công, thiếu công cụ quản lý, cập

nhật thường xuyên thì cách đánh giá tần số sử dụng là gặp nhiều khó khăn, bất cập;

không theo kịp sự phát triển CVT trong thực tế và xu hướng sử dụng. Một nghiên cứu

về thực trạng của hiện tượng viết tắt từ ngữ [21][26], bằng cách khảo sát tư liệu thực

tế trên 10 tờ báo với phương pháp thống kê thủ công đã đưa ra một số kết luận: Tư

liệu thống kê cho biết tần số sử dụng của từng dạng viết tắt, từ đó cho thấy xu hướng

(theo tần số) cố định hóa các dạng tắt, gợi ý cho việc đưa ra các giải pháp chuẩn hóa

chữ viết tắt trên văn bản.

Các tập Corpus cũng có thể cho phép đánh giá tần số sử dụng CVT tương đối

tập trung. Sử dụng tập Corpus có tên là VNTQcorpus(big).txt - kế thừa kết quả nghiên

cứu [23], tập này có kích thước ~240 Mb, số lượng câu khoảng 1.750.000 câu, trích

xuất từ khoảng 13.000 bài báo trên Internet. Bằng kỹ thuật tìm kiếm thông thường

trên tệp văn bản (TXT), tác giả chỉ tìm thấy hai chữ viết tắt UBND (Ủy Ban Nhân

Dân), không tìm thấy CVT khá phổ biến là KCS (Kiểm tra Chất lượng Sản phẩm),

hay HTX (Hợp tác xã). Điều này chứng tỏ nếu dựa trên các tập Corpus, rất khó có

thể đưa ra tần số, tần suất CVT một cách tiệm cận với thực tế vốn có.

5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt

Luận án xây dựng khái niệm về tần số sử dụng, tần suất xuất hiện CVT tiếng

Việt trên Internet. Ta gọi một bảng số liệu các CVT là bảng có N chữ viết tắt (là bảng

CSDL CVT), nhưng chỉ có k chữ viết tắt khác nhau là x1, x2, …, xk.

Khái niệm tần số sử dụng CVT trên Internet là giá trị số biểu thị kết quả trả

về khi thực hiện tra cứu trên hệ thống tìm kiếm chuyên nghiệp (Internet) trong phạm

vi nào đó tại một thời điểm. CVT xi xuất hiện ni lần khi tìm thấy trên chương trình

tìm kiếm chuyên nghiệp, với 1 ≤ i ≤ k, ta nói ni là tần số sử dụng của CVT xi.

Phạm vi, tiêu chí tìm kiếm tần số sử dụng: Công cụ tìm kiếm có chức năng tìm

kiếm mở rộng, chuyên sâu, theo tiêu chí nào đó (tên miền, gần đúng, chính xác…).

Dựa vào đặc điểm này, có thể đánh giá tần số sử dụng CVT trong một phạm vi nhất

định. Ví dụ, công cụ tìm kiếm cho phép tìm CVT trong phạm vi tên miền .vn. Tiêu

chí tìm kiếm tần số sử dụng trên Internet: Để có kết quả tần số sử dụng có giá trị

chính xác; ta định nghĩa tiêu chí tìm kiếm chính xác, tức là là bọc chuỗi từ khóa cần

115

tìm trong dấu ngoặc kép (""). Các phạm vi giới hạn, tiêu chí tìm kiếm được

định nghĩa chi tiết, công bố trong bài báo số [3].

Nhận xét: Giá trị tần số sử dụng này không phải là duy nhất, luôn biến động

bởi cập nhật thông tin liên tục từ Internet. Số lần sử dụng là trùng lặp, mỗi sự xuất

hiện trên Internet có thể xem như một lần sử dụng, tần số được tăng lên 1 đơn vị.

Khái niệm tần suất xuất hiện CVT tiếng Việt trên Internet

Tần suất xuất hiện CVT tiếng Việt trên Internet là tỷ số giữa tần số sử dụng

CVT trên môi trường Internet và tổng các tần số sử dụng của các CVT trong bảng thống

kê tần số sử dụng CVT đang xem xét trong một đơn vị thời gian, một phạm vi thống

kê nào đó. Hay nói cách khác, với một bảng số liệu thống kê các chữ viết tắt có N giá

trị nhưng chỉ có k giá trị khác nhau x1, x2, …,xk.

Giá trị chữ viết tắt xi xuất hiện ni lần (1 ≤ i ≤ k), ni là tần số của chữ viết tắt xi

Tỉ số fi = là tần suất xuất hiện của của chữ viết tắt xi , với:

n1 + n2 + … + nk = N ; f1 + f2 + … + fk = 1

Hoặc nói cách khác: Tỉ số fi = * 100 được gọi là tần suất xuất hiện của chữ

viết tắt xi , với: n1 + n2 + … + nk = N ; f1 + f2 + … + fk = 100

Ví dụ: Với cách định nghĩa trên, trong phạm vi chỉ định tại một thời điểm, tần

số sử dụng CVT và tần suất xuất hiện CVT được mô tả trong bảng dưới đây:

Bảng 5.3: Tính toán tần suất xuất hiện CVT trong một phạm vi chỉ định

STT Chữ viết tắt Tần suất (%)

1 2 3 4 5 6 fi f2 f3 f4 f5 f6 100% Phát triển (PT) Phạm trù (PT) Phương thức (PT) Phát thanh (PT) Phương trình (PT) Phương Thanh (PT) Tổng cộng Tần số (trong phạm vi) n1 n2 n3 n4 n5 n6 N

116

Với bảng có tổng N giá trị sử dụng của k (k=6) CVT khác nhau, tần số sử dụng

CVT thứ i là các giá trị ni tương ứng. Tần suất xuất hiện CVT “PT” trong phạm vi CVT

sử dụng đã chỉ định trên Internet theo nghĩa “Phát triển” là f1, theo nghĩa “Phương trình”

là f3, theo nghĩa “Phương Thanh” là f6, ...

5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt

CSDL CVT (mục 3.4.1) được xem như bảng dữ liệu đầu vào cần đánh giá tần

suất sử dụng CVT.

Giải pháp đánh giá tần số CVT tiếng Việt trên Internet: Các bước đề xuất tìm

kiếm cập nhật dữ liệu tính toán tần số sử dụng CVT trên Internet:

1) Bước 1: Chuẩn bị bảng dữ liệu CVT, thiết kế các trường lưu giữ kết quả

tần số sử dụng.

2) Bước 2: Thiết lập phạm vi, giá trị cần tìm kiếm CVT trên hệ thống website

tìm kiếm chuyên nghiệp.

3) Bước 3: Xây dựng chương trình tìm kiếm giả lập như thao tác tìm kiếm từ

người sử dụng.

4) Bước 4: Thực hiện chạy chương trình tìm kiếm, ghi nhận thời gian, giá trị

tìm kiếm CVT vào CSDL.

5) Bước 5: Phân tích dữ liệu, dánh giá, sắp xếp và lưu trữ, công bố.

6) Bước 6: Sau một chu kỳ (3 tháng hoặc 6), lặp lại các bước 4, 5.

7) Bước 7: So sánh dữ liệu, đánh giá sự biến động giá trị tần số sử dụng sau

một chu kỳ thời gian.

Giải pháp đánh giá tần suất xuất hiện CVT tiếng Việt trên Internet: Sau khi

có kết quả cập nhật dữ liệu tính toán tần số sử dụng CVT trên môi trường Internet,

cách đánh giá tần suất xuất hiện CVT tiếng Việt như sau:

1) Bước 1: Sắp xếp dữ liệu tần số sử dụng CVT.

2) Bước 2: Chọn lọc các CVT trùng lặp, đa nghĩa.

3) Bước 3: Lựa chọn phạm vi tần số xuất hiện để thực hiện tính toán tần suất

xuất hiện CVT theo công thức:

117

fi = 100

Trong đó: N: Tổng số các CVT giống nhau nhưng có ngữ nghĩa

khác nhau, ni là tần số sử dụng của chữ viết tắt xi

4) Bước 4: Sắp xếp CVT theo giá trị fi giảm dần, lưu trữ, nhận xét, công bố.

5) Bước 5: Sau một chu kỳ (3 hoặc 6 tháng), lặp lại các bước 2, 3, 4.

6) Bước 6: So sánh dữ liệu, đánh giá sự biến động giá trị tần suất xuất hiện

sau một chu kỳ thời gian.

5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm

Thuật toán ghi nhận, đánh giá tần số CVT trên Internet (Assessment frequency

Vietnamese abbreviations on the Internet, viết tắt là AFVAI).

1) Thuật toán AFVAI

Input: File dữ liệu CVT, phạm vi tìm kiếm trên yahoo.com

Output: File dữ liệu tần số sử dụng CVT theo các tiêu chí.

Begin

Open CSDL làm việc trung gian

Thiết lập các tiêu chí, phạm vi tìm kiếm

Lựa chọn và Khởi động trình duyệt.

Repeat

Read CVT của file đầu vào

Truyền tham số trình duyệt tìm kiếm

giá trị CVT trong phạm vi, tiêu chí Open tệp HTML sau khi có kết quả tìm kiếm trả về

Read file HTML

Dùng Biểu thức chính quy tìm giá trị số "(.) kết quả "

So khớp và Lưu giữ giá trị vào bảng theo phạm vi tương ứng Lưu giữ ngày tìm kiếm

Until . Hiển thị Bảng kết quả, Lưu kết quả vào File

End.

118

2) Triển khai thực nghiệm và đánh giá kết quả

Triển khai thực nghiệm giải pháp theo các bước đã nêu, chọn hệ thống tìm

kiếm chuyên nghiệp để khai thác dữ liệu CVT là Yahoo.com, sử dụng ngôn ngữ lập

trình C# để triển khai xây dựng chương trình. Chương trình nhận danh sách CVT

trong CSDL đầu vào, khởi động trình duyệt Browser (Google Chrome hoặc Firefox),

truyền tham số tìm kiếm CVT, phạm vi, tiêu chí tìm kiếm. Chương trình tự động hóa

tìm kiếm. Sau khi tìm kiếm xong nhận lấy kết quả tệp mã nguồn (source code dạng

html) từ trang web, đọc kết quả tìm kiếm được và lưu vào CSDL. Chương trình bao

gồm các lớp (class) trình bày chi tiết trong bài báo số [3].

Đánh giá độ phức tạp thuật toán: Do sử dụng một vòng lặp lồng nhau, độ phức

tạp của thuật toán là O(n). Tuy nhiên, lệnh so khớp CVT tìm được với CSDL đã có,

tương ứng như một vòng lặp duyệt các mẩu tin trong CSDL, làm tăng độ phức tạp

giải thuật thành O(n2). Ngoài ra độ phức tạp còn phụ thuộc kết nối mạng Internet và

“cộng sinh” vào hệ thống tìm kiếm Yahoo.com, cho nên thuật toán trên chủ yếu sử

dụng trong thực nghiệm để phân tích kết quả.

Thực hiện chương trình và cập nhật dữ liệu tần số sử dụng CVT

1) Chạy chương trình, tiêu chí tìm kiếm chính xác cả cụm từ (bọc chuỗi từ khóa

trong dấu ngoặc kép "…"), trong các phạm tìm kiếm đã định nghĩa. Chương

trình chính chạy trong khung cửa sổ Main (hình 18 phụ lục 5).

2) Giao diện chương trình khi thực hiện xong đưa ra kết với các giá trị tìm kiếm

được là các tần số CVT sử dụng theo từng phạm vi đã định nghĩa (các cột).

Thực hiện Save as để lưu kết quả ra File CSV phục vụ cho lưu trữ và xử lý

tính toán tần suất xuất hiện CVT (hình 5.7):

Hình 5.4. Kết quả thực hiện chương trình cập nhật tần số sử dụng CVT

119

3) Kết quả hình 5.4 cho thấy, trong phạm vi N_VN1, chữ viết tắt PT với nghĩa

“Phát triển” có tần số sử dụng định nghĩa 184 lần (thời điểm 24/03/2016), với

nghĩa “Phương trình” có tần số sử dụng định nghĩa 184 lần…, chữ viết tắt PT

có tần số sử dụng lên đến 345.000 lần.

4) Ghi chú: Chương trình thực nghiệm là sự mô phỏng thao tác người sử dụng

tìm kiếm theo cách thủ công để Yahoo.com chấp nhận cho phép tìm kiếm

CSDL. Do đó, các tệp đầu vào cần phải tách dữ liệu mức độ vừa phải (nên

dưới 50 dòng) để Yahoo không từ chối phục vụ. Để chạy chương trình số

lượng lớn dữ liệu, cần phải sử dụng nhiều máy tính, trong nhiều khoảng thời

gian để có kết quả như mong đợi.

5.4.5. Kết quả thực nghiệm và đánh giá

Sử dụng nhiều máy tính chạy chương trình, trong nhiều khoảng thời gian. Dữ

liệu đầu vào có 4.542 mẫu tin (với hơn 2.300 mẫu CVT thông dụng chọn lựa trong

CSDL đã có), tách thành gần 100 File dữ liệu đầu vào. Dữ liệu đầu ra với gần 100

file tương ứng, sau đó được ghép lại bảng dữ liệu tổng thể tần số sử dụng CVT.

Sau khi có bảng dữ liệu tần số sử dụng CVT, thực hiện tính toán tần suất sử

dụng theo các bước đã đề xuất trong giải pháp trên đây. Trước mắt, kết quả đưa ra

120

được hơn 30 bảng tần suất xuất hiện các CVT với những cụm viết tắt giống nhau. Ví

dụ: Kết quả tính toán tần suất chữ viết tắt PT trong phạm vi N_VN1 tại 2 thời điểm

khác nhau là ngày 15/03/2016 và 25/03/2016:

Ngày 15/3/2016

Ngày 25/03/2016

Bảng 5.4. Kết quả thực hiện tính toàn tần số sử dụng, tần suất xuất hiện CVT

STT

Chữ viết tắt

N_VN1

N_VN1 Tần suất %

Tần suất %

Phương trình (PT) Phát triển (PT) Phương Thanh (PT) Phát thanh (PT) Phương thức (PT) Phạm trù (PT) Tổng cộng

1 2 3 4 5 6

PT

63 30 2,9 2,5 1,5 0,0 100

63,1 30,2 2,8 2,5 1,5 0,0 100

382 182 16 14 9 0 603 333.000

385 184 17 15 9 0 610 345.000

Phân tích bảng trên, với 6 giá trị ngữ nghĩa khác nhau chữ viết tắt PT:

1) Tần số sử dụng gia tăng sau 10 ngày, chữ viết tắt PT tăng từ 333.000 lên

345.000, tức là tăng số lần sử dụng lên 12.000 lần; CVT gia tăng chứng tỏ

2) Tần suất sử dụng của Phương trình (PT) tại thời điểm 15/03/2016 là

sự sử dụng CVT ngày càng nhiều trên mạng Internet.

63,04%; Phát triển (PT) là 30,03%, Phương Thanh (PT) là 2,97%... Đến

ngày 25/3/2016, tần suất biến đổi nhưng không đáng kể. Chữ viết tắt PT có

tần suất sử dụng là 345.000 lần; tuy nhiên chữ viết tắt PT theo ngữ nghĩa

“Phương trình” chiếm tần suất sử dụng cao nhất 63,11% với tần số sử dụng

định nghĩa là 385 lần. Giá trị này cho thấy ngữ nghĩa “Phương trình” của

chữ viết tắt PT là phổ biến hơn cả. Chỉ số cao nhất này chỉ dấu với một chữ

viết tắt PT, ngữ nghĩa “Phương trình” là có xác suất xuất hiện cao nhất.

Nhờ chỉ số tần suất này, vấn đề xử lý nhập nhằng ngữ nghĩa CVT có một

hướng tiếp cận giải quyết, tức là chọn ngữ nghĩa CVT theo tần suất sử dụng

3) Công bố trên www.chuviettat.com [74] về kết quả tần số, tần suất xuất

cao nhất.

hiện các CVT, dự kiến sẽ công bố giá trị tăng giảm tần suất sau một thời

121

gian; sắp xếp giảm dần theo giá trị tần suất. Đưa ra cảnh bảo các giá trị

giảm (CVT là nhãn hiệu, thương hiệu). NSD có công cụ để tự đánh giá là

các CVT mình đang sở hữu; chức năng tra cứu CVT sẽ bổ sung thêm giá

4) Tương quan giữa thị phần dịch vụ và chỉ số tần suất xuất hiện chữ viết tắt:

trị tần suất xuất hiện và thời gian đánh giá.

Bằng phép so sánh, đối chiếu, ta nhận thấy có sự tương quan tần suất CVT

với những chỉ số thị phần hay xếp hạng thương hiệu; chẳng hạn các ví dụ

dưới đây:

- Ví dụ 1: Tần suất xuất hiện 8 cụm CVT (là thương hiệu thức ăn

nhanh) so sánh với thị phần thương hiệu bàn luận trên mạng xã

hội trong hình 19, bảng 1, phụ lục 5.

- Ví dụ 2: Tần suất xuất hiện 5 CVT (là thương hiệu nhà mạng di

động) so sánh với thị phần dịch vụ các nhà mạng di động tương

ứng (nguồn số liệu: Bộ Thông tin Truyền thông), bảng 5.5:

Bảng 5.5. Tương quan tần suất CVT và thị phần dịch vụ

STT NGHIAVIET N_VN1

Tần suất %

1 Viettel

687.000

Thị phần % 43,5

So sánh Prec 0,43

32,2

2 MobiFone

688.000

31,8

0,50

32,3

3 VinaPhone

489.000

17,5

0,57

22,9

4 Vietnamobile

127.000

4,1

0,59

6,0

5 GMobile

140.000 2.131.000

6,6 100

3,2 100

0,67

6.570%

5.960%

Viettel

32.238%

22.947%

MobiFone

VinaPhone

Vietnamobile

32.285%

GMobile

122

Hình 5.5. Biểu đồ tần suất CVT là thương hiệu di động trên Internet

Sự tương quan giữa chúng cho phép tiếp cận: Dựa vào tần suất xuất hiện CVT

(là thương hiệu, nhãn hiệu) có thể đưa ra chỉ số lượng hóa, sử dụng để dự đoán thị

phần, mức độ phát triển thương hiệu, nhãn hiệu. Doanh nghiệp có thể tham khảo chỉ

số này để đánh giá việc quảng bá, truyền thông của mình.

Lấy ý tưởng từ chỉ số tỷ lệ chính xác (Precision), lập tỷ lệ so sánh giữa Tần

suất và Thị phần như cột thứ 6 của bảng 5.5. Kết quả nhận thấy tỷ lệ Precision này

tăng dần đối với những doanh nghiệp có thị phần nhỏ dần: Điều này hợp lý bởi các

doanh nghiệp mới ra đời hay nhỏ hơn, ít lợi thế cạnh tranh hơn, thị phần phần thấp

thông thường gia tăng quảng bá thương hiệu; hay nói cách khác là xác suất về tần

suất xuất hiện trên truyền thông lớn hơn.

Nhận xét kết quả thực nghiệm

1. So sánh với phương pháp đánh giá tần số CVT theo Hội ngôn ngữ học Việt

Nam [11][9] và tần số CVT xuất hiện trong Corpus, phương pháp này có

những ưu điểm nhất định. Dựa trên nguồn dữ liệu sẵn có của các hệ thống

website tìm kiếm chuyên nghiệp, chúng ta có thể trích lọc các thông tin

hữu ích về tần số sử dụng và tần suất xuất hiện CVT (công cụ phần mềm

thống kê này thể hiện tính cộng sinh của AMES).

123

2. Về kết quả tần số, tần suất xuất hiện các CVT, công bố giá trị tăng giảm

tần suất sau một chu kỳ thời gian (3-6 tháng); sắp xếp giảm dần theo giá trị

tần suất. Đưa ra cảnh bảo các giá trị giảm (CVT là nhãn hiệu, thương hiệu).

NSD có công cụ để tự đánh giá là các CVT mình đang sở hữu. Sau một chu

kỳ thời gian sẽ có bổ sung giá trị tăng/giảm tần suất xuất hiện.

3. Tương quan giữa thị phần dịch vụ và chỉ số tần suất xuất hiện chữ viết tắt:

Bằng phép so sánh, đối chiếu, đưa ra sự tương quan tần suất CVT với

những chỉ số thị phần hay xếp hạng thương hiệu (hình 5.7 và 5.8). Sự tương

quan giữa chúng cho phép đưa ra cách tiếp cận: dựa vào tần suất xuất hiện

CVT (thương hiệu, nhãn hiệu) có thể lượng hóa, sử dụng để dự đoán thị

phần, mức độ phát triển thương hiệu của doanh nghiệp.

4. Một số hạn chế của giải pháp: còn phụ thuộc vào dữ liệu có được trên

yahoo.com, chương trình là sự mô phỏng tự động việc tìm kiếm thủ công.

Nếu dữ liệu đầu vào lớn, cần nhiều thời gian, nhiều máy tính để chạy

chương trình và ghi nhận dữ liệu. Dữ liệu trên Interrnet sử dụng bảng mã

tiếng Việt nhiều loại là rào cản cho dữ liệu chưa đầy đủ, chuẩn xác.

5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt

Với giải pháp đề xuất, luận án đưa ra những ứng dụng, cụ thể:

1. Sự gia tăng tần suất (sau một khoảng thời gian đánh giá) cho thấy bước

phát triển và sử dụng CVT, đặc biệt đối với thương hiệu, nhãn hiệu; chứng

tỏ sự lặp lại, sự quan tâm của truyền thông; lưu trữ, quan sát chỉ số này

giúp cho việc tư vấn phát triển, nhận diện thương hiệu. Sự giảm tần suất

CVT cho thấy việc truyền thông có chiều hướng giảm. Việc này có ý nghĩa

ứng dụng trong tư vấn doanh nghiệp phát triển truyền thông.

2. Với mỗi phạm vi sử dụng, tần số xuất hiện CVT giúp tư vấn chọn lựa

phương thức truyền thông để đạt hiệu quả mong đợi. Chẳng hạn CVT là

thương hiệu xuất hiện nhiều nhất trên tên miền .com thì quảng bá trên

website có tên miền này sẽ hiệu quả hơn.

3. Bằng phép so sánh, đối chiếu, rút ra sự tương quan tần suất CVT với những

chỉ số thị phần, xếp hạng thương hiệu. Sự tương quan giữa chúng cho phép

124

dựa vào tần suất xuất hiện CVT đưa ra chỉ số lượng hóa trong phát triển

thương hiệu, thị phần của doanh nghiệp.

4. Chỉ số tần suất xuất hiện: Cho phép một cách tiếp cận xử lý nhập nhằng

ngữ nghĩa, nhận diện CVT dựa trên chỉ số tần suất CVT. Các CVT có chỉ

số tần suất fi cao được ưu tiên gán ngữ nghĩa tương ứng, tính phổ dụng

CVT càng cao, có sức sống trong thực tiễn. CVT có tần suất xuất hiện ít

và thấp thì ít phổ biến, cũng có thể là rất cá biệt.

5.5. TÓM TẮT CHƯƠNG 5

Chương 5 đã phân tích và đề xuất giải quyết vấn đề xử lý nhập nhằng CVT.

Triển khai đề xuất hai hướng tiếp cận xử lý nhập nhằng CVT.

Hướng thứ nhất xử lý nhập nhằng CVT có nội dung trọng tâm là xây dựng vị

từ và hàm nhận diện CVT trong văn bản, từ đó đề xuất xây dựng cơ sở luật, thuật toán

nhận diện và xử lý nhập nhằng CVT trong văn bản, giới hạn nghiên cứu và thực

nghiệm văn bản trong lĩnh vực chuyên ngành viễn thông.

Hướng tiếp cận khác để xử lý nhập nhằng luận án đề xuất dựa vào chỉ số tần

suất xuất hiện CVT, tức là tần suất CVT cực đại. Triển khai ý tưởng này, xây dựng

giải pháp và thuật toán AFVAI, thực nghiệm đánh giá tần số, tần suất CVT trên mạng

Internet và đưa ra một vài ứng dụng thực tiễn. Chỉ số tần suất xuất hiện CVT cũng là

cơ sở cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa và nhận diện CVT dưạ

vào tần suất CVT cực đại có được.

Ý tưởng và thực nghiệm kết quả nghiên cứu cho phép đề xuất một phương

pháp thống kê ngôn ngữ học trên Internet, để quan sát và phân tích các hiện tượng

phát triển ngôn ngữ. Chẳng hạn như tìm những từ, cụm từ mới xuất hiện, có thống kê

tần suất xuất hiện (theo định kỳ thời gian), lưu trữ phân tích; từ đó quan sát được mức

độ quan tâm của truyền thông và sử dụng chúng, giúp ta thấy được sự phát triển của

từ vựng trong ngôn ngữ học.

125

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Phần này tóm tắt nội dung luận án, đánh giá những kết quả đạt được, đóng

góp khoa học và thực tiễn ứng dụng, đồng thời nêu lên những hạn chế và hướng phát

triển nghiên cứu trong tương lai của luận án.

1. KẾT LUẬN

1.1. Tóm tắt nội dung luận án

Luận án trình bày kết quả nghiên cứu lý thuyết của tác giả về ngôn ngữ, nguồn

gốc phát triển, những nhân tố làm cho ngôn ngữ biến đổi và phát triển; nêu lên những

vấn đề về XLNNTN đặt trong bối cảnh chung để tiếp cận nghiên cứu vấn đề ngữ

nghĩa và nhập nhằng ngữ nghĩa. Tìm hiểu sự biến đổi phát triển ngôn ngữ tiếng Việt

thông qua hai vấn đề: Sự biến đổi từ vựng và Sự biến đổi ngữ nghĩa. Đây là cơ sở lý

luận của ngôn ngữ học để luận án tiếp cận nghiên cứu vấn đề nguồn gốc, sự hình

thành CVT tiếng Việt, khẳng định có ý nghĩa khoa học và thực tiễn: Hệ thống từ vựng

của ngôn ngữ luôn biến đổi phát triển, trong đó phương thức viết tắt, tạo lập các chữ

viết tắt làm xuất hiện các từ ngữ mới. Từ đó phân tích các hạn chế, phát hiện đặt vấn

đề cần nghiên cứu của luận án: Hiện tượng nhập nhằng trong xử lý tiếng Việt, tiếp

cận xử lý vấn đề chữ viết tắt tiếng Việt.

Tiếp theo, lần lượt trong các chương 2, 3, 4 và 5, nội dung đã đi sâu nghiên

cứu vấn đề CVT trong thực tiễn với lịch sử hình thành, nhu cầu sử dụng, đề xuất khái

niệm ngữ nghĩa CVT, sự biến đổi ngữ nghĩa CVT, đề xuất khái niệm sự nhập nhằng

ngữ nghĩa CVT và xử lý nhập nhằng CVT. Từ đó, nghiên cứu sự hình thành CVT

thông qua việc mô hình hóa, xem xét kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp

và xây dựng được các quy tắc thành lập CVT. Để tạo lập môi trường nghiên cứu và

khai thác CVT, tác giả đề xuất xây dựng AMES - hệ thống khai thác CVT, hướng đến

một giải pháp tạo ra môi trường khai thác có tính cộng đồng, nhiều người sử dụng

cùng tham gia.

Triển khai thực nghiệm xây dựng AMES bằng cách xây dựng nguồn tài

nguyên CVT tiếng Việt, triển khai phương pháp thu thập dữ liệu (thủ công, tự động),

thực nghiệm thuật toán tìm kiếm và cập nhật CVT mới trên mạng Internet về CSDL

126

đã xây dựng; triển khai giải pháp xử lý nhập nhằng CVT, trong đó có hướng tiếp cận

xử lý nhập nhằng dựa vào chỉ số tần suất xuất hiện CVT. Xây dựng thuật toán, cài

đặt và thực nghiệm đánh giá tần số, tần suất CVT, đưa ra một số ứng dụng thực tiễn

cho doanh nghiệp. Xuyên suốt quá trình nghiên cứu và thực nghiệm, tác giả đã xây

dựng từng bước các công cụ phần mềm, hình thành nên hệ thống AMES - là môi

trường khai thác CVT, tạo lập hệ thống khai thác CVT ngày càng thuận lợi, tạo cơ

hội trao đổi, chia xẻ kinh nghiệm, kết quả nghiên cứu và áp dụng thực tiễn.

1.2. Các kết quả đạt được

Qua quá trình thực hiện mục tiêu nghiên cứu đã đặt ra, luận án đã có 4 đóng

góp khoa học và thực tiễn ứng dụng, cụ thể với 7 nội dung đánh dấu từ (1) đến (7)

như sau:

1. Phát hiện và xây dựng kho ngữ liệu chữ viết tắt

Xây dựng kho ngữ liệu CVT tiếng Việt (1). Kho ngữ liệu được cập nhật từ nhiều

nguồn dữ liệu khác nhau theo sự biến động và phát triển CVT trong thực tiễn với

phương pháp thủ công/tự động. Dữ liệu được từng bước chuẩn hóa và phân lớp.

Hiện nay đã có khoảng 7.000 CVT tiếng Việt (có cả CVT nội sinh và ngoại

nhập) đã biên tập lưu trữ trong CSDL, từng bước chuyển song ngữ (Việt - Anh)

những CVT thông dụng.

2. Tổng kết các quy tắc hình thành chữ viết tắt, xây dựng hệ thống khai

thác chữ viết tắt

Xây dựng các quy tắc hình thành CVT, từng bước chuẩn hóa quy tắc thành

lập, sử dụng CVT, góp phần phát triển ngôn ngữ tiếng Việt (2): Luận án đã tiếp cận

nghiên cứu sự hình thành CVT thông qua việc mô hình hóa sự hình thành, xem xét

kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp để xây dựng và công bố 9 quy tắc

hình thành CVT. Tổng hợp các yếu tố ảnh hưởng đến hình thành CVT, so sánh với

những quy định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ dấu hiệu nhận biết CVT

trong văn bản.

Xây dựng AMES, hệ thống khai thác và xử lý CVT tiếng Việt (3): Luận án đề

xuất AMES, mô hình hóa hệ thống khai thác CVT. Đó là môi trường khai thác CVT

tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm, được triển khai thực nghiệm để

tạo lập kết nối giữa các đối tượng NSD, chuyên gia nghiên cứu, doanh nghiệp, lập

127

trình viên, nhà cung cấp hạ tầng với nhau, kết quả cụ thể: Sử dụng hạ tầng viễn thông,

kết nối thu thập dữ liệu, hệ thống từ điển, đồng bộ dữ liệu, người sử dụng khai thác,

hàm API kết nối người lập trình, nhà cung cấp dịch vụ viễn thông gửi SMS đến các

mạng di động qua gateway định sẵn, doanh nghiệp sử dụng tư vấn đặt tên SMS

Brandname thông qua website…

3. Xử lý nhập nhằng chữ viết tắt

Xử lý nhập nhằng CVT (4): Luận án xây dựng 27 vị từ điều khiển, nhận diện

CVT trong văn bản; xây dựng 12 hàm xử lý chuỗi; lập 12 luật trong cơ sở luật làm

căn cứ xây dựng máy suy diễn nhận diện CVT và triển khai thử nghiệm trong văn

bản chuyên ngành viễn thông. Đề xuất giải pháp và xây dựng công cụ thống kê tần

số, tần suất CVT tiếng Việt. Chỉ số tần số, tần suất giúp nhà nghiên cứu quan sát, lưu

trữ, thống kê và phân tích các hiện tượng phát triển ngôn ngữ tiếng việt nói chung và

CVT nói riêng qua từng thời điểm. Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho

phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa CVT.

4. Ứng dụng và khai thác chữ viết tắt

Tạo lập từ điển CVT trên máy tính, máy điện thoại di động (5): Sử dụng nguồn

44 và Từ điển CVT trên máy di động45. Hai hệ thống này có sự đồng bộ dữ liệu với

tài nguyên CVT tiếng Việt để xây dựng hai hệ thống từ điển: Website thư viện CVT

nhau đảm bảo thống nhất chung nguồn dữ liệu; tuy nhiên có sự tùy biến cá nhân khi

sử dụng CVT trên máy di động. Thuật toán tìm kiếm CVT nêu trên có sử dụng kỹ

thuật tìm kiếm toàn văn FTS cho phép NSD tra cứu nhanh chóng, nhận biết CVT

nhập nhằng ngữ nghĩa.

Xây dựng các ứng dụng khác như (6): Xây dựng ứng dụng máy tìm kiếm CVT

mới, đề xuất và xây dựng công cụ quảng bá thương hiệu Brandname cho doanh

nghiệp, công cụ tư vấn đặt tên Brandname cho doanh nghiệp (tránh trùng lặp, nhập

nhằng ngữ nghĩa), từ điển CVT trên máy di động … Các ứng dụng này là những thành

phần trong hệ thống AMES. Xây dựng 4 thuật toán và triển khai thực nghiệm có kết

44 http://www.chuviettat.com 45 ABC Acronym Dictionary

quả: Thuật toán SENVA - cập nhật tự động CVT mới từ Internet, thuật toán SAOM-

128

FTS - cài đặt từ điển chữ viết tắt trên di động, CSBCOM - tư vấn thương hiệu, thuật

toán AFVAI - ghi nhận tần số CVT trên Internet.

Xây dựng công cụ thống kê CVT và đề xuất chuẩn hóa sử dụng CVT ở phạm

vi chuyên ngành và quốc gia (7): Luận án xây dựng khái niệm tần số, tần suất CVT

trên Internet, đề xuất giải pháp và xây dựng thực nghiệm công cụ thống kê CVT tiếng

Việt, làm cơ sở đánh giá, lượng hóa chỉ số sử dụng và sự phát triển CVT trong thực

tiễn. Với công cụ này, tác giả đề xuất ý tưởng về một giải pháp tiếp cận thống kê ngôn

ngữ học trên Internet để quan sát và phân tích các hiện tượng phát triển ngôn ngữ nói

chung.

Luận án còn đề xuất chuẩn hóa sử dụng CVT ở phạm vi quốc gia: Cần thiết

phải xây dựng và ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng

CVT có tính gợi nhớ, dễ hiểu, dễ sử dụng, tạo điều kiện trao đổi chia xẻ thông tin,

khai thác CSDL quốc gia được dễ dàng và đồng bộ.

Tóm lại, luận án tìm hiểu nền tảng lý thuyết thực hiện đề tài: Xác lập cơ sở lý

thuyết ngôn ngữ học, XL NNTN và thực tiễn sử dụng CVT; xây dựng CSDL, thuật

toán, triển khai thực nghiệm đạt kết quả, hướng đến khai thác, ứng dụng. Luận án có

ý nghĩa thực tiễn: Xây dựng được kho ngữ liệu CVT, xây dựng nguồn dữ liệu,

phát triển môi trường nghiên cứu XL CVT tiếng Việt, xây dựng các công cụ khai thác

CVT, góp phần nâng cao chất lượng một số dịch vụ của ngành VT, CNTT.

1.3. Hạn chế của luận án

Bên cạnh những đóng góp, luận án còn có những hạn chế nhất định:

Vấn đề xử lý nhập nhằng CVT chỉ giới hạn trong chuyên ngành VT-CNTT,

chưa mở rộng triển khai cho mọi loại hình văn bản; một số thuật toán, một số hàm

chưa thật sự tối ưu do sự phức tạp của vấn đề nghiên cứu; việc xây dựng AMES chưa

hoàn thiện bởi nhu cầu cần nhiều công cụ phần mềm hơn nữa, cần có sự trao đổi, hợp

tác của các chuyên gia, nhiều tác nhân tham gia.

Nghiên cứu CVT liên quan đến chuyên ngành ngôn ngữ học, tuy luận án đã

có cố gắng công bố nội dung nghiên cứu trong hội thảo chuyên ngành [8], nhưng tác

giả nhận thấy cần có sự đầu tư nghiên cứu chuyên môn lý thuyết ngôn ngữ học sâu

129

hơn nữa, đồng thời cần có sự góp ý, phản biện và thẩm định của các chuyên gia ngôn

ngữ học.

Ngoài ra, cần phải nghiên cứu thêm, đặt bài toán CVT trong miền dữ liệu

(domain) để có phương pháp xử lý nhập nhằng CVT hợp lý. Tìm hiểu thêm Word

Embedding (tên gọi chung cho các mô hình ngôn ngữ và các phương pháp học theo

đặc trưng trong XLNNTN) để giải quyết tốt hơn các vấn đề đặt ra.

2. HƯỚNG PHÁT TRIỂN

Luận án tiếp tục phát triển nghiên cứu các vấn đề sau:

1. Nghiên cứu, mở rộng trao đổi hợp tác với các nhà nghiên cứu chuyên ngành

ngôn ngữ học giải quyết: Chuẩn hóa quy tắc hình thành CVT.

2. Tiếp tục nghiên cứu sâu hơn khái niệm hệ sinh thái phần mềm, các đặc

trưng, phương pháp mô hình hóa…; đề xuất giải pháp khuyến khích phát

triển, xây dựng dự án phần mềm hướng đến SECO, hướng đến SaaS

(Software as a Service). Ứng dụng SECO trong triển khai các dự án phần

mềm của đơn vị chuyên ngành VT- CNTT.

3. Phát triển hệ thống khai thác CVT từ AMES đến SECO: Tìm hiểu sâu đặc

trưng, thách thức SECO; hợp tác phát triển AMES thực sự có tính mở, ổn

định, kết thừa; chuẩn hóa việc mô hình hóa hệ sinh thái phần mềm bằng

UML, I, hoặc Petri nets.

4. Thực nghiêm tối ưu các hàm, các luật nhận diện CVT, hình thành CVT,

máy suy diễn nhận diện CVT. Nghiên cứu công cụ tắt hóa văn bản, cải tiến

thuật toán công cụ tư vấn Brandname hướng đến tư vấn thông minh cho

NSD, tự động hóa công cụ tính toán tần suất CVT, tư vấn thị phần dịch vụ

mở rộng một chuyên ngành khác. Bổ sung thêm đánh giá độ đo khoa học

chuẩn (Recall, Precision).

5. Cần nghiên cứu thử nghiệm cài đặt thêm phần nhận diện CVT (có sử dụng

Machine Learning (Recurrent neural network) để dự đoán trên tập Vector

Embedding ngữ nghĩa, kết hợp với các quy tắc tạo sinh CVT từ kết quả

nghiên cứu chương 2 của luận án.

130

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ

[1] Nguyen Nho Tuy, Phan Huy Khanh. Abbreviations Applicationin 108 VNPT

Service Exploitation in Da Nang City, IJISET (International Journal of

[2] Nguyễn Nho Túy, Phan Huy Khánh. Giải pháp ứng dụng chữ viết tắt chỉ mục

Innovative Science, Engineering & Technology) Vol. 3 Issue 1, January 2016.

cơ sở dữ liệu phục vụ tìm kiếm khai thác dữ liệu, Tạp chí KHCN ĐHĐN, Số

[3] Nguyễn Nho Túy, Phan Huy Khánh, Đặng Huy Hòa. Đánh giá tần số sử dụng

9(106).2016, trang 97-101.

chữ viết tắt tiếng Việt trên Internet, Tạp chí KHCN ĐHĐN, Số 9(106). 2016,

[4] Nguyen Nho Tuy, Phan Huy Khanh. Developing database of Vietnamese

trang 81-86.

abbreviations and some applications, Nature of Computation and

[5] Nguyen Nho Tuy, Phan Huy Khanh. New Automatic Search and Update

Communication, Springer, ICTCC2016, Kien Giang, pp 373-383.

Algorithms of Vietnamese Abbreviations, World of Computer Science and

[6] Nguyễn Nho Túy, Phan Huy Khánh, Lê Văn Anh. Giải pháp tư vấn đặt tên và

Information Technology Journal (WCSIT),Vol. 6, No. 1, 1-7, 2016.

sử dụng tin nhắn thương hiệu cho doanh nghiệp. Kỷ yếu Hội nghị Quốc gia

lần thứ X về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Đà

[7] Nguyễn Nho Túy, Phan Huy Khánh. Xây dựng môi trường khai thác chữ viết

Nẵng 2017, trang 226-232.

tắt tiếng Việt, Kỷ yếu hội thảo khoa học quốc gia CITA2017, Đà Nẵng 2017,

[8] Nguyễn Nho Túy, Phan Huy Khánh, Nguyễn Thị Minh Tuyết. Một góc nhìn

trang 160-167.

về sự hình thành CVT, hướng đến xây dựng cơ sở dữ liệu và khai thác dữ liệu

CVT tiếng Việt. Kỷ yếu Hội thảo Quốc tế “Ngôn ngữ học Việt Nam - những

chặng đường phát triển và hội nhập quốc tế”, ĐHSP Đà Nẵng, 2018, trang

1021-1035.

131

TÀI LIỆU THAM KHẢO

[1] Chim Văn Be (2005). Ngữ pháp tiếng Việt. Giáo trình đào tạo ĐH Cần Thơ.

[2] Đài 108 VNPT Đà Nẵng. Biểu mẫu thống kê, hệ thống CSDL quản lý giám sát nghiệp vụ, sản lượng, chất lượng dịch vụ. Số liệu sử dụng nội bộ, 08/2015.

[3] Đoàn Thị Tâm (2012). Hệ thống từ ngữ chỉ người trong tiếng Ê đê. Luận án tiến sỹ

ngữ văn. Đại học Sư phạm TP Hồ Chí Minh.

[4] Đỗ Hữu Châu (2003). Đại cương ngôn ngữ học - Tập 2. NXB Giáo dục.

[5] Đỗ Quang Chính (1972). Lịch sử chữ Quốc ngữ 1620-1659. NXB Tôn Giáo.

[6] Đào Thanh Tĩnh, Trần Ngọc Anh, Nguyễn Phương Thái (2011). Một phương pháp hiệu quả khử nhập nhằng theo ngữ cảnh trong bài toán tách từ tiếng Việt. Tạp chí Khoa học và Kỹ thuật Số 145 - Học viện KTQS.

[7] Đinh Điền (2005). Giáo trình Xử lý ngôn ngữ tự nhiên. ĐHQG TP HCM.

[8] Đinh Văn Chi (2010). Từ điển chữ viết tắt thường dùng trong y học. NXB Y học.

[9] Hồ Tú Bảo. Đề tài VLSP - Nhánh đề tài Xử lý văn bản (trực tuyến),

http://vlsp.hpda.vn:8080/demo/ (truy cập: 20/12/2017)

và Công

học

[10] Hồ Tú Bảo, Lương Chi Mai (2008). Xử lý tiếng Việt trong CNTT, Viện CNTT. Viện Khoa chỉ: tiến Nhật Bản. Địa nghệ Tiên http://www.ebook.edu.vn/?page=1.39&view=2155 (truy cập: 20/12/2016)

[11] Hoàng Hiệp (2004). Xây dựng công cụ tìm kiếm bằng PHP và MySQL. Tạp chí Bưu

chính Viễn thông và CNTT ( kỳ 2).

[12] Hoàng Thị Mỹ Lệ (2017). Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong

dạy và học tiếng Ê Đê. Luận án Tiến sỹ, Đại học Đà Nẵng.

[13] Hội Ngôn ngữ học Việt Nam (2002). Danh sách chữ viết tắt xếp theo tần số. Hà

Nội 2002.

[14] Lại Nguyên Ân (2012). Phan Khôi và cuộc tranh luận về sử học trên Đông Pháp thời báo 1928. Website: phebinhvanhoc.com.vn/phan-khoi-va-cuoc-tranh-luan-ve- su-hoc-tren-dong-phap-thoi-bao-1928/ (truy cập 18/11/2018)

[15] Lã Minh Hằng (2004). Chữ Nôm trong bối cảnh văn hoá khu vực. Hội nghị Quốc tế

về chữ Nôm, ngày 12-13/11/2004, Hà Nội.

[16] Lê Bá Long (2006). Lý thuyết xác suất thống kê toán. Giáo trình Học viện Bưu

chính Viễn thông Việt Nam.

[17] Lê Đình Tư & Vũ Ngọc Cân (2009). Nhập môn ngôn ngữ học. Giáo trình ĐH Quốc

Gia, Hà Nội.

[18] Lê Nhân Đàm (1997). Từ điển chữ viết tắt thông dụng. NXB Giáo dục.

TIẾNG VIỆT

[19] Lê Nhân Đàm (2010). Từ điển chữ viết tắt quốc tế và Việt Nam. NXB Giáo dục.

[20] Lê Tiến Vương (2002). Nhập môn Cơ Sở Dữ Liệu. NXB Thống kê, Hà Nội

[21] Lê Thị Bích Chi (2012). Nghiên cứu đăc trưng ngôn ngữ của hiện tượng viết tắt Việt

chiếu

tiếng

tiếng

điện

Anh

thư

đối

với

tử

trong Link:http://www.udn.vn/app/webroot/svnckh2012/PDF/TB20-03.pdf

[22] Lương Chi Mai (chủ nhiệm) (2005). Đề tài “Nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”, mã số KC.01.01/06-10. Đề tài nghiên cứu KH&CN - chương trình Trọng điểm cấp Nhà nước, Hà Nội.

[23] Lưu Tuấn Anh

(2012). Download dữ

liệu các

link:

tập Corpus, http://viet.jnlp.org/download-du-lieu-tu-vung-corpus (truy cập: 20/04/2017)

[24] Lưu Tuấn Anh và Yamamoto Kazuhide. Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt: http://viet.jnlp.org/dongdu (truy cập: 20/04/2017)

[25] Ngô Trung Việt (1987). Vấn đề chữ Việt trên máy tính, Tạp chí Khoa học Tính toán

và Điều khiển, số 3.

[26] Nguyễn Bảo (1999). “Viết tắt trên báo hiện nay”. Tạp chí NN&ĐS số 4.

[27] Nguyễn Tài Cẩn (1981). Ngữ pháp tiếng việt. NXB ĐH và THCN, Hà Nội, năm 1981.

[28] Nguyễn Thiện Giáp (1998). Dẫn luận ngôn ngữ học. NXB Giáo dục, Hà Nội.

[29] Nguyễn Quang Hồng (2003). “Nói tắt và viết tắt từ ngữ trong tiếng Việt”, Tạp chí

NN&ĐS số 1+2.

[30] Nguyễn Thị Thu Thuỷ , Nguyễn Hữu Chỉnh (2005). Tổng quan về ngôn ngữ và

ngôn ngữ học. Giáo trình đào tạo ĐH Cần Thơ.

[31] Nguyễn Thị Thu Thủy (2005). Từ vựng tiếng Việt. Giáo trình ĐH Cần Thơ.

[32] Nguyễn Thanh Việt, Đỗ Kim Bằng (1999). Thuật ngữ viết tắt Viễn thông. NXB Bưu

điện.

[33] Nguyễn Thị Trúc. Dẫn luận ngôn ngữ (2000). ĐHSP Đà Nẵng.

[34] Nguyễn Như Ý (chủ biên) (1999). Đại từ điển tiếng Việt. NXB VH-TT.

[35] Nguyễn Như Ý (1994). Từ điển chữ viết tắt. NXB VH-TT.

[36] Nguyễn Như Ý (1994). Từ điển chữ viết tắt các tổ chức kinh tế xã hội Việt Nam.

NXB Thế giới.

[37] Nguyễn Quang Hồng (2003). “Nói tắt và viết tắt từ ngữ trong tiếng Việt”, Tạp chí

NN&ĐS số 1+2.

[38] Nguyễn Văn Lợi (2018). Sự hình thành cách ghi thanh điệu chữ Quốc ngữ. Website http://vienngonnguhoc.gov.vn/bai-viet/su-hinh-thanh-cach-ghi-thanh-dieu-chu- quoc-ngu_701.aspx (truy cập 11/08/2018).

[39] Ninh Khánh Duy, Nguyễn Văn Quý (2017). Biểu diễn ngữ cảnh trong khai triển chữ viết tắt dùng tiếp cận học máy. Tạp chí Khoa học Công nghệ Đại học Đà Nẵng số 5(114)2017.

132

[40] Ninh Khánh Chi, Ninh Khánh Duy (2017). Chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc. Kỷ yếu hội thảo khoa học quốc gia CITA2017, Đà Nẵng 2017.

[41] Phan Huy Khánh (2005). Giáo trình Hệ chuyên gia. Trường Đại học Bách Khoa -

Đại học Đà Nẵng.

[42] Phan Huy Khánh, Phạm Thị Thùy Linh (2013). Xử lý nhập nhằng tiếng Việt và ứng

dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập - Luận văn.

[43] Phan Huy Khánh, Lê Thanh Duy (2011). Xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt. Tạp chí Thông tin KH&CN - Trường CĐCN, ĐH Đà Nẵng. Số: 1.

[44] Phan Huy Khánh (2003). Xây dựng cơ sở dữ liệu từ vựng đa ngữ sử dụng dạng

thức văn bản RTF Winword. Kỷ yếu Hội thảo Khoa học Quốc gia ICT. Hà Nội.

[45] Phan Huy Khánh (2004). Sử dụng công cụ lập trình macro VBA xây dựng các tiện ích xử lý văn bản. Kỷ yếu Hội nghị Khoa học Lần thứ 3, Đại học Đà Nẵng 2004.

[46] Trần Thanh Ái (2013). Ngôn ngữ học xã hội: Những quan niệm và khuynh hương, Tạp chí Khoa học Trường Đại học Cần Thơ, Phần C: Khoa học Xã hội, Nhân văn và Giáo dục: 25 (2013): 79-95

[47] Trần Tư Bình (2013). Viết tắt chữ việt trong ngôn ngữ @. Website:

http://chuvietnhanh.sourceforge.net/ (truy cập 18/8/2017)

[48] Trần Tư Bình, Ngô Đình Học, Nguyễn Vĩnh Tráng (2011). Chữ Việt nhanh. NXB

Trẻ Hà Nội.

[49] Võ Xuân Quế (1998). Nghiên cứu chữ viết tắt “Trung ương”. Tạp chí NN&ĐS, số

4.

[50] Joseph

thời @”. Website:

(2012).

Ruelle

Việt

“Tiếng http://chuvietnhanh.sourceforge.net/TiengVietThoi@.htm (truy cập 20/8/2018)

133

TIẾNG ANH

[51] Brill E. (1995). Transformation-based error-driven learning and natural language processing: A case study in part of speech tagging. Computational linguistics, No 21 (vol 4), pp. 543-565.

[52] Daniel Jurafsky & James H. Martin (2001). Speech and Language Processing,

Prentice Hall.

[53] Daelemans et al (1996). A memory-based part of speech tagger generator. Fourth

Workshop on Very Large Corpora, ACL SIGDAT, pp. 14-27.

[54] David G. Messerschmitt and Clemens Szyperski (2003). Software Ecosystem: Understanding an Indispensable Technology and Industry. Cambridge, MA, USA: MIT Press.

[55] Dien Dinh and Kiem Hoang. (2003). POS-tagger for English-Vietnamese bilingual corpus, proceeding of HLT-NAACL (North American Association for Computational Linguistics)-03 Workshop “Building and Using Parallel Texts”, Canada, pp. 88-95.

[56] Gobinda G. Chowdhury (2003). Natural language processing, Annual Review of

Information Science and Technology. 37. pp. 51-89.

[57] HaCohen-Kerner, Ariel Kass and Ariel Peretz (2008). Combined One Sense Disambiguation of Abbreviations. ACL 2008, Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics, Columbus, Ohio, USA, Short Papers.

[58] Joshua J.V., Alao D.O., Okolie S.O., Awodele O. (2013). Software Ecosystem: Features, Benefits and Challenges. (IJACSA) International Journal of Advanced Computer Science and Applications, Vol. 4, No. 8, pp: 242-247.

[59] Khanh Phan Huy (1998). Edition structurale des documents multilingues et application au vietnamien dans Grif. Rapport de recherche No 186, Université de Lille 1 (186), pp 1-15.

[60] Khanh Phan Huy (2002). A Survey on Vietnamese Language Processing and Multilingual Processing, Proceeding of NECTEC Conference, Phuket, ThaiLan, pp. 13-14.

[61] Manuel Zahariev D. (2004). Acronyms. Simon Fraser University, USA.

[62] Philipp Koehn, Hieu Hoang, et al. (2007). Moses: Open source toolkit for statistical machine translation, Proceeding of the 45th annual meeting of the Association for Computational Linguistics-ACL on interactive poster and demonstration sessions. pp. 177-180.

[63] Stuart Yeates, David Bainbridge (2000). Using compression to identify acronyms

in text. University of Waikato Hamilton, New Zealand.

[64] Sidorov N.A., Grineko O.O. (2013). Software Ecosysytem Modeling. National

Aviation University.

[65] Slinger Jansen, Eko Handoyo, Carina Alves (2015). Scientists’ Needs in Modelling Software Ecosysytems. Proceedings of the International Workshop on Software Ecosystems Utrecht University, the Netherlands.

[66] Trieu Thi Ly Ly, Nguyen Van Quy, Ninh Khanh Duy, Huynh Huu Hung, Dang Duy Thang (2017). Representing context in abbreviation expansion using machine learning approach. FAIR - Fundamental and Applied IT Research (FAIR’10). pp. 816-822.

[67] Wilks Y., Stevenson M. (1997). Sense Tagging: Semantic Tagging with a Lexicon. In Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C.

[68] Xu, Hua, Peter D. Stetson, and Corol Friedman (2012). Combining Corpus-derived Sense Profiles with Estimated Frequency Information to Disambiguate Clinical Abbreviations. AMIA Annual Symposium proceedings. Vol. 2011. American Medical Information Association.

[69] Xu, Sun and Houfeng Wang (2006). Chinese Abbreviation Identification Using International

Abbreviation-Template Features and Context

Information.

134

Conference on Computer Processing of Oriental Languages, Springer, Berline, Heidelberg, 2006.

[70] Yarovsky D. (1992). Word-Sense Disambiguation Using Statistical Models of Roget`s Categories Trained on Large Corpora. In Proceedings, COLING-92.

[71] Yonghui Wu, et al (2012). A comparative study of current clinical natural language processing systems on handling abbreviations in discharge summaries. AMIA Annual Symposium proceedings. Vol. 2012. American Medical Information Association.

[72] Yonghui Wu, et al (2015). Clinical Abbreviation Disambiguation Using Neural

Word Embeddings. Proceedings of BioNLP 15.2015.

[73] Yonghui Wu, et al (2011). Detecting Abbreviations in Discharge Summaries using Machine Learning Methods. AMIA Annual Symposium proceedings. Vol. 2012. American Medical Information Association.

135

TRANG WEB TIẾNG VIỆT

[74] http://www.chuviettat.com (Website thư viện CVT của tác giả xây dựng)

[75] http://www.chuviet.net/ Truy cập thông tin “Diễn đàn ngôn ngữ Việt thời @”.

[76] http://chuvietnhanh.sourceforge.net/, Tải tập tin sách Chữ Việt Nhanh từ cập

(truy

http://chuvietnhanh.sourceforge.net/Sach-ChuVietNhanh.pdf 20/9/2017).

[77] http://www.web2vietnam.com/2011/02/14/the-age-of-ecosystems/Thời Của Các

“Hệ Sinh Thái” (truy cập: 15/04/2017)

[78] http://postcode.vn/default.aspx?page=newsdetail&newsid=9

(truy

cập:

08/12/2018)

[79] https://vanhay.edu.vn/nghi-luan-xa-hoi-suy-nghi-ve-cau-chuyen-nguoi-cap-cuu/

(truy cập: 10/03/2018, 4/11/2018)

[80] https://vdict.com/ (tra cứu từ điển, ngữ nghĩa CVT, truy cập thường xuyên)

[81] https://dict.laban.vn (tra cứu từ điển, ngữ nghĩa CVT, truy cập thường xuyên)

[82] http:// www.tudienlong.com (sử dụng tra cứu các CVT tiếng lóng tiếng Việt, tìm

kiếm chữ viết tắt mới, truy cập thường xuyên)

[83] https://vi.wikipedia.org/wiki/ (sử dụng tra cứu các khái niệm hệ sinh thái phần

mềm, XLNNTN… truy cập thường xuyên)

[84] http://aita.gov.vn/tin-tuc/1615/ (thông tin số liệu thống kê, truy cập: 15/06/2016)

[85] http://viet.jnlp.org/cac-cong-cu-xu-ly/trich-loc-tieng-viet-tu-html

(truy

cập:

10/06/2016 về các công cụ trích lọc tiếng Việt)

[86] http://www.vietlex.com/help/about_corpus.htm. Giới thiệu Kho ngữ liệu tiếng

Việt-Vietnamese Corpus. VietLex (truy cập: 25/04/2017)

[87] http://dinte.gov.vn/index.php/tin-tuc/47-tin-cong-nghe-thong-tin/1081-hoi-thao-

ngay-internet-2016-internet-day-2016. Cục Công nghệ Thông tin (2016), Hội thảo Ngày Internet 2016, (trực tuyến) (truy cập: 5/03/2017)

[88] https://kipalog.com/posts/Full-Text-Search--Tu-Khai-Niem-den-Thuc-Tien--

Phan-1 (truy cập 05/11/2016).

[89] https://vov.vn/xa-hoi/giao-duc/vien-truong-vien-ngon-ngu-hoc-noi-ve-cai-tien-

chu-viet-tieng-viet-711720.vov (truy cập 23/09/2018)

[90] https://vi.wikipedia.org/wiki/Xử_lý_ngôn_ngữ_tự_nhiên (truy cập 15/08/2018)

[91] https://vi.wikipedia.org/wiki/Chữ_viết (truy cập 23/09/2018)

[92] https://vtc.vn/de-xuat-cai-tien-chu-viet-tieng-viet-gay-tranh-cai-5-ly-do-phan-bac-

d365592.html (truy cập 23/09/2018).

[93] https://danang.vnpt.vn/products/index/sms-brandname.html (truy cập 11/08/2018).

136

TRANG WEB TIẾNG ANH

[94] http://www.acronymfinder.com (tra cứu các CVT tiếng Anh và nhiều ngôn ngữ

khác, truy cập thường xuyên).

[95] http://www.abbreviations.com (tra cứu các CVT tiếng Anh và nhiều ngôn ngữ

khác, truy cập thường xuyên).

[96] https://en.wikipedia.org/wiki/Software_ecosystem (truy cập 5/03/2017).

I

PHỤ LỤC

Phụ lục 1. Câu chuyện “Người ăn cắp cừu” [79]

Tại một đất nước vào thời kỳ lập quốc, ở một xứ kia, có hai anh em nhà nọ bị

bắt quả tang đang ăn cắp cừu. Dân làng đã họp bàn để trừng phạt. Mọi người đã

đồng ý hình phạt khắc trên trán của hai tội nhân hai chữ viết tắt ST (Sheep Theft), có

nghĩa là "Kẻ ăn cắp cừu".

Người anh không chịu nổi sự sỉ nhục đã trốn sang một vùng đất khác để chôn

chặt dĩ vãng. Nhưng anh không thể xóa nhòa được hai chữ viết tắt trên trán của mình.

Bất cứ một người lạ mặt nào cũng đều tra hỏi anh về ý nghĩa của hai chữ ấy. Không

chịu nổi sự nhục nhã, anh lại rời bỏ nơi cư ngụ để tiếp tục lang thang. Cuối cùng

mòn mỏi trong cay đắng, anh đã bỏ mình nơi đất khách quê người.

Còn người em tự nhủ với mình rằng: "Mình không thể bỏ trốn chỉ vì ăn cắp

mấy con cừu. Mình phải ở lại đây và phải tự mình tạo lại niềm tin của những người

xung quanh và nơi chính bản thân mình". Với quyết tâm đó, anh đã ở lại ngôi làng

của mình. Vài năm sau, anh đã xây dựng cho mình một sự nghiệp cũng như danh

thơm của một người thanh liêm chính trực.

Nhưng cho dù năm tháng có qua đi, hai chữ ST vẫn còn in đậm trên vầng trán

của anh... Ngày kia, có một người lạ mặt hỏi một cụ già trong làng về ý nghĩa của

hai chữ viết tắt ấy. Cụ già suy nghĩ một hồi rồi mới trả lời: "Tôi không nhớ rõ lai lịch

của hai chữ viết tắt ấy, nhưng cứ nhìn vào cuộc sống của người đó, tôi nghĩ rằng hai

46 Theo English Study,[34], viết tắt là St. thường đặt trước tên người hay tên thiên thần, ví dụ như St. Paul, St.Vincent

chữ viết ấy có nghĩa là Thánh thiện (Saint)46.

II

Phụ lục 2. Các bảng dữ liệu

Các bảng sau đây mô tả các thuộc tính dữ liệu, sử dụng để thiết kế bảng dữ

liệu, xây dựng nguồn tài nguyên CVT tiếng Việt đã được trình bày trong chương 3.

Bảng 1. Các thuộc tính dữ liệu chữ viết tắt CVTs

Thuộc tính

Giải thích

stt

Chỉ số mục từ viết tắt

cvt

Mục từ viết tắt

PhienAm

Phiên âm dùng để phát âm

MaLop

Phân lớp sử dụng

MaCN

Người biên tập, cập nhật

MaNN

Ngôn ngữ tiếng Việt/ tiếng Anh/...

NghiaViet

Nghĩa tiếng Việt của chữ viết tắt

NghiaAnh

Nghĩa tiếng Anh của chữ viết tắt

Nghia_n

Nghĩa ngôn ngữ thứ n

Bảng 2. Các thuộc tính phân lớp dữ liệu chữ viết tắt PhanLopCVT

Thuộc tính

Giải thích

MaLop

Phân lớp sử dụng

TenLop

Tên lớp theo lĩnh vực sử dụng

Bảng 3. Các thuộc tính liên quan đến nguồn gốc cập nhật CVT

Thuộc tính

Giải thích

STT

Chỉ số người cập nhật

MaCN

Mã hoá người biên tập cập nhật dữ liệu

HoTen

Họ và tên người cập nhật dữ liệu

DiaChi

Địa chỉ người cập nhật dữ liệu

DienThoai

Điện thoại

Email

Email

NguonURL

Website cá nhân

NgayCN

Ngày cập nhật

III

Phụ lục 3. Một số thuật toán, mã lệnh sử dụng trong các chương trình

1) Thuật toán tìm kiếm chữ viết tắt trong tập tin WORD

Thuật toán tìm kiếm CVT trong tập tin văn bản, thực hiện trích lọc tự động

các cụm CVT và lưu vào CSDL (sử dụng cập nhật dữ liệu CVT thủ công).

Input: Tập tin Word (.doc) bất kỳ Output: Dữ liệu CVT nhận được ở tập tin kq.doc Begin

- Chọn cửa sổ văn bản nguồn - Tìm dấu ngoặc đóng: “)” - Chọn khối văn bản đến đầu dòng. - Copy khối văn bản vào bộ nhớ đệm. - Chọn của sổ văn bản kq.doc - Dán kết quả thêm vào cuối văn bản kq.doc - Tăng biến i=i+1

Open tập tin nguồn .doc; về đầu văn bản .DOC đang mở. Open tập tin để lưu kết quả: kq.doc - Tách các câu, các cụm từ phân cách dấu chấm, dấu phẩy trong tập tin văn bản nguồn thành các phân đoạn (paragraph); - Tách các câu ngoặc đóng “)” thành các “)^P” dấu ngoặc và phân đoạn. - Chọn khối văn bản các đoạn này - Đếm tổng số các CVT nhiều nhất có thể có: TongCVT - Vòng lặp: i =1 While i <= TongCVT Do EndWhile Chọn của sổ văn bản kq.doc Chuyển đổi dữ liệu thành bảng có hai cột Ghi lại tập tin kq.doc

Sau khi thực hiện trích lọc tự động các cụm từ năm trong cặp dấu (...), có thể sử

dụng thêm Macro chuyển đổi dữ liệu về tập tin .TXT, để tiếp tục biên tập lại dữ liệu.

Thuật toán đề xuất mở tập tin nguồn .doc bất kỳ, sau đó mở tập tin kq.doc để lưu

giữ kết quả trích lọc thông tin, đảm bảo mục đích trực quan, dễ sử dụng đối với người

thu thập dữ liệu

End: Nhận xét:

IV

Trong nội dung sử dụng chữ viết tắt trong CSDL chuyên ngành (mục 3.3.1.), ứng

dụng xây dựng CSDL CVT cho Đài 108 đã sử dụng hàm chuyển đổi mọi CVT có dấu

tiếng Việt sang CVT không dấu, viết hoa để giúp các điện thoại viên giảm thiểu thao tác

gõ bàn phím, tăng hiệu năng sử dụng phần mềm tra cứu danh bạ. Sau đây là mã lệnh đầy

đủ của hàm đã xây dựng:

2) Hàm chuyển đổi chữ viết tắt

Funtion Chuyen_doi_CVT

Option Explicit Const sViet As String = "µ¶·¸¹¨»¼½¾Æ©ÇÈÉÊËÌÎÏÐÑªÒÓÔÕÖ×ØÜÝÞßáâãä«åæçèé¬êëìíîïñòóô- õö÷øùúûüýþ¡¢£¤¥¦®§" Const sKhongdau As String = "aaaaaaaaaaaaaaaaaeeeeeeeeeeeiiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAEO OUdD" //Khai báo chuỗi chuyển đổi chữ viết không có dấu Function chuviettat(strInput As String) As String

Dim i As Integer Dim sData As String Dim sOuput As String chuviettat = "" sData = Trim(Khongdau(strInput)) If sData = "" Then Exit Function sOuput = Mid(sData, 1, 1) For i = 2 To Len(sData)

If Mid(sData,i,1) <> " " And Mid(sData,i-1,1) = " " Then sOuput = sOuput + Mid(sData,i,1)

Next i chuviettat = UCase(sOuput)

End Function //Hàm chuyển đổi chữ viết không có dấu Function Khongdau(sCodau As String) As String

Dim L As Integer Dim i As Integer,j As Integer, s As String L = Len(sCodau) For i = 1 To L

j = InStr(1,sViet,Mid(sCodau,i, 1)) If j > 0 Then s = s & Mid(sKhongdau,j,1) Else s = s & Mid(sCodau,i,1) End If

Next i Khongdau = s

End Function

V

3) Thuật toán, mã lệnh dùng trong từ điển CVT trên máy di động

Phụ lục này trình bày thêm một số thuật toán, đoạn mã lệnh và danh mục các

tập tin đã sử dụng lập trình từ điển CVT trên máy di động (mục 5.3.4.) bằng Java trong Android Studio:

a) Mã lệnh khai báo lớp màn hình chính chương trình AcroDictActivity.java

* Lớp màn hình của chương trình public class AcroDictActivity extends AppCompatActivity

implements NavigationView.OnNavigationItemSelectedListener,

SearchView.OnQueryTextListener, View.OnClickListener {

private final String TAG = "AcroDictActivity"; private SearchView searchView; private RecyclerView rvListSearchResult;

private List searchResultList;

private List resultDetailList; private SearchResultAdapter searchResultAdapter;

private ResultDetailAdapter resulDetailtAdapter;

private DbAdapter dbAdapter;

private RecyclerView rvListResultDetail; private int mCurrentPos = -1;

private OnClickCallback mOnClickCallback;

private TextView txtNoDataFound;

private FloatingActionButton fabThemTuMoi; private FloatingActionButton fabTimKiem;

private LineChart lcToDay;

private OnChartValueSelectedListener mOnLineChartValueSelected;

private PieChart pcTopTen; private LinearLayout llChartting;

private FloatingActionButton fabHomeScreen;

private FloatingActionsMenu fabAction;

private boolean isShowFromQuickWindow; private int fabMode;

private FloatingActionButton fabEmptyTrash;

private CatLoadingView mCatLoading;

private SharedPreferences preferences;

VI

b) Mã lệnh truy vấn trong CSDL tất cả các CVT chứa X:

// (SELECT * FROM T1 WHERE T1.CVT MATCH X)

String sqlQuery = "" + "SELECT [T].[" + COL_CVT_FTS_ID_CVT + "], \n" + " [C].[" + COL_CVTS_CVT + "], \n" + " CASE [C].[" + COL_CVTS_ID_LANG + "] WHEN 0 THEN [C].[" + COL_CVTS_NGHIAVIET + "] WHEN 1 THEN [C].[" + COL_CVTS_NGHIAANH + "] ELSE [C].[" + COL_CVTS_NGHIAVIET + "] END NGHIA_NGAN, \n" + " [C].[" + COL_CVTS_LUOTXEM + "], \n" + " [C].[" + COL_CVTS_IS_FAVORITE + "] \n" + "FROM [" + TABLE_CVT_FTS + "] [T]\n" + " INNER JOIN [" + TABLE_CVTS + "] [C] ON [C].[" + COL_CVTS_ID_CVT + "] = [T].[" + COL_CVT_FTS_ID_CVT + "]\n" + "WHERE [T].[CVT] MATCH " + DatabaseUtils.sqlEscapeString(StringUtil.convert2SqliteSearchFormat(value)) + " AND [C].[" + COL_CVTS_ENABLED + "] = 1" + " ORDER BY LENGTH([C].[" + COL_CVTS_CVT + "])" + " LIMIT " + QUERY_LIMIT;

c) Tăng tần số và tần suất truy vấn của CVT X lưu vào dữ liệu thống kê trên

// DbAdapter.getResultDetailById()

CSDL bảng T1, mã lệnh:

if (idList.size() >0) {

//update luotxem – Cập nhật lượt xem, tra cứu CVT

String listOfId = TextUtils.join(",", idList);

String sqlUpdate = "" +

"UPDATE\n" +

" [" + TABLE_CVTS + "]\n" + "SET\n" + " [" + COL_CVTS_LUOTXEM + "] =

[" + COL_CVTS_LUOTXEM + "] + 1\n" + "WHERE\n" +

" [" + COL_CVTS_ID_CVT + "] IN (" + listOfId + ")";

db.execSQL(sqlUpdate);

//update thongke – Cập nhật thống kê người sử dụng di động

String currentDate = sdfIn.format(new Date()); sqlUpdate = "" + "UPDATE\n" + " [" + TABLE_THONGKE + "]\n" + "SET\n" +

VII

" [" + COL_THONGKE_TAN_SO + "] = [" + COL_THONGKE_TAN_SO + "] + 1\n" + "WHERE\n" + " [" + COL_THONGKE_NGAY_THANG + "] = " + DatabaseUtils.sqlEscapeString(currentDate) + "\n" + "AND [" + COL_THONGKE_ID_CVT + "] IN (SELECT [F1].[" + COL_CVT_FTS_ID_CVT + "]\n" + "FROM [" + TABLE_CVT_FTS + "] [F1]\n" + "WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" + COL_CVT_FTS_CVT + "] || '\"'\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" + " AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH ([F].[" + COL_CVT_FTS_CVT + "])\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + "))"; db.execSQL(sqlUpdate); //insert new thongke – Chèn bảng thống kê mới cho người sử dụng di động sqlUpdate = "" + "INSERT OR IGNORE INTO [" + TABLE_THONGKE + "]\n" + " ([" + COL_THONGKE_NGAY_THANG + "], \n" + " [" + COL_THONGKE_ID_CVT + "], \n" + " [" + COL_THONGKE_TAN_SO + "])\n" + " SELECT " + DatabaseUtils.sqlEscapeString(currentDate) + ", \n" + " [F1].[" + COL_CVT_FTS_ID_CVT + "], \n" + " 1\n" + " FROM [" + TABLE_CVT_FTS + "] [F1]\n" + " WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" + COL_CVT_FTS_CVT + "] || '\"'\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" + " AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH ([F].[" + COL_CVT_FTS_CVT + "])\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")"; db.execSQL(sqlUpdate);

VIII

Phụ lục 4. Bảng mã danh mục ứng dụng và đề xuất.

Trong mục 3.3.2. về ứng dụng chữ viết tắt trong xây dựng CSDL danh mục, tác giả

đã xây dựng bảng mã danh mục các phần tử mạng điều hành sản xuất kinh doanh, đề

xuất ban hành thống nhất, đã đưa vào áp dụng thực tiễn, quy định các lập trình viên đơn

vị tuân thủ bảng mã danh mục. Ví dụ như:

Bảng 1. Danh mục CVT phần tử mạng điều hành sản xuất kinh doanh

1

Mã tỉnh/thành ABC

Theo quy định chung thống nhất trong Tập đoàn: DNG: Đà Nẵng, QNM: Quảng Nam

4

Mã thanh toán DNG000000001

+ <09 chữ số>

2

CNSDxxx

xxx: 001 => 999

Mã tổng đài CSND

Tên CSND

Cáp đồng: DAI001 => DAI999

3

DAI +

(=Mã tủ cáp

Cáp quang: DAI001DF => DAI999DF

gốc t ại đài)

5

Mã tủ cáp

+ + +
TCxxxAn hoặc H001An

tuyến>

6

Mã outdoor

CSNDxxxDFn

+ +

CSNDxxxn

Cáp gốc: + +

Mã sợi cáp

7

đồng

CSNDxxxA1-n

Cáp ngọn: + <- +
cáp đi vào tủ>

Cáp gốc: 001DFn/m

Cáp gốc: + +

8

Mã sợi cáp quang

Cáp ngọn: 001DFn-

Cáp ngọn: +

< -> +

m

STT Tên mã Chữ viết tắt Ghi chú

IX

Bảng 2. Danh mục mã vùng điện thoại

STT

Tỉnh/TP

Mã số

STT

Tỉnh/TP

Mã số

Tên chữ viết tắt

Tên chữ viết tắt AGG

An Giang

1

33 Khánh Hoà

KHA

76

58

BRU

2

34 Kiên Giang

KGG

64

77

Bà Rịa Vũng Tàu

Phú Thọ Phú Yên

Bạc Liêu BLU Bắc Kạn BKN Bắc Giang BGG Bắc Ninh BNH BTE Bến Tre Bình Dương BDG BDH Bình Định BPC Bình Phước BTN Bình Thuận CMU Cà Mau CBG Cao Bằng Cần Thơ CTO TP. Đà Nẵng DNG DLK ĐắkLắk DNG Đăc Nông DBN Điện Biên DNI Đồng Nai DTP Đồng Tháp GLI Gia Lai HGG Hà Giang HNM Hà Nam HNI Hà Nội HTY Hà Tây

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 21 23 24 25

KTM LCU LSN LCI LDG LAN NDH NAN NBH NTN PTO PYN QBH QNM QNI QNH QTI STG SLA TNH TBH TNN THA

781 281 240 241 75 650 56 651 62 780 26 71 511 50 50 23 61 67 59 19 351 4 34

60 23 25 20 63 72 350 38 30 68 210 57 52 510 55 33 53 79 22 66 36 280 37

Hà Tĩnh

HTH

26

58

HUE

39

54

35 Kon Tum Lai Châu 36 Lạng Sơn 37 Lào Cai 38 Lâm Đồng 39 40 Long An 41 Nam Định 42 Nghệ An 43 Ninh Bình 44 Ninh Thuận 45 46 47 Quảng Bình 48 Quảng Nam 49 Quảng Ngãi 50 Quảng Ninh 51 Quảng Trị Sóc Trăng 52 Sơn La 53 Tây Ninh 54 Thái Bình 55 Thái Nguyên 56 Thanh Hoá 57 Thừa Thiên Huế Tiền Giang Trà Vinh Tuyên Quang

Hải Dương Hải Phòng Hậu Giang Hoà Bình Hưng Yên

HDG HPG HGG HBH HYN

27 28 29 30 31

59 60 61 62 Vĩnh Long 63 Vĩnh Phúc

TGG TVH TQG VLG VPC

320 31 71 18 321

73 74 27 70 211

HCM

32

64 Yên Bái

YBI

8

29

TP. Hồ Chí Minh

X

Phụ lục 5. Hình ảnh, màn hình giao diện và chức năng

Thư viễn biểu mẫu văn bản sử dụng thông kê các loại văn bản để khảo sát, nhận

diện tình huống sử dụng CVT trong thực tế tại đơn vị (mục 3.3.4.). Khảo sát này giúp đề xuất giải pháp xử lý nhập nhằng CVT trong một lĩnh vực VT-CNTT tại đơn vị.

1) Thống kê mẫu văn bản của Viễn thông Đà Nẵng

Hình 1. Thư viện biểu mẫu văn bản

.

Giới thiệu kết quả xây dựng website thư viện CVT (minh họa thêm cho mục 5.3.3.),

hiện đã được đưa vào sử dụng như hình 1, hình 2 và hình 3 dưới đây:

Hình 2. Trang quản trị và cấu hình thư viện CVT

2) Hình ảnh giao diện kết quả xây dựng Website

XI

Trang chủ thư viện CVT được thiết kế với nhiều chức năng, trong đó có các

Hình 3. Trang chủ thư viện chữ viết tắt.

liên kết sắp xếp theo vần ABC giúp tra cứu được nhanh chóng.

Chức năng tra cứu CVT được thiết kế cho phép tra cứu chính xác hoặc gần đúng.

Quá trình tìm kiếm, sử dụng cũng được hệ thống website lưu trữ để có những số liệu

thống kê như CVT được xem nhiều nhất…

Hình 4. Kết quả tra cứu chữ viết tắt.

XII

3) Công cụ lập trình Android Studio và Genymotion giả lập máy di động

Hình ảnh công cụ giả lập để triển khai thực nghiệm lập trình xây dựng từ điển

Hình 5. Sử dụng môi trường phát triển tích hợp Android Studio lập trình

Hình 6. Công cụ Genymotion giả lập máy di động

tra CVT trên máy di động (làm rõ thêm mục 4.3):

Danh mục các tệp Java đã thiết kế cho từ điển CVT trên máy di động

Hình 7. Danh mục các tệp Java đã thiết kế

XIII

Hình 8. Cấu trúc Mã bưu chính

4) Cấu trúc Bộ danh mục mã bưu chính quốc gia Việt Nam

XIV

5) Ứng dụng chạy trên máy di động giả lập trên máy tính

Biểu tượng: ABC Acronym Dictionary

Biên dịch bởi Android Studio, chương trình có biểu tượng là ABC Acronym Dictionary (hình 8). Hình ảnh ứng dụng giả lập trên máy tính (bởi Genymotion), chương trình thường trú trong bộ nhớ. Menu dọc là các chức năng: Thống kê, cài đặt, cập nhật mới… như hình 8. Nhấn màn hình cảm ứng trên cụm CVT để chọn khối, sau đó chọn copy vào vùng nhớ đệm, chương trình sẽ copy dữ liệu CVT trong vùng nhớ đệm, tra cứu và hiển thị dữ liệu kết quả tra cứu hình 9.

Hình 8. Giao diện chức năng và kết quả tra cứu CVT

Hình 9. Giao diện chức năng tra cứu và thống kê sử dụng CVT

XV

6) Ứng dụng thực tế trên máy di động Samsung Not 3

Sau khi xây dựng chương trình trên các phần mềm giả lập, thực hiện lệnh Build,

ứng dụng có tên là: "ABC Acronym Dictionary". Sao chép tập tin lên máy di động

và cài đặt trong biểu tượng ABC Acronym Dictionary. Các hình ảnh ứng dụng thực

Hình 10. Giao diện chức năng và thống kê sử dụng CVT trên máy di động

Hình 11. Giao diện biểu đồ thống kê sử dụng và tra cứu CVT trên máy di động

tế chạy trên trên máy di động Samsung Not 3 như các hình sau đây:

Về chức năng tra cứu chạy thực tế trên máy di động:

XVI

Tương tự như trên, chương trình đã chạy thường trú, Khi người dùng cần tra

cứu trực tiếp CVT trên file văn bản, email, tin nhắn, website…, nhấn màn hình cảm

ứng máy di động trên cụm CVT để chọn khối, sau đó chọn copy vào vùng nhớ đệm,

chương trình sẽ copy dữ liệu CVT trong vùng nhớ đệm.

Tiếp theo NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm kiếm

CVT (ABC Acronym Dictionary), hiển thị dữ liệu kết quả tra cứu:

 Khung cửa sổ phía trên: Kết quả tra cứu CVT.

 Khung cửa sổ phía dưới: Vẫn giữ nội dung văn bản NSD đang đọc.

Hình 12. Giao diện tra cứu trực tiếp CVT trên máy di động

XVII

7) Ứng dụng SMS Brandname:

Ứng dụng SMS Brandname được đưa vào khai thác, trong đó có các chức nằn:

Thiết lập cấu hình, Tư vận trực tiếp/Tự động Brandname cho khách hàng. Giao diện

Hình 13. Giao diện chức năng và cấu hình ứng dụng SMS Brandname

Hình 14. Chức năng tư vấn tự động Brandname

chính như hình 13 dưới đây.

XVIII

8) Cấu trúc XML cho CSDL chữ viết tắt

1

VNPT

Vi-en-pi-ti

VietNam Posts And Telecommunications Group

Tập đoàn Bưu chính Viễn thông Việt Nam

1 - (Công nghệ thông tin và Truyền thông)

01

......

Hình 15. Cấu trúc XML cho CSDL chữ viết tắt.

Hình 15 dưới đây là ví dụ về cách tổ chức CSDL với mục từ viết tắt “VNPT”:

Hình 16. CSDL 108 VNPT Đà Nẵng

9) CSDL 108 VNPT Đà Nẵng

Hình 17. Minh họa CSDL đã xây dựng

XIX

10) Thực hiện chương trình cập nhật tần số sử dụng CVT

Chương trình chính chạy trong khung cửa sổ Main (hình 18), chọn nút lệnh

Import CSV file, chọn file đầu vào, chọn lựa trình duyệt, sau đó kích chọn nút

Run để thực hiện thu thập dữ liệu tần suất sử dụng CVT.

Hình 18. Thực hiện chương trình cập nhật tần số sử dụng CVT

XX

11) Khảo sát tương quan tần số sử dụng CVT

Tần suất xuất hiện 8 cụm CVT (là thương hiệu thức ăn nhanh) ngày 02/04/2016

Bảng 1. Tương quan tần suất xuất hiện CVT và bàn luận trên mạng xã hội

so sánh với thị phần thương hiệu bàn luận trên mạng xã hội (bảng 1 và hình 19):

STT

NGHIAVIET

N_VN1

Tần suất %

Social Media %

146.000 125.000 57.900 32.800 29.700 18.800 7.420 2.760

1 KFC 2 Lotteria 3 McDonald's 4 Burger King 5 Popeyes 6 Jollibee 7 Texas Chicken 8 Carl's Jr.

34,7 29,7 13,8 7,8 7,1 4,5 1,8 0,7

47,0 26,0 10,0 5,0 5,6 4,4 1,0 1,0

420.380

100

100

Hình 19. Biểu đồ thương hiệu thực ăn nhanh thảo luận trên Internet (theo nguồn số liệu trên Internet)

Luận án Tiến sĩ Kỹ thuật: Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt

Luận án nghiên cứu với mục tiêu nhằm nghiên cứu, phát hiện tri thức và xây dựng kho ngữ liệu CVT. Tổng kết các quy tắc hình thành CVT, xây dựng hệ thống khai thác CVT. Đề xuất chuẩn hóa CVT và triển khai giải pháp xử lý.

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NHO TÚY

ÀNG THỊ MỸ LỆ

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng, năm 2020

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NHO TÚY

NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG

TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng, năm 2020

LỜI CAM ĐOAN

MỤC LỤC

STT

TIẾNG ANH

MỞ ĐẦU

CHƯƠNG 1.

VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT

CHƯƠNG 2.

XÂY DỰNG HỆ THỐNG KHAI THÁC

CHỮ VIẾT TẮT TIẾNG VIỆT

Âm tiết

Ký tự

NSD đầu cuối (End Users)

Đại lý bán lại dịch vụ

Kênh tích hợp giá trị gia tăng

Hệ sinh thái Phần mềm MICROSOFT

Nhà Sản xuất thiết bị

Nhà sản xuất phần mềm độc lập

Người sử dụng

Nhà CC hạ tầng, tài nguyên…

Nhà CC phần mềm/dịch vụ

Đơn vị phát triển phần mềm

Nhà nước, chuẩn hóa, cơ quan chứng nhận, chuyên gia

CHƯƠNG 3.

XÂY DỰNG NGUỒN TÀI NGUYÊN

CHỮ VIẾT TẮT

NguonCVT

PhanLop

n-1

NgonNgu

1-n

n-1

HinhThuc

1-n

Input: Địa chỉ URL Output: Dữ liệu CVT nhận được bảng TTTDVIET Begin

Kết nối và mở các CSDL làm việc trung gian Xác định URL làm việc Xác định DanhSach các liên kết trên URL để tìm kiếm CVT Khởi động bộ đếm CVT, các biến đánh giá CVT Repeat

Repeat

If - Trích ra được CVT, trích chọn nghĩa của CVT - Trích chọn câu chứa CVT, So sánh với CSDL đã biên tập,

If Trích CVT nằm trong (...) gán cho TuDuocChon Repeat chưa biên tập

endif

Until

Endif

Until

Endif Until

Until

End

Loại

Chữ viết tắt thuộc lĩnh vực

Tổng cộng

cập nhật tự động

Tỷ lệ % cập nhật Tự động

cập nhật thủ công

Tổng cộng

2.771

4.216

6.987

60%

CHƯƠNG 4.

XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT

Quá trình xử lý

Đầu ra

Đầu vào

CSDL Chữ viết tắt

Người sử dụng

Input:

Output:

Begin

substr(sNameCompany,i2-1,i2) (giá trị lớn nhất của i = nElement-1);