intTypePromotion=1
ADSENSE

Giải pháp sắp xếp mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê

Chia sẻ: Anhnangchieuta | Ngày: | Loại File: PDF | Số trang:8

16
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất giải pháp sắp xếp mục từ Ê Đê trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê, nhằm góp phần trong tra cứu, kiểm tra và quản lý dữ liệu, xây dựng các bảng biểu dữ liệu tiếng Ê Đê theo trật tự bảng chữ cái tiếng Ê Đê.

Chủ đề:
Lưu

Nội dung Text: Giải pháp sắp xếp mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê

  1. 146 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Giải pháp sắp xếp mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê Hoàng Thị Mỹ Lệ1 và Phan Huy Khánh2 1 Trường Đại học Sư phạm Kỹ thuật, Đại học Đà Nẵng htmle@ute.udn.vn 2 Trường Đại học Bách Khoa, Đại học Đà Nẵng phkhanh@dut.udn.vn Tóm tắt. Quá trình truy vấn dữ liệu trong kho dữ liệu từ vựng, công việc thực hiện sắp xếp dữ liệu theo thứ tự tăng dần hoặc giảm dần theo thứ tự ABC của mỗi ngôn ngữ là tiêu chí cần được quan tâm trong nghiên cứu xây dựng kho dữ liệu từ vựng. Việc thực hiện sắp xếp một bảng dữ liệu tiếng Anh theo thứ tự ABC với mệnh đề Order by trong câu lệnh SQL là đơn giản. Bởi vì bảng mã ASCII và các hệ quản trị cơ sở dữ liệu đều dùng với bảng chữ cái tiếng Anh. Tuy nhiên, với tiếng dân tộc thiểu số Việt Nam nói chung và tiếng Ê Đê nói riêng, việc thực hiện sắp xếp thứ tự theo bảng chữ cái vẫn chưa được hỗ trợ và chưa được sự quan tâm nghiên cứu của các nhà khoa học. Do đó, khi viết một lập trình cơ sở dữ liệu cho tiếng Ê Đê gặp phải khó khăn trong việc trình bày một bảng dữ liệu sắp xếp theo thứ tự ABC. Để giải quyết vấn đề này cho tiếng Ê Đê trong kho dữ liệu từ vựng, bài báo đề xuất giải pháp sắp xếp mục từ Ê Đê trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê, nhằm góp phần trong tra cứu, kiểm tra và quản lý dữ liệu, xây dựng các bảng biểu dữ liệu tiếng Ê Đê theo trật tự bảng chữ cái tiếng Ê Đê. Từ khóa: xử lý tiếng Ê Đê, mã hóa Unicode, sắp xếp mục từ, kho dữ liệu từ vựng, truy vấn dữ liệu. 1 Đặt vấn đề Mọi hoạt động xử lý thông tin trên máy tính đều liên quan đến soạn thảo văn bản. Sắp xếp là quá trình bố trí lại các phần tử của một tập đối tượng nào đó theo một thứ tự nhất định như: tăng dần hay giảm dần đối với một dãy số, theo thứ tự tự điển đối với các từ. Công việc sắp xếp thường được ứng dụng thường xuyên trong các ứng dụng Tin học với các mục đích như: sắp xếp dữ liệu trong máy tính để tìm kiếm cho thuận lợi, sắp xếp các kết quả xử lý để in ra trên các bảng biểu. Để giải quyết vấn đề này cho tiếng Việt và tiếng Ê Đê trong kho dữ liệu từ vựng Việt-Ê Đê [3], [4], bài báo đề xuất giải pháp sắp xếp các mục từ trong kho dữ liệu từ vựng Việt- Ê Đê , nội dung giải pháp như sau: - Đầu tiên, thực hiện mã hóa các chữ cái tiếng Việt và tiếng Ê Đê vào một vùng liên tục để kế thừa được phép so sánh chuỗi trong các ứng dụng lập trình. - Chuyển các mục từ sau khi đã được mã hóa vào mảng. - Sắp xếp mảng theo thứ tự ABC. - Chuyển chỉ số của mảng sau khi đã sắp xếp vào thuộc tính chỉ số sắp xếp trong kho dữ liệu tương ứng với mục từ được giải mã từ mảng. Như vậy, sau này khi thực hiện sắp xếp các mục từ trong kho dữ liệu thay vì sắp xếp theo thuộc tính mục từ, ta thực hiện sắp xếp theo thuộc tính chỉ số sắp xếp.
  2. Hoàng Thị Mỹ Lệ và Phan Huy Khánh 147 2 Phương pháp mã hóa chữ cái tiếng Việt và tiếng Ê Đê 2.1 Mã hóa chữ cái tiếng Việt Với mỗi chữ cái tiếng Việt sẽ được ánh xạ vào vùng liên tục trong bảng mã Unicode. Vùng được chọn để ánh xạ có phạm vi từ 1F00:1F5E. Cở sở để chọn vùng này vì đây là vùng liên tục có chứa kí tự và các kí tự trong vùng này không xuất hiện trong các văn bản tiếng Việt. Bảng 1 là bảng ánh xạ chữ cái tiếng Việt theo thứ tự ABC vào vùng kí tự Hy Lạp mở rộng trong bảng mã Unicode. Ví dụ: mục từ nhà trường được mã hóa Bảng 1. Ánh xạ chữ cái tiếng Việt vào vùng kí tự Hy Lạp mở rộng `
  3. 148 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC 2.2 Mã hóa chữ cái tiếng Ê Đê Bộ chữ cái tiếng Ê Đê cũng được xếp vào họ La tinh, với 76 ký tự Ê Đê kể cả ký tự chữ hoa và ký tự chữ thường như trong bảng 2 [1], [6]. Trong đó có 66 kí tự là thành phần cơ bản của hầu hết tất cả các phông chữ Unicode, còn 8 kí tự chưa có trong bảng mã Unicode [2]. Bảng 2. Bảng chữ cái Ê Đê Với mỗi chữ cái tiếng Ê Đê cũng được ánh xạ vào vùng liên tục trong bảng mã Unicode. Vùng được chọn để ánh xạ có phạm vi từ 1F00:1F25. Cở sở để chọn vùng này vì đây là vùng liên tục có chứa kí tự và các kí tự trong vùng này không xuất hiện trong các văn bản tiếng Ê Đê. Khác với chữ cái tiếng Việt, chữ cái Ê Đê trước khi mã hóa phải thực hiện chuyển đổi các chữ cái dạng mã tổ hợp với hai kí tự thành một kí tự để khi sắp xếp được xem như là một kí tự. Qui định chuyển đổi các chữ cái thành một kí tự được trình bày trong bảng 3. Bảng 3. Bảng qui định chuyển chữ cái Ê Đê dạng mã tổ hợp thành 1 kí tự Ánh xạ chữ cái tiếng Ê Đê và kí tự chuyển đổi tương ứng vào vùng kí tự Hy Lạp mở rộng thể hiện trong bảng 4.
  4. Hoàng Thị Mỹ Lệ và Phan Huy Khánh 149 Bảng 4. Ánh xạ chữ cái Ê Đê vào vùng kí tự Hy Lạp mở rộng 3 Thực nghiệm sắp xếp mục từ trong kho dữ liệu từ vựng Thực hiện sắp xếp các mục từ trong theo thứ tự ABC, chúng tôi triển khai thực nghiệm sắp xếp theo 4 phương pháp sắp xếp cơ bản: sắp xếp nổi bọt; sắp xếp chèn; sắp xếp chọn; sắp xếp nhanh [5], để chọn ra phương pháp sắp xếp được sử dụng để sắp xếp các mục từ trong kho ngữ vựng. Dựa vào thời gian thực hiện sau các lần thực nghiệm, chúng tôi chọn phương pháp sắp xếp đưa vào giải pháp sắp xếp các mục từ trong kho dữ liệu từ vựng Việt-Ê Đê. Kết quả thực nghiệm trên 4 mẫu, với 10 lần trên 1 mẫu, theo 4 phương pháp sắp xếp, thể hiện trong bảng 5. Chi tiết của các lần thực nghiệm được trình bày trong bảng 6. Qua kết quả của những lần thử nghiệm trên các mẫu tiếng Việt và tiếng Ê Đê trong bảng 5, là cơ sở để chúng tôi chọn phương pháp sắp xếp nhanh làm phương pháp sắp xếp cho mảng chứa các mục từ sau khi đã được mã hóa. Bảng 5. Kết quả thử nghiệm theo 4 phương pháp sắp xếp Thời gian thực hiện (tính đến ‰ giây) Số lần Mẫu thực Sắp xếp Sắp xếp Sắp xếp nghiệm chọn trực Sắp xếp nhanh nổi bọt chèn tiếp 9.297 mục từ Ê Đê 10 0:0:02.820 0:0:01.479 0:0:00.657 0:0:00.106 17.968 mục từ Ê Đê 10 0:0:09.477 0:0:04.315 0:0:04.240 0:0:0.188 11.358 mục từ 10 0:0:02.290 0:0:02.286 0:0:00.268 0:0:00.265 tiếng Việt 34.375 mục từ 10 0:1:14.227 0:0:02.286 0:0:13.450 0:0:00.760 tiếng Việt Bảng 6. Bảng chi tiết các lần thử với 4 phương pháp sắp xếp Thời gian thực hiện Lần Mẫu Sắp xếp Sắp xếp chọn Sắp xếp thử Sắp xếp nhanh nổi bọt trực tiếp chèn 9.297 mục từ Ê Đê 1 0:0:02.952 0:0:01.492 0:0:00.603 0:0:00.100
  5. 150 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC 2 0:0:02.961 0:0:01.510 0:0:00.664 0:0:00.099 3 0:0:02.783 0:0:01.500 0:0:00.595 0:0:00.103 4 0:0:02.901 0:0:01.479 0:0:00.624 0:0:00.111 5 0:0:02.696 0:0:01.495 0:0:00.631 0:0:00.110 6 0:0:02.705 0:0:01.450 0:0:00.587 0:0:00.104 7 0:0:02.670 0:0:01.540 0:0:00.715 0:0:00.099 8 0:0:03.008 0:0:01.483 0:0:00.703 0:0:00.111 9 0:0:02.725 0:0:01.423 0:0:00.723 0:0:00.110 10 0:0:02.804 0:0:01.414 0:0:00.730 0:0:00.117 Trung bình 0:0:02.820 0:0:01.479 0:0:00.657 0:0:00.106 1 0:0:09.925 0:0:04.484 0:0:04.829 0:0:0.162 2 0:0:08.757 0:0:04.420 0:0:04.807 0:0:0.163 3 0:0:08.539 0:0:04.699 0:0:03.490 0:0:0.207 4 0:0:09.811 0:0:05.045 0:0:03.802 0:0:0.196 5 0:0:09.371 0:0:03.874 0:0:03.725 0:0:0.165 17.968 mục từ 6 0:0:10.452 0:0:03.900 0:0:04.463 0:0:0.162 7 0:0:09.145 0:0:04.124 0:0:04.845 0:0:0.199 8 0:0:09.067 0:0:03.889 0:0:04.876 0:0:0.197 9 0:0:10.217 0:0:04.405 0:0:03.741 0:0:0.230 10 0:0:09.487 0:0:04.318 0:0:03.829 0:0:0.205 Trung bình 0:0:09.477 0:0:04.315 0:0:04.240 0:0:0.188 1 0:0:02.046 0:0:01.920 0:0:00.239 0:0:0.340 2 0:0:02.028 0:0:02.091 0:0:00.247 0:0:0.250 3 0:0:02.511 0:0:02.300 0:0:00.309 0:0:0.225 4 0:0:02.542 0:0:02.165 0:0:00.330 0:0:0.240 5 0:0:01.918 0:0:01.991 0:0:00.235 0:0:0.234 11.358 mục từ tiếng Việt 6 0:0:02.090 0:0:02.741 0:0:00.257 0:0:0.286 7 0:0:02.418 0:0:02.314 0:0:00.235 0:0:0.220 8 0:0:02.433 0:0:02.223 0:0:00.343 0:0:0.350 9 0:0:02.345 0:0:02.870 0:0:00.252 0:0:0.241 10 0:0:02.576 0:0:02.240 0:0:00.232 0:0:0.267 Trung bình 0:0:02.290 0:0:02.286 0:0:00.268 0:0:00.265 1 0:1:14.166 0:0:18.910 0:0:12.168 0:0:0.795 2 0:1:13.985 0:0:19.425 0:0:13.462 0:0:0.686 3 0:1:14.374 0:0:17.841 0:0:14.679 0:0:0.826 4 0:1:13.956 0:0:19.410 0:0:14.835 0:0:0.748 5 0:1:14.126 0:0:21.091 0:0:12.963 0:0:0.795 34.375 mục từ tiếng Việt 6 0:1:14.212 0:0:17.862 0:0:12.651 0:0:0.875 7 0:1:14.028 0:0:20.420 0:0:13.806 0:0:0.842 8 0:1:13.825 0:0:18.798 0:0:13.868 0:0:0.592 9 0:1:15.006 0:0:18.688 0:0:12.731 0:0:0.717 10 0:1:14.589 0:0:19.983 0:0:13.338 0:0:0.733 Trung bình 0:1:14.227 0:0:02.286 0:0:13.450 0:0:00.760 4 Kết quả thực nghiệm Hiện nay, nếu với mệnh đề Order by của câu lệnh truy vấn, kết quả sắp xếp theo thứ tự ABC của các thuộc tính kiểu chuỗi tiếng Việt, với các kí tự chữ cái có dấu và chữ đ không có được kết quả thứ tự ABC trong tiếng Việt. Kết quả khi dùng mệnh đề Order by trong câu lệnh SQL thể hiện trong hình 1 và hình 2. Hình 1 thể hiện kết quả khi thực hiện câu truy vấn Select Viet From VIET Order by Viet . Hình
  6. Hoàng Thị Mỹ Lệ và Phan Huy Khánh 151 2 thể hiện kết quả khi thực hiện câu truy vấn Select Viet From VIET Order by CS_SX, thuộc tính CS_SX là thuộc tính được thêm vào theo giải pháp sắp xếp các mục từ trong kho dữ liệu Việt-Ê Đê đã trình bày trên. Hình 1. Kết quả thực hiện lệnh sắp xếp với mục từ tiếng Việt Hình 2. Kết quả thực hiện lệnh sắp xếp mục từ tiếng Việt với chỉ số sắp xếp khi đã mã hóa Với chữ cái tiếng Ê Đê, cũng gặp phải trường hợp tương tự như tiếng Việt. Ngoài ra, tiếng Ê Đê còn có thêm trường hợp xử lý các chữ cái được tổ hợp theo dạng mã tổ hợp. Kết quả khi dùng mệnh đề Order by trong câu lệnh SQL thể hiện trong hình 3 và hình 4. Hình 3 thể hiện kết quả khi thực hiện câu truy vấn Select Ede From EDE Order by Ede . Hình 4 thể hiện kết quả khi thực hiện câu truy vấn Select Ede From EDE Order by CS_SX, thuộc tính CS_SX là thuộc tính được thêm vào theo giải pháp sắp xếp các mục từ trong kho dữ liệu Việt-Ê Đê đã trình bày trên.
  7. 152 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Hình 3. Kết quả thực hiện lệnh sắp xếp với mục từ Ê Đê Hình 4. Kết quả thực hiện lệnh sắp xếp mục từ tiếng Ê Đê với chỉ số sắp xếp khi đã mã hóa 5 Kết luận Giải pháp sắp xếp các mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê đã thực hiện sắp xếp trên thuộc tính chứa các mục từ tiếng Việt, tiếng Ê Đê. Kết quả sắp xếp đúng theo trật tự bảng chữ cái tiếng Việt và tiếng Ê Đê khi dùng mệnh đề Order by trong câu lệnh truy vấn SQL trong kho dữ liệu Việt-Ê Đê. Giải pháp này góp phần giải quyết bài toán sắp xếp các mục từ tiếng Việt, tiếng Ê Đê trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê theo thứ tự ABC trong câu lệnh truy vấn dữ liệu có dùng mệnh đề Order by ứng dụng trong lập trình cơ sở dữ liệu. Định hướng tiếp theo, chúng tôi sẽ áp dụng giải pháp này để tích hợp vào các trình ứng dụng có soạn thảo các bảng biểu như Winword, Excel để thực hiện sắp xếp các cột hay các hàng trong các bảng dữ liệu tiếng Ê Đê.
  8. Hoàng Thị Mỹ Lệ và Phan Huy Khánh 153 Tài liệu tham khảo 1. Đoàn Văn Phúc: Ngữ âm Ê Đê, Khoa học xã hội, Hà Nội, 1996. 2. Hoàng Thị Mỹ Lệ, Vilavong Souksan, Phan Huy Khánh: Using Unicode in Encoding the Vietnamese Ethnic Minority Languages, Applying for the EDe Language, Proceeding of the International Conference on Knowledge and System Engineering, KSE 2013, HaNoi, pp. 137-148, 2013. 3. Hoàng Thị Mỹ Lệ, Phan Huy Khánh: Giải pháp xây dựng kho ngữ vựng song ngữ Việt-Ê Đê dựa trên mô hình tương tác Việt-Ê Đê, Số 5 (2), pp. 36–40, 2017. 4. Le Hoang Thi My, Khanh Phan Huy: Deploying environment for processing Ede ethnic minority language in Vietnam, IEEE International Conference on System Science and Engineering (ICSSE), 2017. 5. Robert Sedgewich: Thuật tóan, NXBKH & KT, 2003. 6. Sở Giáo dục - Đào tạo DakLak: Ngữ Pháp tiếng Ê Đê, Nhà xuất bản Giáo dục, 2011.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2