Nghiên cứu và xây dựng môi trường quản lý, truy cập tài nguyên phục vụ xử lý tiếng Việt và tiếng dân tộc thiểu số

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:5

Thêm vào BST

Báo xấu

11
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết nghiên cứu nhằm tạo điều kiện thuận lợi cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát huy hơn nữa hiệu quả quá trình nghiên cứu.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Nghiên cứu và xây dựng môi trường quản lý, truy cập tài nguyên phục vụ xử lý tiếng Việt và tiếng dân tộc thiểu số

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 49 NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU SỐ RESEARCHING AND BUILDING AN ENVIRONMENT FOR ACCESSING AND MANAGING RESOURCES FOR VIETNAMESE AND ETHNIC MINORITY LANGUAGE PROCESSING Huỳnh Công Pháp, Văn Đỗ Cẩm Vân Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng; hcphap@gmail.com; van156dnvn@gmail.com Tóm tắt - Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS) Abstract - Nowadays, processing Vietnam ese and ethnic minority là một lĩnh vực nghiên cứu rất được quan tâm và cấp bách đối với languages is an urgent and interesting issue for m any Việt Nam. Vấn đề đặt ra là làm thế nào để tạo điều kiện thuận lợi organizations and individuals. However, the resources which are cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát available to the research of processing Vietnamese language as huy hơn nữa hiệu quả quá trình nghiên cứu. Bởi lẽ, các nguồn tài well as som e languages of m inorities were stored in a discrete way. nguyên phục vụ xử lý TV và TDTTS được lưu trữ phân tán, nên This is the reason why the exploitation and the inheritance of these việc khai thác các nguồn tài nguyên này gặp nhiều khó khăn. Do resources meet a lot of difficulties. Therefore, the paper proposes đó, ý tưởng và giải pháp của bài báo trước hết là tập hợp và xây som e measures to im prove the situation. Firstly, collecting and dựng hệ thống truy cập tập trung các tài nguyên phục vụ xử lý TV constructing a centralized system of scientific documents on this và TDTTS. Sau đó, hợp nhất chúng, tạo nên nguồn dữ liệu lớn field. Secondly, merging them in order to create the bigger hơn. Cuối cùng, xây dựng một hệ thống hoạt động theo kiến trúc resources. Finally, constructing the service – oriented architecture hướng dịch vụ (SOA) sao cho việc truy xuất khai thác các tài system which allows users to access and exploit the tools of nguyên và công cụ xử lý TV và TDTTS dễ dàng và hiệu quả hơn. processing Vietnam ese and m inority languages effectively. Từ khóa - xử lý tiếng Việt; xử lý tiếng dân tộc thiểu số; tập hợp; Key words - process Vietnam ese language; process m inority môi trường quản lý; hợp nhất; khai thác. languages; collect; m anagem ent environm ent; m erge; exploit. 1. Đặt vấn đề 2. Tổng quan về tình hình nghiên cứu xử lý TV và Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS) TDTTS hiện nay là một trong những nhiệm vụ và hướng nghiên cứu quan Trước chủ trương, chính sách và sự quan tâm đặc biệt trọng đối với sự phát triển của ngành Công nghệ thông tin của Việt Nam về nghiên cứu xử lý TV và TDTTS trên máy hiện nay. Trước xu thế này, nhiều nguồn tài nguyên bao gồm tính, nhiều nhà khoa học và tổ chức trong nước đã nghiên các tài liệu khoa học, dữ liệu, công cụ phục vụ xử lý TV và cứu, phát triển nhiều nguồn tài nguyên xử lý TV và TDTTS. TDTTS được xây dựng và phát triển. Tuy nhiên, một trong 2.1. Tổng quan về các nhóm nghiên cứu xử lý TV và những vấn đề lớn tồn tại hiện nay là các nguồn tài nguyên TDTTS này tồn tại một cách rời rạc, dưới các dạng khác nhau, dẫn đến việc sử dụng và khai thác chúng trở nên rất khó khăn, Trong số rất nhiều tổ chức và cá nhân nghiên cứu về xử thậm chí không thể truy cập được. Thật vậy, hiện nay nhiều lý TV và TDTTS, chúng ta có thể kể đến một số nhóm tài liệu nghiên cứu như bài báo khoa học, luận văn thạc sỹ… nghiên cứu nổi bật, đó là: Nhóm nghiên cứu xử lý tại Trung về xử lý TV và TDTTS đã được công bố, nhưng chúng được tâm DATIC – Khoa Công nghệ thông tin Trường Đại học lưu trữ và quản lý rải rác, không có hệ thống, nên việc truy Bách khoa và các trường thành viên của Đại học Đà Nẵng; cập và nghiên cứu chúng trở nên rất khó khăn. Tương tự, dữ Trung tâm CNTT-TT Sở Thông tin và Truyền thông Gia liệu phục vụ xử lý TV và TDTTS như các kho ngữ liệu, dữ Lai; Công ty TNHH Công nghệ Tin học tuổi trẻ Lạc Việt; liệu từ điển cũng đã được xây dựng, nhưng cấu trúc, định Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ dạng khác biệt của chúng cũng đã dẫn đến việc khai thác Thông tin Hà Nội; Trung tâm MICA, Đại học Bách khoa chúng trở nên không hiệu quả. Ngoài ra, nhiều tổ chức, cá Hà Nội; Nhóm nghiên cứu của Khoa CNTT, Trường Đại nhân nghiên cứu phát triển các công cụ phục vụ xử lý TV và học Khoa học Tự nhiên TPHCM… TDTTS một cách đơn lẻ, rời rạc, đôi lúc trùng lặp như các Các nhóm nghiên cứu trên đã thực hiện nhiều công trình bộ từ điển, bộ gõ, công cụ tách đoạn, tách từ, gióng hàng, nghiên cứu, hướng dẫn nhiều luận văn thạc sĩ và tiến sĩ, công làm giàu thông tin… nên việc sử dụng, kế thừa các công cụ bố nhiều công trình nghiên cứu cũng như phát triển nhiều này cũng rất khó khăn và hạn chế. sản phẩm, công cụ về xử lý TV và TDTTS [2], [8], [9], [10]. Từ các vấn đề nêu trên, nhằm cho phép khai thác hiệu 2.2. Tổng quan về tài nguyên xử lý TV và TDTTS quả hơn nữa các nguồn tài nguyên phục vụ xử lý TV và Như đã đề cập ở phần mở đầu, tài nguyên xử lý TV và TDTTS hiện có, giải pháp cấp bách là cần phải nghiên cứu TDTTS có thể được chia thành 3 loại: tài liệu khoa học về và xây dựng môi trường quản lý, truy cập tài nguyên xử lý xử lý TV và TDTTS; Dữ liệu phục vụ xử lý TV và TDTTS; TV và TDTTS một cách tập trung, có hệ thống. Với giải công cụ và sản phẩm xử lý TV và TDTTS. pháp này, các nguồn tài nguyên xử lý TV và TDTTS sẽ được 2.2.1. Tài liệu khoa học về xử lý TV và TDTTS tập hợp, quản lý và được tổ chức một cách có hệ thống, cho phép việc truy cập và khai thác dễ dàng và hiệu quả hơn. Xử lý TV và TDTTS là lĩnh vực nghiên cứu được quan tâm hiện nay tại Việt Nam. Chính vì vậy, ngày càng có
50 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân nhiều tài liệu, công trình nghiên cứu về lĩnh vực này. Theo từ điển này lại với nhau thì có thể tạo được một từ điển với kết quả thống kê từ hệ thống tìm kiếm Google, hiện có dữ liệu đầy đủ và số cặp ngôn ngữ đa dạng. khoảng 24.500 tài liệu các loại về xử lý TV và 2.000 tài 2.2.3. Công cụ và sản phẩm xử lý TV và TDTTS liệu về xử lý TDTTS trên máy tính. Trong đó, đáng kể nhất Như đã đề cập ở phần trên, xử lý ngôn ngữ tự nhiên bao là số lượng tài liệu về xử lý tiếng Êđê (1.100 tài liệu). gồm rất nhiều vấn đề xử lý khác nhau. Do đó, hiện nay cũng So với các nguồn tài liệu nghiên cứu về lĩnh vực khác, số đã tồn tại nhiều sản phẩm và công cụ xử lý TV và TDTTS lượng tài liệu nghiên cứu về lĩnh vực này còn khá khiêm tốn. khác nhau. Trong số nhiều loại sản phẩm và công cụ xử lý Trong khi đó, các nguồn tài liệu này lại được lưu trữ một TV và TDTTS, các sản phẩm nổi bật và quan trọng gồm: cách rải rác, riêng lẻ, không thuận tiện cho việc nghiên cứu. a. Các bộ mã và bộ gõ TV và TDTTS Do vậy, nếu chúng ta có thể tập hợp các nguồn tài liệu Một trong những sản phẩm quan trọng đối với xử lý TV nghiên cứu này và quản lý tập trung ở một hệ thống tra cứu và TDTTS trên máy tính cần kể đến, đó là bộ gõ TV và dùng chung thì chắc chắn sẽ rất hữu ích cho cộng đồng TDTTS. Các bộ gõ TV phổ biến như Vietkey, Unikey, những người làm nghiên cứu về lĩnh vực này. VNKey; các bộ gõ TDTTS như bộ gõ tiếng dân tộc Bahnar, 2.2.2. Dữ liệu phục vụ xử lý TV và TDTTS M’nông, Êđê [11], bộ gõ TayNguyenKey [12] phục vụ cho Dữ liệu phục vụ xử lý ngôn ngữ tự nhiên nói chung, TV việc soạn thảo 6 loại chữ viết của 6 dân tộc thiểu số là Êđê, và TDTTS nói riêng rất quan trọng. Xử lý ngôn ngữ tự Jơrai, Bahnar, Sê đăng, Kơ Ho và Mơ Nông. nhiên là lĩnh vực nghiên cứu rất rộng, bao gồm nhiều vấn Nổi bật hơn, đó là nỗ lực đưa bộ mã TV vào bảng mã đề xử lý khác nhau như: Tóm tắt văn bản, dịch máy, tách Unicode cũng như việc tích hợp bàn phím ảo TV vào các hệ đoạn, nhận dạng thực thể có tên, gán nhãn, phân tích dữ điều hành máy tính và điện thoại di động hiện nay. liệu, hỏi đáp tự động, tìm kiếm, xử lý tiếng nói, từ điển, b. Các công cụ hỗ trợ chuyển đổi TV và TDTTS đánh giá chất lượng dịch… Các công cụ hỗ trợ chuyển đổi TV và TDTTS có thể kể Để phục vụ các vấn đề khác nhau trong lĩnh vực xử lý đến gồm các hệ thống từ điển và các hệ thống dịch tự động. ngôn ngữ tự nhiên nêu trên, đòi hỏi phải xây dựng nhiều loại dữ liệu khác nhau. Có nhiều cách để phân loại dữ liệu Như đã đề cập ở phần trên, hiện nay có nhiều hệ thống theo các tiêu chí, mục đích và quan điểm. Tuy nhiên, xét từ điển với số lượng từ và cặp ngôn ngữ khác nhau. Các từ về mặt tổng quan, dữ liệu phục vụ xử lý ngôn ngữ tự nhiên điển phổ biến hiện nay có thể kể đến: chủ yếu gồm các kho ngữ liệu, dữ liệu từ điển, treebank  Lạc Việt từ điển: là hệ thống từ điển TV rất phổ biến (ngân hàng câu được chú giải cú pháp), ontology. ở cả hai dạng phần mềm cài đặt trên máy tính và phiên bản a. Kho ngữ liệu TV và TDTTS web, gồm 300.000 từ và cụm từ với 5 cặp ngôn ngữ Viêt- Anh, Việt-Pháp, Việt-Hàn, Việt-Nhật, Việt-Trung. Kho ngữ liệu là loại dữ liệu quan trọng và phổ biến nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên. Kho ngữ liệu tồn  Từ điển VDict.com: là hệ thống từ điển TV trực tuyến tại dưới nhiều dạng khác nhau, có cấu trúc và dịnh dạng rất khá phổ biến, gồm khoảng 400.000 từ với các cặp ngôn đa dạng. Hiện nay, trên thế giới đã có nhiều kho ngữ liệu, ngữ như Việt-Anh, Việt-Pháp, Việt-Hán. nổi tiếng nhất phải kể đến các kho ngữ liệu EuroParl [1],  Từ điển VnDic.net: là hệ thống từ điển TV trực tuyến khá BTEC [16], ANC [18], ICE [17],… lớn, gồm gần 400.000 từ và cụm từ với nhiều cặp ngôn ngữ. Cùng với đó, nhiều kho ngữ liệu tiếng Việt và TDTTS Bên cạnh các từ điển TV và tiếng nước ngoài, hiện nay cũng đã được xây dựng, đóng vai trò đáng kể trong lĩnh cũng đã có một số từ điển TV – tiếng dân tộc thiểu số ở vực nghiên cứu này. Một số kho ngữ liệu tiếng Việt và Việt Nam như từ điển Việt-Eđê, Việt-Chăm, Việt- TDTTS phổ biến như: Kho ngữ liệu Vietlex (80 triệu từ); Khmer…Tuy nhiên, đa số các từ điển này ở dạng phần Kho ngữ liệu Sketch (94 triệu từ) [15]; VietTreebank [3], mềm trên máy tính, chưa được chia sẽ sử dụng phổ biến Kho ngữ liệu dự án VLPS [5]; các kho ngữ liệu của các như các hệ thống từ điển trực tuyến. trung tâm nghiên cứu DATIC, MICA; các kho ngữ liệu Cùng với các từ điển TV và TDTTS là các hệ thống tiếng dân tộc Êđê, Chăm, Khơ-me. dịch tự động. Mặc dù các hệ thống dịch tự động TV hiện b. Dữ liệu từ điển TV và TDTTS nay có chất lượng rất thấp, tuy nhiên chúng vẫn có ích nhất định đối với người sử dụng. Một số hệ thống dịch tự động Từ điển được xem như công cụ đắc lực và cần thiết nhất có hỗ trợ TV như: trong số các công cụ phục vụ xử lý ngôn ngữ tự nhiên trên máy tính. Chính vì vậy, đã có nhiều từ điển TV và TDTTS  Hệ thống dịch của Google: Đây là hệ thống dịch tự được xây dựng ở các dạng khác nhau như phần mềm độc lập, động lớn nhất hiện nay, với số lượng 90 ngôn ngữ, trong ứng dụng web, ứng dụng trên các thiết bị cầm tay. đó có TV.  Hệ thống dịch tự động Vietgle: Hỗ trợ dịch TV sang Một số từ điển TV và TDTTS phổ biến như Lạc Việt, tiếng Anh tương đối tốt. VDict.com, Babylon, VnDic, Hellochao, Google, từ điển Việt - Chăm, từ điển Việt - Khme, từ điển Việt - Bhnông,  Ngoài ra, còn có các hệ thống như EVTrans, từ điển Việt - Eđê… HelloChao cho phép dịch TV sang tiếng Anh. Mỗi từ điển có cơ sở dữ liệu với cách tổ chức và định c. Các công cụ xử lý văn bản TV khác dạng dữ liệu riêng. Mặc dù tồn tại nhiều từ điển khác nhau, Trong số các công cụ xử lý TV, có thể kể đến nhóm các nhưng mỗi từ điển chỉ gồm tập hợp từ vựng và cặp ngôn công cụ sau: ngữ giới hạn. Do đó, nếu chúng ta có thể hợp nhất các loại  Công cụ tách đoạn văn bản TV
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 51  VnTokenizer là công cụ viết bằng Java dựa trên kĩ thống này được xây dựng bằng phương pháp dịch máy dựa thuật so khớp tối đa, kết hợp sử dụng biểu thức chính quy. trên xác suất thống kê [9]. Độ chính xác trung bình hệ thống đạt được là gần 94%[9].  Công cụ tách từ tự động trong tiếng Jrai. Công cụ này  PVnSeg là công cụ viết bằng Perl, cũng sử dụng kĩ làm tiền đề để tiếp tục nghiên cứu và xây dựng các hệ thống thuật so khớp tối đa và các biểu thức chính quy tương tự xử lý tiếng Jrai như dịch thuật tự động, tìm kiếm thông tin [8]. như vnTokenizer. Điểm khác là hệ thống này sử dụng thuật  Kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu toán quay lui để tăng hiệu quả. Chương trình không xử lí văn hóa dân tộc Cơ Tu [13]. nhập nhằng mà chỉ chọn phương án ngẫu nhiên. Độ chính xác trung bình hệ thống đạt được là gần 97%[9]. 3. Ý tưởng và giải pháp xây dựng môi trường quản lý  JVnSegmenter là công cụ viết bằng Java, sử dụng tập trung tài nguyên xử lý TV và TDTTS cách tiếp cận khác: mô hình hoá bài toán tách từ thành bài Như trình bày ở trên, nguồn tài nguyên xử lý TV và toán gán nhãn, trong đó mỗi âm tiết sẽ được gán một trong TDTTS đã được quan tâm xây dựng và phát triển. Nhiều ba nhãn (BW - bắt đầu từ, IW – trong từ, và O - loại khác), tài liệu khoa học đã được công bố, nhiều nguồn dữ liệu đã sau đó sử dụng một phương pháp học máy để thực hiện được xây dựng cũng như nhiều loại công cụ, sản phẩm về nhiệm vụ gán nhãn. Độ chính xác trung bình hệ thống đạt xử lý TV và TDTTS đã được phát triển. Vấn đề là việc khai được khi thực hiện phương pháp đánh giá chéo trên tập dữ thác các nguồn tài nguyên này chưa thật sự hiệu quả, bởi lẽ liệu tách từ mẫu nhỉnh hơn 95% [9], [5], [6]. chúng đang được lưu trữ và quản lý một cách phân tán cùng với sự đa dạng về cấu trúc, định dạng của chúng. Do đó, để có thể khai thác hiệu quả hơn nữa các nguồn tài nguyên này, ý tưởng và giải pháp trước hết là tập hợp các nguồn tài nguyên này để xây dựng một môi trường quản lý và truy cập tập trung, sau đó tiến hành hợp nhất để cho phép việc quản lý và truy cập chúng theo cùng một cách thức đồng nhất và hiệu quả. Để xây dựng được môi trường như vậy, Dữ liệu Dịch vụ chúng ta cần xây dựng 3 giải pháp cụ thể như sau:  Trước hết, đối với nguồn tài nguyên là các tài liệu khoa học về lĩnh vực xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài nguyên này là tìm kiếm, tập hợp và xây dựng hệ thống Hình 1. Cấu trúc các thành phần của JvnTagger quản lý tập trung các tài liệu khoa học về lĩnh vực này. Trong  Công cụ phân loại từ TV đó, cần phải tổ chức, phân loại tài liệu theo từng chủ đề, lĩnh Phân loại từ nhằm xác định từ loại cho các từ trong văn vực hẹp cũng như cung cấp các chức năng hiệu quả nhằm hỗ bản. Phần mềm JvnTagger cho phép gán nhãn từ loại TV trợ một cách thuận lợi cho người dùng khai thác và nghiên cứu được xây dựng dựa trên các phương pháp học máy thống tài liệu. Cụ thể, cần xây dựng giải pháp tổ chức dữ liệu một kê MaxEnt, CRFs và được viết bằng Java. cách thông minh, phân loại cũng như nhóm các tài liệu theo lĩnh vực hẹp, chủ đề, tác giả…, cần nghiên cứu trích rút đặc  Công cụ phân tích cú pháp TV trưng từ các tài liệu để tổ chức dữ liệu theo hướng ngữ nghĩa, Phân tích cú pháp nhằm giúp cho máy tính xác định được cần cung cấp các chức năng tìm kiếm thông minh, cũng như các thành phần của câu, từ đó máy tính có thể hiểu văn bản các chức năng tóm tắt văn bản, thống kê… Giải pháp này được được đưa vào. Phần mềm phân tích cú pháp TV BKParser được thể hiện qua mô hình dưới đây: sử dụng văn phạm HPSG (Head-Driven Phrase Structure Grammar, Pollard and Sag, 1994). Phần mềm BKParser dưới dạng mã nguồn mở để người dùng có thể xây dựng ứng dụng hay tích hợp ứng dụng trên đó dễ dàng [5]. Ngoài các nhóm tài nguyên xử lý TV và DTTS nêu trên, còn có một số nguồn tài nguyên đang được phát triển hoặc trong giai đoạn thử nghiệm gồm:  Kho ngữ vựng đa ngữ Việt – Ê đê gán nhãn theo ngữ cảnh, kho ngữ liệu đa ngữ Việt - Ê đê với phông chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách gán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục về chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, v.v… Hình 2. Mô hình tìm kiếm, tập hợp và xây dựng hệ thống quản cho đồng bào các dân tộc thiểu số Việt Nam [10]. lý tập trung các tài liệu khoa học  Kho ngữ liệu song ngữ Việt – Ê đê trong xử lý tiếng  Bước 1: Nhận diện website xử lý TV và TDTTS. Từ Ê đê [14]. các website trên Internet, ta sử dụng PHPCrawl (là một thư  Từ điển điện tử phương ngữ Jrai – Việt của Trung tâm viện phát triển cho việc crawling/spidering websites viết CNTT Sở Thông tin và Truyền thông Gia Lai và Công ty bằng ngôn ngữ PHP) để lấy dữ liệu tự động website, tiến TNHH Công nghệ thông tin Tuổi trẻ Lạc Việt xây dựng. hành nhận diện website và tài liệu cần tập hợp. Thư viện này Từ điển này cho phép chúng ta tra nghĩa theo từ. được cung cấp tại địa chỉ: http://phpcrawl.cuab.de/. Bước  Hệ thống dịch tự động Jrai – Việt và Việt – Jrai. Hệ này ta có thể hình dung như là đang xây dựng một con robot
52 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân có thể tự động dò tìm trong vô số website thông qua từ khóa nguyên đang tồn tại rất dễ dàng và thuận lợi. trong metadata của trang web nếu có, sau đó nhận dạng đâu  Thứ ba, đối với nguồn tài nguyên là các công cụ và sản là website xử lý TV và TDTTS. phẩm xử lý TV và DTTS: Một thực trạng đối với loại tài (a) Lấy URL đầu vào do người dùng nhập kèm theo nguyên này là chúng được xây dựng và phát triển ở các dạng thông tin về độ sâu. Độ sâu cho phép xác định số lần tìm khác nhau như các ứng dụng độc lập, ứng dụng web, các đoạn kiếm và xử lý các URL trong mã nguồn của trang web lấy script. Vấn đề gặp phải đối với người dùng là cần phải cài đặt được, tính từ URL gốc. và tìm hiểu chúng một cách kỹ lưỡng trước khi có thể sử dụng được. Do đó, để có thể cho phép sử dụng và khai thác loại tài (b) Từ URL đã có, lấy mã nguồn HTML của trang web nguyên này hiệu quả hơn, ý tưởng và giải pháp là cần xây tương ứng. dựng một hệ thống hoạt động theo kiến trúc hướng dịch vụ (c) Tìm các URL trong mã nguồn HTML vừa tìm được. (SOA), trong đó sao cho việc truy xuất và khai thác các công (d) Chọn và lưu trữ các URL có chứa từ khóa hoặc file cụ xử lý TV và TDTTS dễ dàng và trong suốt với người sử định dạng cần tìm. dụng. Thật vậy, ý tưởng và giải pháp này xuất phát từ mô hình  Bước 2: Nhận diện tài nguyên và trích xuất tài điện toán đám mây hiện nay, trong đó thay vì người dùng phải nguyên. Xử lý mỗi URL ở Bước 1 tìm được. Mỗi URL cài đặt phần mềm để sử dụng thì có thể sử dụng phần mềm trong HTML đều chứa trong thẻ liên kết với cú pháp: như là dịch vụ thông qua môi trường internet. 4. Xây dựng môi trường quản lý, truy cập tập trung tài Nội dung hiển thị nguyên xử lý TV và TDTTS Có nhiều giải pháp để lấy được tất cả URL trong mã Từ giải pháp đã đề xuất ở phần trên, chúng tôi đã tiến nguồn trang web: hành xây dựng một môi trường quản lý và tập trung tài Sử dụng biểu thức chính quy (regular expression) để nguyên xử lý TV và TDTTS tập trung. Hệ thống được xây quét tất cả các đoạn văn bản có cú pháp như vừa nêu, chẳng dựng trên nền tảng web, dưới dạng một môi trường cộng hạn biểu thức chính quy có dạng sau: tác, không những cho phép người dùng truy xuất và khai thác tài nguyên mà còn cho phép người dùng đóng góp và ]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^setURL($model->link). Yêu cầu tài nguyên là các xây dựng bởi ngôn ngữ PHP và hệ quản trị cơ sở dữ liệu file có thể download được như là: *.rar, *.zip, *.pdf, *.doc, … SQL Server 2008. Chức năng trích rút tài liệu là chức năng Các file này được chứa đựng trong thẻ với thuộc các tài liệu về xử lý TV và TDTTS của một trang web cho tính "href". Vì vậy, có thể lấy được nội dung file trong thuộc trước với từ khóa đã được định nghĩa. Sau khi dò tìm, kết tính "href". quả của việc trích rút sẽ hiển thị các file *.rar, *.zip, *.doc,  Bước 3: Hiển thị *.pdf … trong gridview như Hình 2. Ngoài ra, hệ thống còn Xây dựng giao diện tìm kiếm và cung cấp thông tin. cho phép người dùng tìm kiếm, và download các tài liệu đã Người dùng sử dụng hệ thống để tra cứu, tìm kiếm tài liệu được phân loại theo từng chủ đề. Đồng thời, người dùng có đã được tổng hợp theo từng chủ đề, và có thể trao đổi, bình thể upload tài liệu lên hệ thống, làm cho nguồn tài nguyên luận về các tài liệu quan tâm. của hệ thống phong phú và đa dạng hơn.  Thứ hai, đối với nguồn tài nguyên là dữ liệu phục vụ xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài nguyên này là tập hợp và tìm cách hợp nhất chúng để tạo nên các nguồn dữ liệu lớn hơn. Cụ thể, các kho ngữ liệu, các cơ sở dữ liệu từ điển sẽ có định dạng, cấu trúc và cặp ngôn ngữ khác nhau. Do đó, để cho phép việc khai thác và sử dụng các nguồn tài nguyên này một cách hiệu quả, giải pháp cần thiết là hợp nhất chúng lại với nhau, có nghĩa là tìm cách trộn, liên kết các nguồn dữ liệu này lại với nhau để tạo thành một nguồn dữ liệu đa ngữ, đồng nhất về mặt định dạng và cấu trúc. Một cách cụ thể, cần phải nghiên cứu định dạng và cấu trúc của mỗi loại tài nguyên này, tìm Hình 3. Kết quả của việc trích rút tài liệu ra được những đặc điểm chung và riêng, để từ đó đề xuất một cấu trúc và định dạng chuẩn. Sau khi có được cấu trúc Đối với nguồn tài nguyên là dữ liệu, hệ thống của chúng và định dạng chuẩn thì việc xây dựng một nguồn tài nguyên tôi đã cho phép tập hợp và hợp nhất được một số loại kho đồng nhất từ việc tập hợp và chuyển đổi các nguồn tài ngữ liệu cũng như cung cấp được một số chức năng xử lý
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 53 ngôn ngữ tự nhiên nói chung, xử lý TV và TDTTS nói riêng và công cụ/sản phẩm về xử lý TV và TDTTS. Kết quả này và được truy xuất dưới dạng dịch vụ web. sẽ có vai trò quan trọng cho cộng đồng những người nghiên Dưới đây là một số kết quả của môi trường quản lý, truy cứu về lĩnh vực này tham khảo và có cái nhìn tổng quát về cập tập trung tài xử lý nguyên ngôn ngữ tự nhiên nói chung lĩnh vực này. Đóng góp thứ hai của bài báo là đã đề xuất và xử lý TV và TDTTS nói riêng. được các giải pháp cụ thể cho vấn đề làm thế nào tập hợp được các nguồn tài nguyên trên để cho phép người dùng truy cập và khai thác một cách thuận lợi và hiệu quả. Đóng góp thứ ba của bài báo là đã bước đầu xây dựng được một môi trường, hiện thực được phần lớn giải pháp hợp nhất tài nguyên là dữ liệu cũng như cung cấp một số chức năng xử lý TV và TDTTS dưới dạng dịch vụ web. Để đạt được mục tiêu và giải pháp tổng thể đã đề xuất, trong thời gian đến chúng tôi sẽ tiếp tục nghiên cứu và triển Hình 4. Chức năng nạp và hợp nhất kho ngữ liệu khai các giải pháp về hợp nhất các loại tài nguyên khác như Hình trên là chức năng cho phép nạp và hợp nhất các kho dữ liệu là từ điển cũng như tiếp tục tích hợp nhiều chức ngữ liệu để tạo thành một nguồn dữ liệu đa ngữ, lớn hơn. năng khác để có được một môi trường quản lý cho phép truy cập tài nguyên xử lý TV và TDTTS hoàn chỉnh, góp phần thúc đẩy việc nghiên cứu và phát triển lĩnh vực xử lý TV và TDTTS trên máy tính. TÀI LIỆU THAM KHẢO [1] Adam Kilgarriff, Phuong Le-Hong, “VietnameseWord Sketches”, In Workshop on Vietnamese Language and Speech Processing (IEEE- RIVF 9), 2012. [2] PGS. TS Lương Chi Mai, Báo cáo tổng hợp nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2009. [3] Nguyễn Phương Thái và các cộng sự, Báo cáo kết quả sản phẩm SP 7.3 – Kho ngữ liệu tiếng Việt có chú giải, KC01/01, Dự án VLSP, 2009. Hình 5. Nhóm các chức năng được truy xuất dưới dạng [4] TS. Nguyễn Thị Minh Huyền, Báo cáo kết quả sản phẩm SP 8.2 – Nghiên cứu xây dựng công cụ phân đoạn từ Việt, KC01/01, Dự án VLSP, 2009. dịch vụ web [5] TS. Lê Thanh Hương, Báo cáo kết quả sản phẩm SP 8.5 – Nghiên cứu Bên cạnh chức năng hợp nhất nguồn tài nguyên là các kho xây dựng công cụ phân tích câu Việt, KC01/01, Dự án VLSP, 2009. ngữ liệu, chúng tôi cũng đã tiến hành tích hợp nhiều chức năng [6] Nguyễn Cẩm Tú, Phan Xuân Hiếu, JVnSegmenter: A Java-based Vietnamese xử lý tài nguyên dữ liệu như các chức năng đánh giá, hiển thị, Word Segmentation Tool, http://jvnsegmenter.sourceforge.net, 2007. chỉnh sửa (post-edit), so sánh dưới dạng dịch vụ web. [7] Hồ Tú Bảo, Lương Chi Mai, Về xử lý tiếng Việt trong Công nghệ Thông tin, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ tiên tiến Nhật Bản. [8] Nguyễn Thanh Tịnh, Huỳnh Công Pháp, “Nghiên cứu và xây dựng công cụ tách từ tự động trong tiếng Jrai”, Hội thảo Khoa học Quốc gia, Số 5, Từ trang 307-312, 2013. [9] Huỳnh Công Pháp, Đỗ Thị Thuận, “Nghiên cứu và xây dựng hệ thống dịch tự động Jrai – Việt và Việt - Jrai”, Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, Số 12(61), Từ trang 97-102, 2012. [10] Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp xây dựng kho ngữ liệu đa ngữ Việt – Ê đê gán nhãn theo ngữ cảnh”, Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, Số 1(74), Từ trang 38 – 41, 2014. [11] Trương Đình Tú, Xây dựng bộ gõ tiếng dân tộc, Cuộc thi trí tuệ Việt Nam, 2003. Hình 6. Chức năng gióng hàng [12] Y Ghi Niê, KS. Võ Ngọc Hiệp, ThS. Trần Cát Lâm, Phần mềm gõ Ngoài ra, chúng tôi cũng đã tích hợp chức năng gióng chữ dân tộc, Sở Khoa học và Công nghệ tỉnh DakLak, 2003. hàng văn bản vào hệ thống. [13] Đỗ Gia Trinh, Xây dựng kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu, Luận văn Thạc sỹ Kỹ thuật, Đà Nẵng, 2013. 5. Kết luận [14] Phan Thị Thu Nhân, Xây dựng kho ngữ vựng song ngữ Việt – Ê đê trong xử lý tiếng Ê đê, Luận văn Thạc sỹ Kỹ thuật, Đà Nẵng, 2013. Xử lý TV và TDTTS là một lĩnh vực nghiên cứu rất được [15] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam quan tâm và rất cấp bách đối với Việt Nam. Vấn đề đặt ra là Kilgarriff, Siva Reddy, “Nghiên cứu từ vựng tiếng Việt với hệ thống làm thế nào để tạo điều kiện thuận lợi cho cộng đồng nghiên Sketch Engine”, Tạp chí Tin học Và Điều khiển học, Số 3(27), 2011. cứu về lĩnh vực này nhằm nâng cao và phát huy hơn nữa hiệu [16] Võ Trung Hùng, “Phương pháp và công cụ đánh giá tự động các hệ quả quá trình nghiên cứu. Kết quả của bài báo này đã đóng thống dịch tự động trên mạng”, Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, Số (18), Từ trang 37- 42, 2007. góp một phần quan trọng nhằm giải quyết vấn đề đặt ra. [17] Kho Ngữ liệu quốc tế Anh Quốc, http://ice-corpora.net/ice Đóng góp thứ nhất của bài báo đó là kết quả nghiên cứu tổng [18] Kho Ngữ liệu quốc gia Hoa Kỳ, http://www.anc.org quan về các nguồn tài nguyên gồm tài liệu khoa học, dữ liệu (BBT nhận bài: 04/08/2015, phản biện xong: 19/12/2015)