Các tiêu chí ngôn ngữ trong việc xây dựng kho ngữ liệu tiếng Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

21
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày các tiêu chí lấy mẫu ngôn ngữ trong việc xây dựng kho ngữ liệu cân bằng bao gồm: Lựa chọn văn bản, tính đại diện, tính cân bằng, chủ đề, kích thước và tính đồng nhất. Chúng tôi áp dụng các tiêu chí này vào việc xây dựng kho ngữ liệu tiếng Việt (Vietnamese Corpus 1.0 – VnC 1.0) với kích thước 100 triệu từ bao gồm 10 % văn bản nói và 90 % văn bản viết được thu thập chủ yếu từ năm 2000 đến nay.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Các tiêu chí ngôn ngữ trong việc xây dựng kho ngữ liệu tiếng Việt

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00146 CÁC TIÊU CHÍ NGÔN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT Võ Diệp Như, Đinh Điền Trung tâm Ngôn ngữ học Tính toán, Đại học Khoa học Tự nhiên, ĐHQG TP. HCM vodiepnhu@gmail.com, ddien@fit.hcmus.edu.vn TÓM TẮT: Trong lĩnh vực xử lý ngôn ngữ tự nhiên, việc sử dụng các mô hình máy học để phụ vụ giải quyết các bài toán càng chiếm ưu thế. Tuy nhiên, để có được kết quả tốt, cần có ngữ liệu huấn luyện đạt yêu cầu, mang được tính đại diện cho ngôn ngữ. Vì thế kho ngữ liệu cần đảm bảo được tính đại diện, tính cân bằng, cụ thể là lấy mẫu ngôn ngữ có kích thước phù hợp theo các tiêu chí khi xây dựng kho ngữ liệu. Trong phạm vi bài báo, chúng tôi trình bày các tiêu chí lấy mẫu ngôn ngữ trong việc xây dựng kho ngữ liệu cân bằng bao gồm: lựa chọn văn bản, tính đại diện, tính cân bằng, chủ đề, kích thước và tính đồng nhất. Chúng tôi áp dụng các tiêu chí này vào việc xây dựng kho ngữ liệu tiếng Việt (Vietnamese Corpus 1.0 – VnC 1.0) với kích thước 100 triệu từ bao gồm 10 % văn bản nói và 90 % văn bản viết được thu thập chủ yếu từ năm 2000 đến nay. Từ khóa: Kho ngữ liệu, xây dựng kho ngữ liệu, thu thập ngữ liệu, ngôn ngữ học ngữ liệu. I. GIỚI THIỆU Việc sử dụng và khai thác các kho ngữ liệu đã mang lại nhiều kết quả, ứng dụng hữu ích trong nhiều lĩnh vực, từ nghiên cứu ngôn ngữ, giảng dạy ngôn ngữ cho đến các lĩnh vực khác như kinh tế thương mại, đời sống xã hội hay công tác điều tra,... Đặc biệt là phải kể đến ứng dụng trong ngôn ngữ học - máy tính. Việc khai thác các kho ngữ liệu thực tế, rút trích các quy luật ngôn ngữ theo nhiều phương pháp (thống kê, máy học,…) để áp dụng những quy luật này vào các trường hợp tương tự nhằm giải quyết các bài toán trong thực tế. Tuy nhiên, để kết quả có thể đạt được độ chính xác như mong muốn, thể hiện được đặc trưng sử dụng ngôn ngữ của một cộng đồng người sử dụng trong một khoản thời gian nhất định thì những kho ngữ liệu cần phải đủ lớn. Ngoài ra các mẫu ngôn ngữ được thu thập cần được cân bằng theo những tiêu chí nhất định. Đây cũng là một trong những thách thức lớn khi xây dựng kho ngữ liệu chung (general corpus). Trong bài báo này, chúng tôi sẽ giới thiệu ở phần 2 một số kho ngữ liệu cân bằng; phần 3 chúng tôi sẽ trình bày các tiêu chí ngôn ngữ trong việc xây dựng kho ngữ liệu; phần 4 trình bày kết quả thực nghiệm của chúng tôi khi sử dụng các tiêu chí trong việc xây dựng kho ngữ liệu tiếng Việt; phần 5 là tổng kết và phần 6 nêu định hướng của chúng tôi trong việc phát triển, chuẩn hoá và cập nhật kho ngữ liệu. II. CÁC KHO NGỮ LIỆU CÂN BẰNG Trên thế giới, các kho ngữ liệu cân bằng đã được xây dựng cho nhiều ngôn ngữ, một trong những công trình tiêu biểu có thể kể đến là kho ngữ liệu quốc gia cho tiếng Anh của người Anh có tên là BNC gồm 100 triệu từ được xây dựng từ năm 1991 bởi Oxford University Press (OUP), Longman Group UK và một vài đối tác khác. Đây là kho ngữ liệu văn bản điện tử gồm cả văn bản nói và văn bản viết trong thời kỳ từ cuối thế kỷ thứ XX tại Anh. Kho ngữ liệu này được xây dựng theo các tiêu chí của ngôn ngữ học ngữ liệu, như tính cân bằng, tính đại diện, kỹ thuật lấy mẫu. Vì vậy, BNC bao gồm nhiều văn bản thuộc thể loại, lĩnh vực, phong cách khác nhau như hình 1 và hình 2 bên dưới. [12] Hình 1. Các lĩnh vực và thể loại văn bản viết của BNC.
Võ Diệp Như, Đinh Điền 27 Hình 2. Các kiểu giao tiếp và ngữ cảnh giao tiếp trong văn bản nói của BNC Bên cạnh đó, một số kho ngữ liệu cân bằng, mang tính đại diện cho ngôn ngữ khác như: Kho ngữ liệu quốc gia Mỹ - The American National Corpus (ANC), được bắt đầu xây dựng vào 1998 phục vụ cho việc nghiên cứu tiếng Anh - Mỹ [5]; các kho ngữ liệu quốc gia khác gồm các kho ngữ liệu của các ngôn ngữ: tiếng Ba Lan, tiếng Séc, tiếng Nga, tiếng Ý, tiếng Đức,…; [9] kho ngữ liệu cân bằng SINCA (Academia Sinica Balanced Corpus) là kho ngữ liệu tiếng Hoa cân bằng đầu tiên được gán nhãn từ loại [11]; kho ngữ liệu web cân bằng tiếng Anh AMALGUM (A Machine Annotated Lookalike of GUM) [13]; … Đối với kho ngữ liệu tiếng Việt, tuy chưa có công trình liên quan đến kho ngữ liệu quốc gia hay kho ngữ liệu chung, cân bằng, nhưng cũng phải kể đến một số kho ngữ liệu như: công trình trong đề tài KC.01 VLSP năm 2009 xây dựng kho ngữ liệu tiếng Việt gồm 90.000 câu, trong đó có 70.000 câu chỉ được gán thông tin về ranh giới từ, 10.000 câu có gán thêm thông tin từ loại và 10.000 câu có gán thêm thông tin cú pháp [15]. Công trình xây dựng ngữ liệu tiếng Việt kho ngữ liệu đơn ngữ VCor (Vietnamese Corpus) gồm hơn 17 triệu câu với hơn 346 triệu từ và 443 triệu chữ (tiếng/âm tiết) thuộc 42 lĩnh vực và gom thành 18 chủ đề (khoa học, kinh tế, văn hoá, xã hội,...). Ngữ liệu này được thu thập tự động từ các trang báo điện tử (www.tuoitre.vn, www.vnexpress.net,...) từ năm 2000 đến 2010. Kho ngữ liệu đơn ngữ có chú thích VTB (Vietnamese Tree Bank) gồm hơn 300 ngàn câu có chú thích ranh giới từ, từ loại và nhãn thực thể thuộc nhiều lĩnh vực khác nhau. Nguồn ngữ liệu thô được thu thập từ các trang báo điện tử (www.tuoitre.vn, www.vnexpress.net,...) từ năm 2000 đến 2010 và được chú thích thủ công bởi các nhân viên và cộng tác viên ngôn ngữ học của Trung tâm Dữ liệu Đa ngữ Kim Từ Điển. Ngữ liệu này được phân phối có điều kiện bởi Trung tâm Ngôn ngữ học Tính toán. [3] Kho ngữ liệu tiếng Việt của Vietlex (Vietlex Corpus) chứa khoảng 80.000.000 âm tiết (tương đương gần 4 triệu câu) được xây dựng từ năm 1998, được thu thập từ các tác phẩm văn học và báo chí, các tác phẩm khoa học, các văn bản pháp luật, các bài viết chuyên ngành,… đã được chú thích ranh giới từ [7]. Kho ngữ liệu Large Vietnamese text corpus đơn ngữ của tác giả Dieu-Thu Le và Uwe Quasthoff (2016) gồm 4,05 tỉ từ thu thập từ Wikipedia, báo điện tử và các trang web khác từ 2007 đến năm 2014 được chú thích ranh giới từ [2]. III. CÁC TIÊU CHÍ NGÔN NGỮ Theo Sinclair (1991) thì kho ngữ liệu (corpus) là “Tập các mẫu văn bản được lựa chọn một cách có hệ thống theo những tiêu chí nhất định nhằm đại diện cho một thể loại ngôn ngữ cụ thể với mục đích nghiên cứu ngôn ngữ” [10]. Như vậy, khi lựa chọn các mẫu văn bản để xây dựng kho ngữ liệu, chúng ta cần phải thu thập các mẫu (sample) có kích thước phù hợp. Các mẫu này được lựa chọn một cách có hệ thống theo những tiêu chí (criteria) nhất định sao cho các mẫu trên phải đảm bảo tính đại diện (representative), tính cân bằng (balance) [4]. Các tiêu chí ngôn ngữ cần quan tâm khi xây dựng kho ngữ liệu bao gồm các tiêu chí chung, tiêu chí ngoài và tiêu chí trong: A. Các tiêu chí chung 1. Tiêu chí chung khi thu thập ngữ liệu Việc lựa chọn các tiêu chí lấy mẫu quyết định lớn đến thời gian xây dựng kho ngữ liệu, chi phí cũng như nhân lực thực hiện, độ phức tạp và khả năng sai lệch trong quá trình lấy mẫu ngôn ngữ. Một số tiêu chí chung mà chúng ta cần xét đến trước khi lấy mẫu bao gồm [3]: - Dạng thức của văn bản (dạng nói hay viết, văn bản điện tử); - Thể loại của văn bản (sách, tạp chí, thông báo hoặc thư từ); - Lĩnh vực của văn bản (hàn lâm hay thông dụng); - Địa điểm (tiếng Việt ở miền Nam, Bắc hay Trung; trong nước hay hải ngoại); - Ngôn ngữ, các ngôn ngữ hoặc biến thể ngôn ngữ của kho ngữ liệu; - Thời điểm văn bản được tạo ra (với các mốc 1945, 1975,...).
28 CÁC TIÊU CHÍ NGÔN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT Khi bắt đầu xây dựng kho ngữ liệu, việc lựa chọn những tiêu chí đơn giản nên được ưu tiên trong giai đoạn tiến hành lấy mẫu văn bản và loại bỏ những tiêu chí phức tạp, chồng chéo để tiết kiệm thời gian và nhân lực. Bên cạnh đó, cần phải dự kiến khả năng thu được mẫu ngữ liệu trong thực tế từ tiêu chí đó để có những quyết định phù hợp. Ví dụ, khi lựa chọn tiêu chí về dạng thức văn bản, chúng ta dự kiến thu thập văn bản nói, lúc này cần xem xét các yếu tố chủ quan và khách quan trong thực tế như: Có điều kiện để phiên âm văn bản nói hay không? Có thể tiến hành ghi âm văn bản nói hay tìm được các nguồn video/audio thể hiện văn bản nói trong đời sống hay không? Khi xây dựng kho ngữ liệu tiếng Việt phiên bản đầu tiên (Vietnamese Corpus 1.0 - VnC 1.0), chúng tôi đã lựa chọn mẫu văn bản theo các tiêu chí chung được trình bày trong bảng 1. Bảng 1. Các tiêu chí chung khi xây dựng kho ngữ liệu VnC 1.0 STT Tiêu chí chung Tiêu chí chung thu thập ngữ liệu VnC 1.0 1 Dạng thức của văn bản Văn bản viết (văn bản đã được số hoá), văn bản nói (văn bản đã được phiên âm từ các video) 2 Thể loại của văn bản Sách, quyết định/quy định, báo cáo, văn kiện, kịch bản, luận văn. 3 Lĩnh vực của văn bản Hàn lâm và thông dụng 4 Địa điểm Địa điểm: ba miền Bắc, Trung, Nam tại Việt Nam 5 Ngôn ngữ, các ngôn ngữ hoặc biến Đơn ngữ - tiếng Việt. thể ngôn ngữ 6 Thời điểm văn bản được tạo ra Các văn bản được xuất bản: trước năm 1945; 1945 - 1975; 1975 - 2000; chủ yếu từ năm 2000 đến nay. 2. Lấy mẫu Những tiêu chí chung sẽ xác định một số thành tố (component) khi tiến hành lấy mẫu ngôn ngữ. Việc lấy mẫu cho mỗi thành tố theo tiêu chí cần phù hợp, chúng ta cần lấy mẫu mà cộng đồng sử dụng ngôn ngữ đó ở hai hình thức đó chính là việc tiếp nhận (reception) bao gồm nghe và đọc; và việc sản xuất ngôn ngữ (production) bao gồm nói và viết [16]. Kiểu lấy mẫu văn bản trong VnC 1.0 được thể hiện ở bảng 2. Khi chọn mẫu văn bản viết từ sách, truyện, tiểu thuyết, các ấn phẩm được in ấn chúng ta cần lưu ý: - Lựa chọn nhiều mẫu, mỗi mẫu cần có độ dài hợp lý, tối thiểu là vài trang. - Ưu tiên lấy mẫu văn bản viết đầy đủ, không bị mất mát thông tin để đảm bảo kết quả nghiên cứu về sau có thể rút trích được hết nội dung, ý nghĩa cũng như đặc điểm ngôn ngữ nằm trong mẫu. - Mẫu văn bản lựa chọn từ các nguồn do nhiều tác giả viết cần có sự thống nhất về chủ đề, phong cách giữa các tác giả. Đối với một quyển sách được viết bởi nhiều tác giả (hình thức viết cộng tác), trong sách sẽ không có thông tin về phần nào được tác giả nào viết, vì thế chúng ta nên lựa chọn các tác giả có cùng phong cách viết. Đối với một quyển sách gồm nhiều tác phẩm của nhiều tác giả, cần lựa các sách có các tác phẩm cùng chủ đề. Ngoài ra còn có thể lấy mẫu các thể loại văn bản viết khác như: mẫu quảng cáo, bài viết trên báo hoặc tạp chí, thơ, thư từ, kịch bản, bài luận,… Khi chọn mẫu văn bản nói chúng ta chúng ta nên phiên âm toàn bộ lời nói của người nói từ lúc bắt đầu đến lúc kết thúc trong ngữ cảnh đó: các đoạn phiên âm giao tiếp trực tiếp hàng ngày, trò chuyện qua điện thoại, bài giảng, phỏng vấn, tranh luận,… 3. Tính đại diện Trong quá trình xây dựng kho ngữ liệu, việc đảm bảo tính đại diện là một trong những thách thức lớn cho quá trình thu thập ngữ liệu. Theo Sinclair (2004): “Các nhà xây dựng kho ngữ liệu cần phải tạo ra những kho ngữ liệu càng mang tính đại diện cho ngôn ngữ mà chúng thể hiện càng tốt” [14]. Các bước quan trọng trong việc xác định tính đại diện của mẫu văn bản [14]: 1. Quyết định tiêu chí cấu trúc (structural criteria) để xây dựng kho ngữ liệu từ đó áp dụng để tạo khung sườn cho các bộ phận cấu thành nên kho ngữ liệu; 2. Mỗi bộ phận cấu thành cần rút ra một bản tóm tắt tổng thể các loại văn bản được tìm thấy ở đó, chỉ sử dụng các tiêu chí ngoài (external criteria); 3. Đặt các loại văn bản theo thứ tự ưu tiên, có tính đến tất cả các yếu tố mà ta nghĩ có thể làm tăng hoặc giảm tầm quan trọng của loại văn bản; 4. Ước tính mục tiêu kích thước cho từng loại văn bản, liên quan với mục tiêu kích thước tổng thể của thành tố, số loại văn bản, tầm quan trọng của từng loại, tính thực tế của việc thu thập số lượng của từng loại;
Võ Diệp Như, Đinh Điền 29 5. Khi kho ngữ liệu hình thành, cần duy trì việc so sánh giữa kích thước thực tế của ngữ liệu và kế hoạch ban đầu; 6. Ghi lại các bước này để người dùng có thể có điểm tham chiếu. Bước 6 được xem là bước quan trọng nhất trong quá trình bởi vì khi xây dựng kho ngữ liệu, những người xây dựng thường xuất phát từ nhu cầu nghiên cứu của họ, hoặc những mục tiêu nghiên cứu phổ biến của cộng đồng. Nhưng khi kho ngữ liệu hình thành và chia sẻ, chúng ta không thể dự đoán được cộng đồng sử dụng kho ngữ liệu này cho những mục tiêu nghiên cứu nào, sẽ có những nghiên cứu mà kết quả rút trích từ kho ngữ liệu này bất thường, người nghiên cứu có thể tra cứu lại các thông tin khi lấy mẫu, kiến trúc tiêu chí hoặc việc lựa chọn văn bản trong kho ngữ liệu, để tìm hiểu nguyên nhân dẫn đến kết quả đó trước khi kết luật kết quả nghiên cứu là đúng hay sai. 4. Tính cân bằng Khái niệm về sự cân bằng thậm chí còn mơ hồ hơn tính đại diện, trên thực tế nhiều kho ngữ liệu chung hiện nay sẽ bị mất cân bằng vì không có đủ ngôn ngữ nói. Ngoài việc thu thập những mẫu ngữ liệu theo dạng thức và thể loại của văn bản như đã đề cập ở mục 1 một cách cân bằng, chúng ta còn phải xét đến các yếu tố [14]: - Xét về người sản xuất và tiếp nhận văn bản, cần đảm bảo sự cân bằng giữa các yếu tố xã hội của tác giả: giới tính, tuổi, địa vị xã hội,…; giữa các đối tượng tiếp nhận văn bản: công chúng, nhóm người, mức độ trang trọng,... - Xét về nội dung văn bản: phổ thông đại chúng, tổng quát hay chuyên ngành. Ví dụ: tài liệu chuyên ngành: nhân văn, khoa học kỹ thuật, pháp luật, giáo dục, kinh tế,...; các văn bản thường thức phổ thông: y tế, khoa học tự nhiên,... - Xét về thời gian xuất bản/sản xuất văn bản (niên đại) để đảm bảo sự xuất hiện các từ trên một phổ thời gian đủ lớn. - Xét về vùng miền, địa phương: nơi văn bản viết ra đời/xuất bản, nơi văn bản nói được nói ra để đảm bảo tỉ lệ hợp lý giữa các từ phổ thông và từ địa phương, giữa các phương ngữ theo vùng miền. 5. Chủ đề Rất khó xác định được số lượng chủ đề khi thu thập ngữ liệu. Tuy nhiên, có thể dựa vào những danh sách chủ đề phổ biến để định hướng lấy mẫu ngữ liệu [3] và dựa trên điều kiện thu thập ngữ liệu trong thực tế để lên kế hoạch lựa chọn chủ đề phù hợp. Một tiêu chí có thể bao hàm nhiều chủ đề. Nhiều tiêu chí có thể giao nhau ở một số chủ đề. Ví dụ: khi lựa chọn văn bản cho VnC 1.0, chúng tôi lấy mẫu theo dạng thức văn bản viết theo lĩnh vực văn bản là hàn lâm, chúng tôi quan tâm đến các chủ đề về nhân văn, y học, khoa học tự nhiên, giáo dục, pháp luật, chính trị, khoa học xã hội, kỹ thuật, tin học, công nghệ. 6. Kích thước kho ngữ liệu Trên thực tế, không có kích thước tối đa cho kho ngữ liệu, tuy nhiên, có một sự đánh đổi trong việc lựa chọn các tiêu chí hình thành các thành tố để xây dựng kho ngữ liệu giữa số lượng các thành tố và kích thước kho ngữ liệu. Nếu lựa chọn quá ít tiêu chí, kho ngữ liệu không thể đảm bảo được tính đại diện và cân bằng, ngược lại việc lựa chọn quá nhiều tiêu chí, xác định nhiều thành tố dẫn đến việc kích thước kho ngữ liệu rất lớn, vì các thành tố phải được đại diện bởi một số lượng đủ lớn các văn bản để các đặc điểm của nó trở thành dấu hiệu (evident) của ngôn ngữ thực. Nếu kích thước kho ngữ liệu lớn thì các kết quả thống kê không lệch nhiều so với thực tế. Như vậy, để tiết kiệm thời gian cũng như chi phí bỏ ra khi xây dựng kho ngữ liệu, cần xác định, định hướng kích thước tối thiểu của kho ngữ liệu, thường phụ thuộc vào: định hướng nghiên cứu và khai thác kho ngữ liệu của người dùng theo mục đích ban đầu khi xây dựng kho ngữ liệu hay dự kiến các nghiên cứu trong tương lai (ví dụ: khai thác danh sách từ loại, tần số từ phục vụ cho việc giảng dạy ngôn ngữ); phương pháp họ sử dụng để nghiên cứu ngữ liệu. Cạnh đó, sau một khoảng thời gian, cần bổ sung ngữ liệu để đáp ứng nhu cầu nghiên cứu mới. [14] 7. Tính đồng nhất Khi lựa chọn mẫu văn bản, cần lưu ý lựa chọn những văn bản phổ biến của thể loại và lĩnh vực đó, đảm bảo được độ bao phủ, không lựa chọn những văn bản quá đặc biệt để đảm bảo tính đồng nhất. Cụ thể là khi chúng tôi lấy mẫu văn bản về thể loại báo thể thao, có những văn bản chỉ đưa ra kết quả các trận đấu bóng đá, điều này vô tình làm sai lệch thông tin ngôn ngữ mà chúng tôi muốn hướng đến khi thu thập. Trên thực tế, báo thể thao sẽ chứa những từ phổ biến theo chủ đề này như: trận đấu, trọng tài, vận động viên,… Khi vô tình thu thập nhiều mẫu văn bản chỉ đưa kết quả trận bóng đá, thông tin ngôn ngữ mà chúng ta rút trích được từ thể loại văn bản này sẽ đưa ra những kết luận sai lệch như trong văn bản báo thể thao thì tần số danh từ số lượng cao nhất. B. Tiêu chí ngoài, tiêu chí trong khi thu thập ngữ liệu Tiêu chí ngoài (external criteria) là những tiêu chí phi ngôn ngữ, liên quan đến chức năng giao tiếp của văn bản. Có thể xác định được mà không cần đọc văn bản, không đưa ra được đánh giá về mặt ngôn ngữ nào. Ví dụ: giới tính, độ tuổi, nghề nghiệp tác giả, ngữ cảnh,.... Trong khi đó, tiêu chí trong (internal criteria) là những tiêu chí cơ bản về ngôn ngữ: từ vựng, cú pháp,… Nếu một kho ngữ liệu chỉ được thu thập dựa trên tiêu chí ngoài sẽ có khả năng làm mất mát thông tin về sự khác biệt giữa các văn bản, tính chất ngôn ngữ. Ngược lại chỉ thu thập ngữ liệu dựa trên tiêu chí trong sẽ làm mất mát thông
30 CÁC TIÊU CHÍ NGÔN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT tin về mối quan hệ giữa ngôn ngữ và ngữ cảnh. Tuy nhiên, khi bắt đầu xây dựng kho ngữ liệu, có thể lựa chọn mẫu theo tiêu chí ngoài là chủ yếu [16]. Trong giai đoạn phát triển kho ngữ liệu, những tiêu chí trong có thể được xét đến để tăng giá trị cho kho ngữ liệu, hoặc trong một số trường hợp xây dựng kho ngữ liệu cho những nghiên cứu cụ thể, các tiêu chí trong sẽ được chọn để thu thập ngữ liệu. Ở giai đoạn thu thập ngữ liệu cho việc xây dựng kho ngữ liệu VnC 1.0 chúng tôi lựa chọn mẫu ngữ liệu dựa trên các tiêu chí ngoài và đảm bảo các tiêu chí chung. Cụ thể đối với từng loại văn bản được thể hiện ở bảng 2. Những tiêu chí ngoài khi thu thập ngữ liệu sẽ đặc trưng theo dạng thức văn bản. Bảng 2. Các tiêu chí ngoài khi thu thập ngữ liệu trong quá trình xây dựng VnC 1.0 STT Loại văn bản Tiêu chí ngoài Các tiêu chí khi thu thập 1 Thu thập Loại văn bản Văn bản viết; Văn bản nói; Văn bản viết để nói: kịch bản văn bản viết Lĩnh vực của văn - Văn bản viết thông tin: tài liệu chuyên ngành, báo cáo, văn kiện, báo điện tử, bản luận văn, thường thức phổ thông. - Văn bản viết hư cấu: thơ, truyện ngắn/tiểu thuyết, tiểu sử tác giả, hồi ký. Số tác giả sáng tác Một tác giả; Nhiều tác giả; Nhiều tác giả cùng viết một tác phẩm văn bản Thể loại văn bản Sách; Báo điện tử; Báo cáo; Văn kiện Quốc hội; Các văn bản khác Giới tính tác giả - Nam/Nữ - Nhiều giới tính (trường hợp nhiều tác giả cùng viết một tác phẩm) - Không rõ giới tính (ví dụ bài viết trên báo điện tử) Kiểu lấy mẫu - Toàn văn bản (dùng chủ yếu khi thu thập bài viết trên báo điện tử) - Một phần văn bản (dùng chủ yếu dùng khi thu thập tiểu thuyết) - Không rõ 2 Thu thập Vùng/miền Bắc – Trung – Nam văn bản nói Kiểu giao tiếp Đối thoại – Độc thoại Ngữ cảnh Truyền đạt thông tin/Giáo dục; Kinh doanh; Bài phát biểu; Phỏng vấn; Sở thích giao tiếp IV. XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT Từ các tiêu chí ngôn ngữ đã trình bày ở trên, chúng tôi tiến hành lựa chọn các tiêu chí đơn giản, phù hợp và khả thi trong việc thu thập mẫu ngữ liệu để xây dựng kho ngữ liệt tiếng Việt VnC 1.0 (Vietnamese Corpus 1.0). Kho ngữ liệu này có kích thước 100 triệu từ bao gồm văn bản nói (khoảng 10 triệu từ) và văn bản viết (khoảng 90 triệu từ). Mục tiêu xây dựng kho ngữ liệu đơn ngữ tiếng Việt đủ lớn, phản ánh được đặc điểm sử dụng ngôn ngữ của người Việt Nam sống ở ba miền chủ yếu từ năm 2000 (90 %), các văn bản được viết/nói trước đó chiếm khoảng 10 %. A. Thống kê ngữ liệu văn bản Từ kho ngữ liệu đã xây dựng, sau đây là kết quả thu thập ngữ liệu văn bản trong kho ngữ liệu VnC: 1. Văn bản viết Dựa trên các tiêu chí đã xác định ở bảng 2, chúng tôi tiến hành thu thập ngữ liệu văn bản viết và chia thành 31 nhóm chính theo thể loại và lĩnh vực. Kết quả thu thập được thống kê trong bảng 3, ngữ liệu này đã được tiền xử lý và gán nhãn ranh giới từ tự động bằng công cụ gán nhãn ranh giới từ tiếng Việt do Trung tâm Ngôn ngữ học Tính toán xây dựng (CLC Toolkit) [6]. Trong điều kiện thực tế, việc thu thập các ngữ liệu văn bản viết khác vẫn còn hạn chế như lấy mẫu văn bản từ: báo địa phương, tạp chí, bài luận của học sinh phổ thông, thư từ cá nhân/công việc. Bảng 3. Kết quả thu thập ngữ liệu văn bản viết STT Thể loại văn bản viết theo các lĩnh vực Số văn bản Số từ Số câu Tỉ lệ từ (%) 1 Tài liệu chuyên ngành: nhân văn 24 85.985 4.013 0,10 2 Tài liệu chuyên ngành: y học 8 228.752 13.176 0,25 3 Tài liệu chuyên ngành: khoa học tự nhiên 17 316.649 13.308 0,35 4 Tài liệu chuyên ngành: giáo dục pháp luật chính trị 20 780.687 41.821 0,87 5 Tài liệu chuyên ngành: khoa học xã hội 8 279.886 14.701 0,31 6 Tài liệu chuyên ngành: kỹ thuật, tin học, công nghệ 9 94.859 4.702 0,11 7 Quy định 109 187.963 9.665 0,21 8 Quảng cáo 520 127.895 9.928 0,14 9 Tiểu sử/tự truyện 165 3.501.712 191.172 3,90 10 Kinh tế, tài chính 42 3.784.372 175.754 4,21
Võ Diệp Như, Đinh Điền 31 STT Thể loại văn bản viết theo các lĩnh vực Số văn bản Số từ Số câu Tỉ lệ từ (%) 11 Khoá luận đại học 6 53.755 2.514 0,06 12 Kịch bản kịch 17 11.186 1.328 0,01 13 Tập thơ của 1/nhiều tác giả 397 156.256 27.297 0,17 14 Tiểu thuyết và truyện ngắn 618 20.349.859 1.530.977 22,66 15 Văn kiện quốc hội 247 1.245.251 45.151 1,39 16 Báo cáo thường niên 59 265.242 17.065 0,30 17 Văn bản hướng dẫn/DIY 857 479.771 24.973 0,53 18 Văn bản khác 91.236 34.878.628 1.952.804 38,84 19 Báo quốc gia: tài liệu văn hoá/nghệ thuật 4.536 2.092.885 110.985 2,33 20 Báo quốc gia: thương mại và tài chính 8.136 2.436.608 210.252 2,71 21 Báo quốc gia: cá nhân/biên tập thể chế/thư ngỏ 1.238 645.685 33.563 0,72 22 Báo quốc gia: tài liệu khác 8.883 5.712.911 462.701 6,36 23 Báo quốc gia: phóng sự tin tức trong & ngoài nước 7.422 3.942.901 200.052 4,39 24 Báo quốc gia: tài liệu khoa học 939 400.075 20.722 0,45 25 Báo quốc gia: tài liệu về suy nghĩ, lối sống và niềm tin 1.058 518.349 29.102 0,58 26 Báo quốc gia: tài liệu thể thao 4.666 1.715.152 100.711 1,91 27 Thường thức, phổ thông: vấn đề y tế, sức khoẻ 8.232 3.111.866 165.463 3,47 28 Thường thức, phổ thông: giáo dục pháp luật chính trị 780 297.435 14.749 0,33 29 Thường thức, phổ thông: khoa học xã hội 1.872 763.994 46.431 0,85 30 Thường thức, phổ thông: kỹ thuật, tin học, công nghệ 1.013 387.814 23.741 0,43 31 Văn bản tôn giáo 10 936.569 58.509 1,04 2. Văn bản nói Đối với ngữ liệu văn bản nói, chúng tôi tiến hành thu thập mẫu ngữ liệu từ các video/audio giao tiếp trong thực tế theo các thể loại. Kết quả thu thập ngữ liệu văn bản nói sau chúng tôi khi tiến hành phiên âm, tiền xử lý và gán nhãn ranh giới từ được thể hiện như bảng 4. Khi phiên âm văn bản nói theo vùng miền, chúng tôi phân công người phiên âm là người địa phương theo miền để tăng tính chính xác khi phiên âm, cũng như không bị mất mát thông tin về phương ngữ khi phiên âm. Đó cũng là một trong những khó khăn của chúng tôi khi số lượng và kích thước mẫu văn bản nói tại miền Trung được phiên âm hiện tại vẫn còn hạn chế (chiếm 0,001 % trên tổng thể kích thước văn bản nói). Bảng 4. Kết quả thu thập ngữ liệu văn bản nói STT Thể loại văn bản nói Số văn bản Số từ Số câu Tỉ lệ từ (%) 1 Đối thoại - Độc thoại Bắc 582 1,458,930 231,576 0.14 2 Đối thoại - Độc thoại Trung 13 6,930 1,005 0.00 3 Đối thoại - Độc thoại Nam 694 2,542,896 358,154 0.25 4 Đối thoại (không phân biệt Bắc - Trung - Nam) 1,495 5,427,581 935,790 0.54 5 Chương trình truyền hình 118 59,5734 71,775 0.06 6 Phát biểu trong phiên họp Quốc hội 6 98,235 3,882 0.01 V. KẾT LUẬN Chúng tôi đã trình bày các tiêu chí lấy mẫu ngôn ngữ trong quá trình xây dựng kho ngữ liệu sao cho kho ngữ liệu có thể đại điện được cho cộng đồng sử dụng ngôn ngữ này, và các mẫu ngôn ngữ được cân bằng. Dựa trên các tiêu chí lấy mẫu, kho ngữ liệu mới thật sự có giá trị cao về mặt ngôn ngữ, có thể đại diện cho ngôn ngữ, là nguồn ngữ liệu phục vụ cho các nghiên cứu và khai thác giải quyết các bài toán trong thực tế, tăng độ chính xác cho các mô hình huấn luyện, … Kết quả thực nghiệm khi áp dụng các tiêu chí này vào xây dựng kho ngữ liệu thực tế của phiên bản đầu tiên (VnC 1.0), kho ngữ liệu bao gồm văn bản nói và văn bản viết. Mỗi dạng thức văn bản đều thu thập theo các tiêu chí ngoài, và bao gồm nhiều thể loại, lĩnh vực, ngữ cảnh trong cộng đồng người Việt Nam sử dụng tiếng Việt trong nước chủ yếu từ năm 2000 đến nay. VI. HƯỚNG PHÁT TRIỂN Chúng tôi đã áp dụng và lựa chọn các tiêu chí ngôn ngữ trong việc xây dựng kho ngữ liệu tiếng Việt cân bằng, có thể mang tính đại diện. Trong tương lai, chúng tôi sẽ tiếp tục cập nhật các mẫu văn bản theo thể loại đã có và đồng thời thu thập thêm các lại văn bản nói (các chương trình thảo luận, tư vấn, phim tài liệu, tin tức, bài giảng, các tranh luận, các cuộc họp), cũng như văn bản viết (báo địa phương, tạp chí, bài luận của học sinh phổ thông, thư từ cá nhân/công việc) để tiếp tục tăng tính cân bằng, kích thước của kho ngữ liệu và tính đại diện.
32 CÁC TIÊU CHÍ NGÔN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT TÀI LIỆU THAM KHẢO [1] Adam Przepiórkowski, Rafał L. Górski, Barbara Lewandowska-Tomaszczyk, Marek Łazi´nski, “Towards the National Corpus of Polish”, In Proceedings of the 6th International Conference on Language Resources and Evaluation, 2018. [2] Dieu-Thu Le, Uwe Quasthoff, “Construction and Analysis of a Large Vietnamese Text Corpus”, In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16), pp 412–416, 2016. [3] Đinh Điền, Ngôn ngữ học ngữ liệu, Nxb ĐHQG Tp. HCM, Tp. HCM, 2018. [4] Douglas Biber, “Representativeness in: Corpus Design”, In: Zampolli A., Calzolari N., Palmer M. (eds) Current Issues in Computational Linguistics: In Honour of Don Walker. Linguistica Computazionale, Vol 9. Springer, Dordrecht, 1994. [5] http://www.anc.org/ (truy cập ngày 25/04/2020) [6] http://www.clc.hcmus.edu.vn/?page_id=471&lang=en (truy cập ngày 23/1/2020) [7] http://www.vietlex.com/help/about_corpus.htm (truy cập ngày 17/06/2020) [8] https://www.korpus.cz/ (truy cập ngày 18/05/2020) [9] https://www.lancaster.ac.uk/fass/projects/corpus/cbls/corpora.asp#_Toc92298862 (truy cập ngày 18/05/2020) [10] John Sinclair, Corpus Concordance Collocation, Oxford University Press, 1991. [11] Keh-Jiann Chen, Chu-Ren Huang, Li-Ping Chang, Hui-Li Hsu, “SINICA CORPUS: Design Methodology for Balanced Corpora”, In Proceedings of the 11th Pacific Asia Conference on Language, Information and Computation, pp. 167-176, 1996. [12] Lou Burnard, Reference Guide for the British National Corpus (XML Edition), http://www.natcorp.ox.ac.uk/docs/URG/, 2007. [13] Luke Gessler, Siyao Peng, Yang Liu, Yilun Zhu, Shabnam Behzad, Amir Zeldes, “AMALGUM - A Free, Balanced, Multilayer English Web Corpus”, In Proceedings of The 12th Language Resources and Evaluation Conference, pp. 5267-5275, 2020. [14] Martin Wynne, Developing Linguistic Corpora : a Guide to Good Practice, Oxbow Books, 2005. [15] Nguyen Phuong-Thai, Vu Xuan-Luong, Nguyen Thi-Minh-Huyen and Nguyen Van-Hiep and Le Hong-Phuong, “Building a Large Syntactically-Annotated Corpus of Vietnamese”. In Proceedings of the Third Linguistic Annotation Workshop, Association for Computational Linguistics, pp. 182-185, 2009. [16] Sue Atkins, Jeremy Clear and Nicholas Ostler, “Corpus Design Criteria”, Literary and Linguistic Computing, Vol 7, No. 1, pp. 1-16, 1992. LANGUAGE SAMPLING CRITERIA FOR VIETNAMESE CORPUS CONSTRUCTION Vo Diep Nhu, Dinh Dien ABSTRACT: In the field of Natural Language Processing (NLP), the use of machine learning models to help solve problems is more dominant. However, to get good results, satisfactory corpus (training data) that is representative of the language is required. Therefore, the corpus must be ensured to be representative and balanced, specifically, to sample a language of appropriate size according to the criteria when building the corpus. In this paper, we present linguistic sampling criteria in building a balanced corpus including text selection, representativeness, balance, topic, size, and homogeneity. We apply these criteria to building a Vietnamese corpus (Vietnamese Corpus 1.0 - VnC 1.0) with the size of 100 million words, including 10 % of spoken text and 90 % of written documents are collected mainly from the year 2000 to present.