Quá trình xây dựng VnC 1.0
-
Bài viết trình bày các tiêu chí lấy mẫu ngôn ngữ trong việc xây dựng kho ngữ liệu cân bằng bao gồm: Lựa chọn văn bản, tính đại diện, tính cân bằng, chủ đề, kích thước và tính đồng nhất. Chúng tôi áp dụng các tiêu chí này vào việc xây dựng kho ngữ liệu tiếng Việt (Vietnamese Corpus 1.0 – VnC 1.0) với kích thước 100 triệu từ bao gồm 10 % văn bản nói và 90 % văn bản viết được thu thập chủ yếu từ năm 2000 đến nay.
7p vijihyo2711 25-09-2021 20 2 Download