Đánh giá độ khó của văn bản tiếng Việt sử dụng mô hình tiền huấn luyện kết hợp với các đặc trưng ngôn ngữ

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

44
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nội dung của bài viết này được trình bày theo bố cục như sau: Phần I giới thiệu chung. Phần II giới thiệu các công trình liên quan đến đánh giá độ khó văn bản. Phần III trình bày các phương pháp chúng tôi đề xuất. Phần IV nói về cách thu thập ngữ liệu. Phần V là thực nghiệm và kết quả. Cuối cùng phần VI kết luận lại vấn đề và hướng đi trong tương lai.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Đánh giá độ khó của văn bản tiếng Việt sử dụng mô hình tiền huấn luyện kết hợp với các đặc trưng ngôn ngữ

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0090 ĐÁNH GIÁ ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TIỀN HUẤN LUYỆN KẾT HỢP VỚI CÁC ĐẶC TRƯNG NGÔN NGỮ Lương An Vinh1,2,3, Phan Thanh Quan1,2, Huỳnh Trọng Hùng1,2 1 Trung tâm Ngôn ngữ học Tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia TP. Hồ Chí Minh 2 Đại học Quốc gia TP. Hồ Chí Minh 3 Đại học Công nghệ Sài Gòn anvinhluong@gmail.com, 1712686@student.hcmus.edu.vn, 1712471@student.hcmus.edu.vn TÓM TẮT: Đánh giá độ khó của văn bản là bài toán xác định mức độ phù hợp của văn bản với khả năng đọc hiểu của một nhóm đối tượng người đọc. Vì vậy việc xác định được độ khó của văn bản có ảnh hưởng lớn đến việc lựa chọn các văn bản phù hợp với lứa tuổi, trình độ của độc giả cũng như việc soạn thảo các bài giảng trong sách giáo khoa sao cho phù hợp trình độ học sinh. Đã có nhiều nghiên cứu đạt thành tựu về đánh giá độ khó của văn bản trong tiếng Anh và một số ngôn ngữ phổ biến khác. Tuy nhiên, trong tiếng Việt, việc nghiên cứu độ khó văn bản còn mới mẻ và chủ yếu tập trung vào việc tìm hiểu những đặc trưng ngôn ngữ bằng các mô hình học máy thống kê. Trong nghiên cứu này, chúng tôi muốn áp dụng một phương pháp tiếp cận mới, đó là sử dụng mô hình học sâu tiền huấn luyện kết hợp với một số đặc trưng ngôn ngữ tiếng Việt. Mô hình học sâu chúng tôi dùng là BERT và RoBERTa, sử dụng mô hình tiền huấn luyện có sẵn của PhoBERT, kết quả thu được sẽ được dùng để tiếp tục huấn luyện. Các đặc trưng ngôn ngữ như số lượng câu, từ, ký tự, độ dài trung bình của câu, tỷ lệ từ địa phương,… sẽ được thêm vào mô hình trước khi cho ra kết quả phân lớp. Thực nghiệm đánh giá trên bộ ngữ liệu được thu thập từ sách giáo khoa Văn học, Sinh học và Giáo dục công dân của học sinh Việt Nam. Kết quả của phương pháp mới cho thấy mô hình dự đoán đạt độ chính xác cao và có sự cải tiến so với các mô hình học máy thống kê. Tuy nhiên việc thêm vào các đặc trưng ngôn ngữ không hoàn toàn làm tăng hiệu suất của mô hình. Từ khóa: Độ khó văn bản, mô hình học sâu, đặc trưng ngôn ngữ, tiếng Việt. I. GIỚI THIỆU Ngày nay, trong kỷ nguyên bùng nổ của công nghệ thông tin, có rất nhiều văn bản và tài liệu được tạo ra mỗi giây. Tuy nhiên, không phải văn bản nào cũng phù hợp để đọc với mỗi người. Việc lựa chọn ra một văn bản, một cuốn sách phù hợp với trình độ hiểu biết của người đọc là một vấn đề cần được quan tâm. Từ cuối thế kỷ XIX, các nhà nghiên cứu đã tìm cách để phân loại các văn bản theo độ khó, theo số năm học mà một người cần có để có thể hiểu được văn bản. Theo Harry McLaughlin (1969), định nghĩa độ khó văn bản là “mức độ mà một nhóm người nhất định cảm thấy việc đọc văn bản đó hấp dẫn và dễ hiểu” [1]. Định nghĩa này nhấn mạnh mối quan hệ giữa văn bản (độ phức tạp của từ vựng, cú pháp, ngữ nghĩa) và người đọc (kỹ năng đọc, kiến thức nền tảng, động lực) trong việc xác định độ khó văn bản. Trên thực tế, đánh giá độ khó văn bản có nhiều ứng dụng trong các lĩnh vực khác nhau. Một văn bản càng dễ đọc và nội dung rõ ràng thì càng có nhiều khả năng thu hút và giữ được sự hứng thú của người đọc. Ngược lại, văn bản khó đọc làm người đọc mất đi tính kiên nhẫn và động lực để tiếp tục. Trong giáo dục, độ khó văn bản giúp biên soạn bài giảng, sách giáo khoa, đề thi sao cho tương đương với trình độ học sinh từng khối. Trong công nghiệp, nó được dùng để viết hướng dẫn sử dụng trên sản phẩm để phù hợp với mức độ đọc hiểu trung bình của người dùng. Các văn bản luật, Hiến pháp, các biểu mẫu, công văn, quy định phải được viết sao cho có thể truyền bá thông tin rộng rãi đến tất cả người dân, đặc biệt là những người có trình độ văn hóa thấp và hạn chế về khả năng đọc viết. Nhiều doanh nghiệp sử dụng độ khó văn bản cho các ứng dụng web và hệ thống truy xuất thông tin để ưu tiên hiển thị các trang kết quả phù hợp với khả năng đọc của người dùng. Những nghiên cứu về độ khó văn bản phần lớn tập trung vào tiếng Anh và các ngôn ngữ có nhiều ngữ liệu khác như tiếng Trung Quốc, tiếng Nhật Bản, tiếng Ả Rập,… Các nghiên cứu chủ yếu chia làm ba phương hướng chính: hướng thống kê truyền thống, hướng học máy và hướng học sâu sử dụng mạng nơron nhân tạo. Phương pháp thống kê truyền thống tìm mối quan hệ giữa các đặc trưng ngôn ngữ và độ khó văn bản bằng thống kê tương quan và hồi quy. Từ đó tìm ra các đặc trưng có ảnh hưởng cao nhất rồi thiết lập công thức tính độ khó. Các nghiên cứu theo phương pháp này gồm có công thức SMOG [2], công thức Flesch-Kincaid [3], công thức Dale-Chall [4] cùng một số khác. Trong khi đó, hướng tiếp cận học máy sử dụng các đặc trưng ngôn ngữ để huấn luyện mô hình phân lớp và mô hình này có thể dự đoán độ khó của văn bản. Một số công trình nghiên cứu thuộc hướng này như của Aluisio và cộng sự [5], Sinha và Basu [6], Chen và Daowadung [7]. Cách tiếp cận theo phương pháp học sâu vẫn còn mới mẻ, bằng cách huấn luyện mô hình trên tập dữ liệu lớn, mô hình sẽ tự tìm ra mối liên hệ giữa văn bản và độ khó tương ứng thông qua mạng nơron nhân tạo phức tạp. Đại diện cho hướng này gồm có công trình của Sun và cộng sự [8], Martinc và cộng sự [9], Deutsch và cộng sự [10] và một số nghiên cứu khác. Trong tiếng Việt, việc nghiên cứu độ khó văn bản vẫn còn hạn chế. Năm 1982 và 1985, Nguyen và Henkin [11, 18] đề xuất công thức để đánh giá độ khó văn bản tiếng Việt. Đến năm 2018, Luong và cộng sự [12] tạo ra một công thức mới có độ chính xác cao hơn. Theo hướng học máy, Luong và cộng sự [13] cho thấy đặc trưng độ dài văn bản có ảnh hưởng đến độ khó văn bản. Luong và cộng sự [14] cũng chỉ ra rằng đặc trưng từ loại làm cải thiện kết quả đánh giá.
Phan Thanh Quan, Huỳnh Trọng Hùng, Lương An Vinh 463 Với sự phát triển của công nghệ, các mô hình học sâu đã chứng minh được nhiều thành tựu trong các tác vụ xử lý ngôn ngữ tự nhiên. Tuy nhiên, chưa có nghiên cứu công bố nào sử dụng học sâu để đánh giá độ khó văn bản tiếng Việt. Phần lớn là do sự thiếu hụt nguồn ngữ liệu được gán nhãn để huấn luyện các mô hình. Vì vậy, trong nghiên cứu này, chúng tôi xây dựng thêm hai bộ ngữ liệu lấy từ sách giáo khoa Sinh học và Giáo dục công dân, cùng với bộ ngữ liệu Văn học sẵn có để tiến hành thực nghiệm trên mô hình học sâu. Đồng thời, kế thừa những thành tựu của các nghiên cứu đi trước, chúng tôi kết hợp mô hình học sâu với các đặc trưng ngôn ngữ để kiểm tra xem việc kết hợp đó có làm tăng hiệu suất hay không. Nội dung của bài báo này được trình bày theo bố cục như sau: Phần I giới thiệu chung. Phần II giới thiệu các công trình liên quan đến đánh giá độ khó văn bản. Phần III trình bày các phương pháp chúng tôi đề xuất. Phần IV nói về cách thu thập ngữ liệu. Phần V là thực nghiệm và kết quả. Cuối cùng phần VI kết luận lại vấn đề và hướng đi trong tương lai. II. CÁC CÔNG TRÌNH LIÊN QUAN Trong phần này, chúng tôi sẽ giới thiệu các công trình nghiên cứu về đánh giá độ khó văn bản trên thế giới cũng như trong tiếng Việt. Như đã nói ở phần I, đánh giá độ khó văn bản có thể được chia làm ba cách tiếp cận: (1) hướng thống kê truyền thống, (2) hướng học máy và (3) hướng học sâu. Các nghiên cứu theo hướng thống kê truyền thống xây dựng nên các công thức để đánh giá độ khó văn bản từ các đặc trưng ngôn ngữ. Các đặc trưng này chủ yếu ở mức nông như tần suất từ, độ dài câu,… Chúng được chọn lọc thông qua các thống kê tương quan và hồi quy. Có nhiều công trình nghiên cứu theo hướng này, điển hình như công thức Dale-Chall [4], Flesch-Kincaid [3], Gunning Fog [15], McLaughlin Smog [2]. Trong tiếng Nga có nghiên cứu của Solnyshkina và cộng sự [16], và nghiên cứu của Soh [17] trong tiếng Trung Quốc. Đối với tiếng Việt, có thể kể đến nghiên cứu của Nguyen và Henkin [11] năm 1982, Nguyen và Henkin [18] năm 1985. Đến năm 2018, Luong và cộng sự [12] tạo ra công thức mới đánh giá độ khó văn bản tiếng Việt dựa trên các đặc trưng độ dài trung bình của câu, độ dài trung bình của từ và tỷ lệ các từ khó. Hướng tiếp cận học máy cũng sử dụng các đặc trưng ngôn ngữ, nhưng sâu hơn về mặt cú pháp và ngữ nghĩa. Các mô hình học máy như hồi quy tuyến tính, Support Vector Machine (SVM) được dùng để phân lớp các văn bản theo độ khó. Một số nghiên cứu đáng chú ý theo phương pháp này gồm có Aluisio và cộng sự [5] đánh giá độ khó văn bản bằng tiếng Bồ Đào Nha ở Braxin, Sinha và Basu [6] trong tiếng Bengal, Chen và Daowadung [7] trong tiếng Thái. Trong tiếng Việt, những năm gần đây chỉ có các công trình sau: Luong và cộng sự [13] dùng mô hình SVM để kiểm chứng đặc trưng độ dài văn bản có ảnh hưởng đến độ khó văn bản tiếng Việt trong sách giáo khoa Văn học của học sinh tiểu học và trung học. Luong và cộng sự [19] thực nghiệm trên tập ngữ liệu gồm 371 văn bản lấy từ sách giáo khoa Văn học từ lớp 2 đến lớp 12, cho thấy các đặc trưng từ loại và các đặc trưng đặc biệt của tiếng Việt như tỷ lệ từ Hán Việt, tỷ lệ từ địa phương làm tăng hiệu năng mô hình. Luong và cộng sự [14] dùng nhiều mô hình học máy như cây quyết định, K láng giềng gần nhất, SVM để cho thấy đặc trưng từ loại ảnh hưởng lên kết quả phân lớp. Thêm vào đó, Luong và cộng sự [20] còn trích ra 271 đặc trưng nhiều cấp độ từ từ vựng, từ loại, cú pháp đến ngữ nghĩa để đánh giá độ khó văn bản tiếng Việt. Cách tiếp cận cuối cùng và cũng là mới nhất là phương pháp học sâu sử dụng mạng nơron nhân tạo. Các mô hình học sâu như Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Hierarchical Attention Network (HAN) được huấn luyện trên tập dữ liệu lớn để dự đoán độ khó văn bản. Một vài nghiên cứu dùng mô hình học sâu như là công trình của Sun và cộng sự [8] dùng mạng RNN, Martinc và cộng sự [9] sử dụng nhiều mô hình học sâu có giám sát và không có giám sát để xác định độ khó, Deutsch và cộng sự [10] dùng mô hình học sâu kết hợp với các đặc trưng ngôn ngữ. Trong tiếng Việt, đến thời điểm bây giờ vẫn chưa có nghiên cứu nào sử dụng phương pháp này. III. PHƯƠNG PHÁP Trong phần này, chúng tôi trình bày những phương pháp thiết kế mô hình để giải quyết bài toán đánh giá độ khó văn bản tiếng Việt. Mô hình BERT (Bidirectional Encoder Representations from Transformers) [21], tạm dịch là mô hình mã hóa biểu diễn hai chiều ứng dụng Transformers, là mô hình ngôn ngữ được thiết kế để tiền huấn luyện biểu diễn hai chiều của từ bằng cách điều chỉnh kết hợp cả ngữ cảnh bên trái và bên phải trong tất cả các tầng. Điều này làm nên sự khác biệt của BERT so với các mô hình biểu diễn ngôn ngữ trước đó như GPT [22] chỉ sử dụng ngữ cảnh một chiều hay ELMo [23] sử dụng liên kết nông giữa hai ngữ cảnh một chiều. Kết quả là BERT đạt được kết quả vượt trội hơn và trở thành ngôi sao sáng trong lĩnh vực xử lý ngôn ngữ tự nhiên những năm gần đây. BERT và các cải tiến của BERT đã liên tiếp đạt các kết quả tân tiến nhất trong nhiều tác vụ như hỏi đáp, dự đoán câu tiếp theo,… Có hai chiến thuật để áp dụng tiền huấn luyện biểu diễn ngôn ngữ lên các bài toán xử lý ngôn ngữ tự nhiên là feature-based (sử dụng các biểu diễn có được như các đặc trưng để huấn luyện trên một mô hình khác) và fine-tuning based (huấn luyện cho bài toán bằng việc tinh chỉnh các tham số từ tiền huấn luyện). BERT cho phép sử dụng cả hai chiến thuật trên, chúng tôi sẽ trình bày phương pháp tiếp cận có sử dụng BERT (hay biến thể của BERT như RoBERTa [24]) cùng với tiền huấn luyện PhoBERT [25] một cách linh hoạt.
464 ĐÁNH GIÁ ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TIỀN HUẤN LUYỆN KẾT HỢP VỚI… A. Phương pháp tiếp cận không tinh chỉnh tham số tiền huấn luyện BERT (BERT feature-based) BERT được tiền huấn luyện trên một lượng ngữ liệu lớn để hiểu được ngôn ngữ nói chung và tạo ra những biểu diễn mang ngữ cảnh hai chiều nên có căn cứ để tin rằng vector biểu diễn văn bản của BERT hiệu quả hơn các biểu diễn word embedding của mô hình không mang ngữ cảnh như word2vec [26]. Do đó trong cách tiếp cận này, chúng tôi dựa vào khả năng biểu diễn văn bản của mô hình tiền huấn luyện BERT để biến văn bản thành các vector đặc trưng, sau đó tiếp tục huấn luyện. Hình 1 mô tả kiến trúc mô hình theo hướng không tinh chỉnh tham số. Hình 1. Mô hình huấn luyện theo phương pháp tiếp cận không tinh chỉnh tham số tiền huấn luyện BERT Vì hạn chế của BERT không thể biểu diễn các văn bản dài được nên văn bản được chia thành các đoạn nhỏ hơn (1). Chuyển văn bản thành dạng token (phụ thuộc vào mô hình tiền huấn luyện) rồi chia thành các vector 256 tokens (đã tính token [CLS] và [SEP]) hoặc chia thành các câu rồi chuyển mỗi câu thành vector 100 tokens (thêm token đệm nếu không đủ 100 tokens). Bước tiếp theo là đưa các vector qua mô hình BERT đã khởi tạo tham số từ tiền huấn luyện PhoBERTBASE [25] để lấy được các vector đặc trưng (2). Sau đó lấy trung bình các vector này tạo thành một vector đặc trưng duy nhất biểu diễn văn bản (3). Chúng tôi đã quyết định giảm chiều bằng lớp Dense, sau đó có thể nối thêm vector đặc trưng ngôn ngữ (4) như số lượng câu, từ, ký tự, độ dài câu, tỷ lệ từ địa phương,… Cuối cùng là tầng Dense và lớp Softmax để cho ra kết quả phân lớp. B. Phương pháp tiếp cận có tinh chỉnh tham số tiền huấn luyện BERT (BERT fine-tuning) Hình 2. Mô hình huấn luyện theo phương pháp tiếp cận có tinh chỉnh tham số tiền huấn luyện BERT BERT cho phép tinh chỉnh bộ tham số của mô hình tiền huấn luyện cho các tác vụ downstream. Do đặc tính của ngữ liệu khảo sát trên văn bản dài, có khá nhiều mẫu có độ dài vượt quá ngưỡng đầu vào của BERT. Thường thì chiến thuật để giải quyết vấn đề này là cắt bớt văn bản, kết quả là chỉ giữ phần đầu, giữa hoặc cuối của văn bản, làm mất đi một phần ngữ liệu, không tận dụng được tối đa tiềm năng của ngữ liệu. Vẫn mong muốn giữ được nhiều ngữ liệu để cho vào quá trình tinh chỉnh mô hình nhất có thể, chúng tôi đã quyết định chia mỗi văn bản ra thành những đoạn nhỏ hơn giống với bước (1) phần III-A (mỗi đoạn văn bản mang nhãn của văn bản đó) sau đó đưa vào mô hình BERT đã thêm tầng phân lớp và khởi tạo sẵn tham số từ tiền huấn luyện PhoBERTBASE [25] để tinh chỉnh tham số cho bài toán
Phan Thanh Quan, Huỳnh Trọng Hùng, Lương An Vinh 465 phân lớp. Tuy nhiên kết quả phân lớp không được cao, do đó chúng tôi đã tiến hành lấy các vector biểu diễn có được từ mô hình đã tinh chỉnh để huấn luyện trên một mô hình phân lớp khác. Sau khi có được mô hình BERT đã tinh chỉnh (2), việc tiếp theo có thể hoàn thành giống như các bước của phương pháp BERT feature-based. Nhưng chúng tôi cảm thấy việc lấy trung bình có thể không được hiệu quả vì mất đi thứ tự của các đoạn trong văn bản nên đã thực hiện một ít sửa đổi. Thay vì lấy trung bình các vector embedding thì chúng tôi cho các vector theo đúng thứ tự trong văn bản đi vào một lớp LSTM và lấy kết quả của tầng cuối tiếp tục huấn luyện (3). Mục đích là giữ lại thông tin về thứ tự của các đoạn trong văn bản. Chúng tôi cũng khảo sát hiệu quả của việc có hay không thêm vector đặc trưng ngôn ngữ trích xuất từ ngữ liệu (4). Hình 2 mô tả kiến trúc mô hình theo hướng có tinh chỉnh tham số. IV. NGỮ LIỆU Bảng 1. Thống kê ngữ liệu trên bộ Văn học và Sinh học Ngữ liệu Văn học Sinh học Cấp độ Cấp 1 Cấp 2 Cấp 3 Tổng Cấp 1 Cấp 2 Cấp 3 Tổng thể thể Số văn bản 209 78 83 370 131 229 112 472 Số câu trung bình 20,77 69,47 99,08 48,61 12,53 32,10 55,38 32,19 Số từ trung bình 200,83 952,35 1484,33 647,18 123,60 402,17 769,77 412,08 Số âm tiết trung bình 232,62 1116,18 1833,31 777,96 155,10 517,22 1018,36 535,63 Số ký tự trung bình 760,46 3658,77 6072,02 2562,97 514,91 1731,68 3465,33 1805,35 Số từ phân biệt trung bình 126,57 389,69 523,84 271,16 69,37 175,50 249,65 163,64 Số âm tiết phân biệt trung bình 142,33 418,92 542,93 290,51 81,70 200,21 277,35 185,62 Độ dài trung bình của câu tính theo từ 10,25 16,51 16,34 12,93 9,86 12,46 14,08 12,13 Độ dài trung bình của câu tính theo âm 11,98 19,67 20,74 15,57 12,51 16,05 18,65 15,69 tiết Độ dài trung bình của câu tính theo ký tự 39,42 64,83 69,16 51,45 41,60 53,69 63,53 52,67 Tỷ lệ từ địa phương 0,0686 0,0560 0,0472 0,0611 0,0709 0,0588 0,0446 0,0588 Tỷ lệ từ địa phương phân biệt 0,0645 0,0587 0,0492 0,0599 0,0692 0,0598 0,0483 0,0597 Bảng 2. Thống kê ngữ liệu trên bộ Giáo dục công dân và Văn học mở rộng Ngữ liệu Giáo dục công dân Văn học mở rộng Cấp độ Cấp 1 Cấp 2 Cấp 3 Tổng Rất Dễ Trung Khó Tổng thể dễ bình thể Số văn bản 28 75 41 144 809 453 242 321 1825 Số câu trung bình 15,61 27,77 81,95 40,83 16,70 70,25 186,90 174,58 32,19 Số từ trung bình 148,07 369,13 1411,37 622,90 167,89 932,70 2485,65 4206,55 412,08 Số âm tiết trung bình 183,96 502,92 2101,95 896,18 191,92 1080,94 2905,83 5796,89 535,63 Số ký tự trung bình 601,68 1678,52 7110,05 3015,61 622,33 3535,24 9543,02 19950,24 1805,35 Số từ phân biệt trung bình 98,32 197,47 389,80 232,95 100,81 385,29 712,14 1029,38 163,64 Số âm tiết phân biệt trung 116,00 238,69 426,29 268,25 111,91 411,01 709,11 909,13 185,62 bình Độ dài trung bình của câu 9,80 13,73 17,04 13,91 10,63 14,25 14,65 24,70 12,13 tính theo từ Độ dài trung bình của câu 12,77 18,94 25,40 19,58 12,18 16,62 17,60 34,21 15,69 tính theo âm tiết Độ dài trung bình của câu 42,53 63,33 85,99 65,74 39,57 54,56 58,18 117,79 52,67 tính theo ký tự Tỷ lệ từ địa phương 0,0546 0,0410 0,0270 0,0397 0,0785 0,0627 0,0572 0,0386 0,0588 Tỷ lệ từ địa phương phân biệt 0,0480 0,0415 0,0308 0,0397 0,0688 0,0611 0,0551 0,0330 0,0597 Chúng tôi sử dụng lại bộ ngữ liệu trong nghiên cứu của Luong và cộng sự [19] bao gồm 370 văn bản lấy từ sách giáo khoa của học sinh tiểu học và sách Ngữ văn của học sinh trung học cấp hai và cấp ba, và 1825 văn bản văn học mở rộng được xây dựng từ nghiên cứu của Luong và cộng sự [27]. Chúng tôi còn xây dựng thêm hai bộ ngữ liệu để phục vụ nghiên cứu. Đó là bộ ngữ liệu sách giáo khoa Sinh học từ lớp 3 đến lớp 12 gồm 472 mẫu và sách giáo khoa Giáo dục công dân từ lớp 4 đến lớp 12 gồm 144 mẫu. Cách thu thập ngữ liệu giống như bước tiền xử lý của Luong và cộng sự [27]. Đầu tiên, chúng tôi lấy các văn bản trong sách giáo khoa đã được scan chuyển thành định dạng kỹ thuật số bằng công cụ OCR (Optical Character Recognition). Sau đó các văn bản được chỉnh sửa bằng tay, kiểm tra lỗi chính tả, chuẩn hóa dấu câu và tách câu. Bộ ngữ liệu Văn học mở rộng được chia làm bốn cấp độ rất dễ, dễ, trung bình và khó dưới sự đánh giá của các chuyên gia [27]. Còn bộ ngữ liệu sách giáo khoa Văn học, Sinh học và Giáo dục công dân được chia làm ba cấp độ
466 ĐÁNH GIÁ ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TIỀN HUẤN LUYỆN KẾT HỢP VỚI… theo khối tiểu học, trung học cơ sở và trung học phổ thông. Bảng 1 và Bảng 2 tóm tắt thông tin các bộ ngữ liệu với các đặc trưng ngôn ngữ được sử dụng trong mô hình. V. THỰC NGHIỆM Trong quá trình thực nghiệm thì mô hình RoBERTa cho kết quả cao hơn mô hình BERT nên chúng tôi quyết định sử dụng RoBERTa. Chúng tôi sử dụng tất cả 8 thực nghiệm dựa trên 2 mô hình đề xuất ở phần III như sau: (1) RoBERTa feature-based, văn bản chia thành các đoạn 256 tokens, không nối vector đặc trưng ngôn ngữ. (2) RoBERTa feature-based, văn bản chia thành các đoạn 256 tokens, có nối vector đặc trưng ngôn ngữ. (3) RoBERTa feature-based, văn bản chia thành các câu, không nối vector đặc trưng ngôn ngữ. (4) RoBERTa feature-based, văn bản chia thành các câu, có nối vector đặc trưng ngôn ngữ. (5) RoBERTa fine-tuning, văn bản chia thành các đoạn 256 tokens, không nối vector đặc trưng ngôn ngữ. (6) RoBERTa fine-tuning, văn bản chia thành các đoạn 256 tokens, có nối vector đặc trưng ngôn ngữ. (7) RoBERTa fine-tuning, văn bản chia thành các câu, không nối vector đặc trưng ngôn ngữ. (8) RoBERTa fine-tuning, văn bản chia thành các câu, có nối vector đặc trưng ngôn ngữ. Chúng tôi tiến hành huấn luyện 5 lần với ngữ liệu Văn học mở rộng, 10 lần với các tập ngữ liệu còn lại, tất cả ban đầu được xáo trộn, sau đó ngữ liệu được chia theo tỷ lệ 0,7:0,15:0,15 tương ứng với train:validation:test, sau đó lấy trung bình kết quả trên tập test. Như tác giả Nguyen và Nguyen của PhoBERT [25] yêu cầu tách từ đối với tiếng Việt trước khi chuyển từ dạng văn bản thành dạng token embedding, tuy nhiên trong quá trình thực nghiệm, chúng tôi nhận thấy khi không thực hiện tách từ, các kết quả đánh giá cao hơn so với khi có tách từ, do đó, ở bước 1 của Hình 1 và bước 1 của Hình 2, chúng tôi không thực hiện tách từ trước khi đưa vào BERT. Trong phương pháp có tinh chỉnh BERT chúng tôi tinh chỉnh 3 epochs với ngữ liệu Văn học mở rộng, 5 epochs với ngữ liệu còn lại; learning rate 2e-5; kích thước batch 32. Mô hình có độ chính xác cao nhất trên tập validation sẽ được giữ lại để tiến hành lấy vector embedding cho các bước huấn luyện tiếp theo. Vector biểu diễn văn bản trước khi nối với đặc trưng ngôn ngữ có số chiều là 32 (sau khi ra khỏi BERT thì có số chiều là 768), vector đặc trưng ngôn ngữ có chiều là 11. Các đặc trưng ngôn ngữ sử dụng bao gồm số câu, số từ, số âm tiết, số ký tự, số từ phân biệt, số âm tiết phân biệt, độ dài trung bình của câu tính theo từ, độ dài trung bình của câu tính theo âm tiết, độ dài trung bình của câu tính theo ký tự, tỷ lệ từ địa phương, tỷ lệ từ địa phương phân biệt. Các đặc trưng này được chọn lọc từ các nghiên cứu của Luong và cộng sự [19], Luong và cộng sự [27]. Bảng 3 mô tả độ chính xác của các mô hình chúng tôi sử dụng trên các bộ ngữ liệu khác nhau. Bảng 3. Kết quả thực nghiệm các mô hình BERT Cách chia Thêm đặc trưng Độ chính xác Độ chính xác văn bản ngôn ngữ Văn học mở rộng Sinh học (1) Không tinh chỉnh 256 tokens Không 0,8048 0,8928 (2) Không tinh chỉnh 256 tokens Có 0,8777 0,5414 (3) Không tinh chỉnh Câu (100 tokens) Không 0,8551 0,7557 (4) Không tinh chỉnh Câu (100 tokens) Có 0,8582 0,5171 (5) Có tinh chỉnh 256 tokens Không 0,9414 0,9428 (6) Có tinh chỉnh 256 tokens Có 0,9363 0,9326 (7) Có tinh chỉnh Câu (100 tokens) Không 0,8580 0,8667 (8) Có tinh chỉnh Câu (100 tokens) Có 0,9114 0,8548 Bảng 4. Kết quả thực nghiệm của mô hình có sử dụng RoBERTa tốt nhất và mô hình SVM với K-folds (K = 5) Mô hình Văn học mở rộng Sinh học Văn học Sinh học + Văn học + Giáo dục công dân Acc F1 Acc F1 Acc F1 Acc F1 SVM [27] 0,9505 0,9314 0,7862 0,7834 0,7919 0,6995 0,7982 0,7893 RoBERTa best (5) 0,9344 0,9112 0,9319 0,9300 0,8297 0,7598 0,8941 0,8890 Do ngữ liệu sách giáo khoa Giáo dục công dân chỉ có 144 mẫu nên chúng tôi huấn luyện chung với các tập ngữ liệu khác. Từ Bảng 3 chúng ta có thể thấy, kết quả cao nhất khi thực nghiệm trên tập ngữ liệu Giáo dục công dân kết hợp với Sinh học cũng đạt được từ mô hình thực nghiệm 5 với độ chính xác 93,63%. Chúng tôi cũng so sánh mô hình này với mô hình đạt kết quả cao nhất mà Luong và cộng sự [27] đã sử dụng là SVM áp dụng lên vector đặc trưng ngôn ngữ với K-folds cross validation. Bảng 4 trình bày các kết quả so sánh với hai độ đo là độ chính xác (Acc) và điểm F1 (average = macro), trong đó mô hình của chúng tôi đạt kết quả cao hơn (cả hai độ đo) trên 3/4 tập ngữ liệu, trừ tập Văn học mở rộng kém hơn 1,61% độ chính xác và 2,02 điểm F1.
Phan Thanh Quan, Huỳnh Trọng Hùng, Lương An Vinh 467 VI. KẾT LUẬN Độ chính xác cao nhất 94,14% (Bảng 3) trên ngữ liệu Văn học mở rộng và 94,28% (Bảng 3) trên ngữ liệu Sinh học đều cùng một mô hình có tinh chỉnh BERT, chia dữ liệu thành các đoạn 256 tokens, không thêm đặc trưng ngôn ngữ. Việc tinh chỉnh từ tiền huấn luyện BERT cho kết quả cao hơn rõ rệt so với phương pháp không tinh chỉnh. Trong khi việc thêm vào các đặc trưng ngôn ngữ trích xuất từ ngữ liệu cho kết quả không thống nhất, cần có thêm những khảo sát về việc kết hợp đặc trưng ngôn ngữ vào các mô hình trên. Nhiều mô hình có sự tham gia của quá trình tinh chỉnh RoBERTa đạt kết quả cao khẳng định rằng đây là một phương pháp có tiềm năng. Có một lưu ý ở đây là nếu chỉ dựa vào việc tinh chỉnh từ tiền huấn luyện cho tác vụ phân lớp thì mô hình không đạt kết quả cao, cần sử dụng biểu diễn của RoBERTa sau tinh chỉnh để huấn luyện trên mô hình phân lớp khác để đạt được kết quả cao hơn. Khi thử trên các tập ngữ liệu khác nhau trên một lĩnh vực hay nhiều lĩnh vực kết hợp, mô hình cho kết quả khá cao và có thể cạnh tranh với các phương pháp học máy thống kê dựa trên đặc trưng ngôn ngữ trích xuất từ ngữ liệu. Sinh học là một lĩnh vực khá đặc trưng về từ vựng và ngữ nghĩa của từ, đa số các đặc trưng ngôn ngữ trích xuất từ ngữ liệu như độ dài câu, từ,... không mang đặc trưng về ngữ nghĩa. Việc mô hình đạt kết quả cao trên tập ngữ liệu Sinh học nói lên rằng mô hình mạnh về phân loại dựa trên ngữ nghĩa của từ. Điều đó cũng phù hợp vì BERT sử dụng ngữ cảnh hai chiều. Trong tương lai, chúng tôi sẽ thu thập thêm ngữ liệu thuộc các lĩnh vực khác và chọn lọc các đặc trưng ngôn ngữ ở mức sâu hơn để cải thiện mô hình. Đồng thời nghiên cứu thêm các mô hình Transformer-based được thiết kế riêng để xử lý văn bản dài như Longformer [28] với hy vọng mang lại kết quả tốt hơn hiện tại. TÀI LIỆU THAM KHẢO [1] W. H. Dubay, The Principles of Readability. Costa Mesa, California: Impact Information, 2004. [2] G. H. Mc Laughlin, “SMOG grading-a new readability formula”, (in beng), Journal of reading, vol. 12, no. 8, pp. 639-646, 1969. [3] M. I. Solnyshkina, R. R. Zamaletdinov, L. A. Gorodetskaya, and A. I. Gabitov, “Evaluating text complexity and flesch- kincaid grade level”, (in en), Journal of Social Studies Education Research, vol. 8, no. 3, pp. 238-248, 2017 2017. [4] E. Dale and J. S. Chall, “A formula for predicting readability”, (in beng), Educational Research Bulletin, pp. 11-28, 1948. [5] S. Aluisio, L. Specia, C. Gasperin, and C. Scarton, “Readability assessment for text simplification”, 2010, pp. 1-9, Los Angeles, California: Association for Computational Linguistics. [6] M. Sinha and A. Basu, “A study of readability of texts in Bangla through machine learning approaches”, (in beng), Education and Information Technologies, vol. 21, no. 5, pp. 1071-1094, 2016. [7] Y.-H. Chen and P. Daowadung, “Assessing readability of Thai text using support vector machines”, (in beng), Maejo International Journal of Science and Technology, vol. 09, no. 3, pp. 355-369, 2015. [8] Y. Sun, K. Chen, L. Sun, and C. Hu, “Attention-based deep learning model for text readability evaluation”, in 2020 International Joint Conference on Neural Networks (IJCNN), 2020, pp. 1-8. [9] M. Martinc, S. Pollak, and M. Robnik-Šikonja, “Supervised and unsupervised neural approaches to text readability”, Computational Linguistics, vol. 47, no. 1, pp. 141-179, 2021. [10] T. Deutsch, M. Jasbi, and S. Shieber, “Linguistic features for readability assessment”, 2020, pp. 1-17, Seattle, WA, USA → Online: Association for Computational Linguistics. [11] L. T. Nguyen and A. B. Henkin, “A readability formula for Vietnamese”, (in beng), Journal of Reading, vol. 26, no. 3, pp. 243-251, 1982. [12] A.-V. Luong, D. Nguyen, and D. Dinh, “A new formula for Vietnamese text readability assessment”, in 2018 10th International Conference on Knowledge and Systems Engineering (KSE), 2018, pp. 198-202, Ho Chi Minh City: IEEE. [13] A.-V. Luong, D. Nguyen, and D. Dinh, “Examining the text-length factor in evaluating the readability of literary texts in Vietnamese textbooks”, in 2017 9th International Conference on Knowledge and Systems Engineering (KSE), 2017, pp. 36- 41, Hue: IEEE. [14] A.-V. Luong, D. Nguyen, and D. Dinh, “Examining the part-of-speech features in assessing the readability of Vietnamese texts”, Acta Linguistica Asiatica, vol. 10, no. 2, pp. 127-142, 2020/07/30/ 2020. [15] R. Gunning, “The fog index after twenty years”, (in en), Journal of Business Communication, vol. 6, no. 2, pp. 3-13, 1969/01/01/ 1969. [16] M. Solnyshkina, V. Ivanov, and V. Solovyev, “Readability formula for Russian texts: A modified version”, in Advances in Computational Intelligence, Cham, 2018, pp. 132-145: Springer International Publishing. [17] K. C. Soh, “Readability Formula for Chinese as a second language: An exploratory study”, Frontiers of Education in China, vol. 14, no. 4, pp. 551-574, 2019/12/01 2019. [18] L. T. Nguyen and A. B. Henkin, “A second generation readability formula for Vietnamese”, (in beng), Journal of Reading, vol. 29, no. 3, pp. 219-225, 1985. [19] A.-V. Luong, D. Nguyen, and D. Dinh, “Assessing the readability of literary texts in Vietnamese textbooks”, in 2018 5th NAFOSTED Conference on Information and Computer Science (NICS), 2018, pp. 231-236, Ho Chi Minh City: IEEE. [20] A.-V. Luong, D. Nguyen, D. Dinh, and T. Bui, “Assessing Vietnamese text readability using multi-level linguistic features”, (in beng), International Journal of Advanced Computer Science and Applications (IJACSA), vol. 11, no. 8, 2020,22/31 2020.
468 ĐÁNH GIÁ ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TIỀN HUẤN LUYỆN KẾT HỢP VỚI… [21] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding”, in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Minneapolis, Minnesota, 2019, pp. 4171- 4186: Association for Computational Linguistics. [22] A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, “Improving language understanding with unsupervised learning”, OpenAI2018. [23] M. E. Peters et al., “Deep contextualized word representations”, in NAACL-HLT 2018, 2018, pp. 2227-2237, New Orleans, Louisiana: Association for Computational Linguistics. [24] Y. Liu et al., “RoBERTa: A robustly optimized BERT pretraining approach”, arXiv:1907.11692 [cs], 2019/07/26/ 2019. [25] D. Q. Nguyen and A. Tuan Nguyen, “PhoBERT: Pre-trained language models for Vietnamese”, in EMNLP-Findings 2020, 2020, pp. 1037-1042, Online: Association for Computational Linguistics. [26] Y. Goldberg and O. Levy, “word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method”, arXiv:1402.3722 [cs, stat], 2014/02/15/ 2014. [27] A.-V. Luong, D. Nguyen, and D. Dinh, “Building a Corpus for Vietnamese Text readability assessment in the literature domain”, (in beng), Universal Journal of Educational Research, vol. 8, no. 10, pp. 4996-5004, 2020. [28] I. Beltagy, M. E. Peters, and A. Cohan, “Longformer: The Long-Document. ASSESSING VIETNAMESE TEXT READABILITY USING PRE-TRAINED MODEL COMBINED WITH LINGUISTIC FEATURES Luong An Vinh, Phan Thanh Quan, Huynh Trong Hung ABSTRACT: Accessing text readability is the problem of determining whether a text is suitable for the reading comprehension ability of a group of readers. Therefore, finding a way or a model to decently evaluate text readability has great significance for the reader’s choice of text as well as the preparation of lectures in textbooks to suit students’ levels. There have been many studies on assessing text readability in English and some other popular languages. However, it remains relatively new in Vietnamese and mainly focuses on examining linguistic features by statistical machine learning models. In this study, we want to apply a new approach, which uses a deep learning model pre-training combined with some specific features of the Vietnamese language. The deep learning models we use are BERT and RoBERTa along with PhoBERT pre-training, the results obtained will be used for further training. Linguistic features such as the total number of sentences, words, characters, the average length of sentences, the ratio of dialect words, etc. will be fed into the model before giving the classification results. The experiment is evaluated on the corpus collected from the textbooks of Literature, Biology, and Civics of Vietnamese students. The results of the new method show that the model predicts with high accuracy and has an improvement over statistical machine learning models. However, the addition of linguistic features does not completely increase the performance of the models.