
336 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
ỨNG DỤNG CÔNG CỤ CLC _VN_ TOOLKIT
ĐỂ XÁC ĐỊNH ĐỘ KHÓ CỦA VĂN BẢN VĂN XUÔI
TRONG CHƯƠNG TRÌNH NGỮ VĂN LỚP 6
VÀ ĐỊNH HƯỚNG VẬN DỤNG KẾT QUẢ TRONG DẠY HỌC
CHÂU THỊ ĐỖ QUYÊN* - NGUYỄN THỊ THU HẰNG**
Tóm tắt: Bài viết tóm tắt kết quả nghiên cứu của chúng tôi về việc vận dụng lí thuyết
đo độ khó văn bản (ĐKVB), với sự hỗ trợ của công cụ CLC _VN_ Toolkit, vào việc phân tích,
đánh giá ngữ liệu văn bản văn xuôi trong chương trình và sách giáo khoa Ngữ văn lớp 6. Từ
kết quả khảo sát ĐKVB, dựa trên thang đo nhận thức Bloom, chúng tôi đã vận dụng để xây
dựng các định hướng trong phương pháp mở rộng và tích cực hóa vốn từ cho học sinh.
Từ khóa: Công cụ CLC _VN_ TOOLKIT, độ khó văn bản, Ngữ văn lớp 6, bộ sách
Chân trời sáng tạo, thang đo nhận thức Bloom.
I. Mở đầu
Trong những năm gần đây, độ khó văn bản (ĐKVB) đã được giới nghiên cứu quan
tâm và chú ý tại Việt Nam. Tuy nhiên việc nghiên cứu ĐKVB trong chương trình (CT) sách
giáo khoa (SGK) phổ thông nói chung và SGK trung học cơ sở (THCS) nói riêng vẫn còn là
một vấn đề bỏ ngỏ chưa nhận được nhiều sự quan tâm của nhiều nhà nghiên cứu. Chúng tôi
thiết nghĩ, trong bối cảnh đổi mới toàn diện nền giáo dục nước nhà như hiện nay, nghiên cứu
về ĐKVB trong CT SGK sẽ thực sự cần thiết để nâng cao năng lực tiếp nhận và khả năng
đọc hiểu của HS. Từ thực tiễn giảng dạy tại môi trường THCS chúng tôi nhận thấy việc xác
định ĐKVB trên phạm vi từ sẽ hỗ trợ rất nhiều trong việc giảng dạy từ đó góp phần nâng cao
chất lượng dạy học.
Chúng tôi lựa chọn phân tích ĐKVB từ góc độ từ của tác phẩm văn xuôi trong CT
Ngữ văn lớp 6 (bộ sách Chân trời sáng tạo) bởi văn bản văn xuôi chiếm số lượng lớn trong
CT. Đồng thời việc khảo sát vốn từ nhìn từ góc độ ĐKVB giúp GV có cái nhìn tổng quát về
CT giáo dục mới mà họ đang là người trực tiếp triển khai đến HS. Để có thể thực hiện được
việc khảo sát và đánh giá ĐKVB trên phạm vi từ, công cụ CLC _VN_ Toolkit là công cụ có
thể đảm nhiệm tốt nhất vai trò của mình khi có khả năng trích xuất và hệ thống từ trên các
mục tiêu đã được đề ra. Căn cứ vào kết quả khảo sát, bài viết tiến hành đề xuất các giải pháp
dạy học phù hợp dựa trên lý thuyết là các cấp độ của thang nhận thức Bloom với hi vọng đáp
ứng được các yêu cầu giáo dục đã đề ra ở chương trình Ngữ văn lớp 6 nói riêng và chương
trình THCS nói chung.
* Trường THCS Lê Anh Xuân (Quận Tân Phú), Email: doquyenchau@gmail.com
** Trường Đại học Sài Gòn, Email: ntthang@sgu.edu.vn

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 337
...................................................................................................................................................................................
II. Nội dung
Để có thể thực hiện được đề tài nghiên cứu, bài viết đã sử dụng công cụ “CLC _VN_
Toolkit” do trung tâm ngôn ngữ học Tính toán phát triển (CLC - Đại học Khoa học Tự nhiên,
Đại học Quốc gia Thành phố Hồ Chí Minh (http://www.clc.hcmus.edu.vn)). Đây là bộ công
cụ hỗ trợ tiền xử lý văn bản, tách từ, gán nhãn từ loại, gán nhãn các thực thể có tên trong văn
bản. Công cụ này có ý nghĩa quan trọng trong việc khảo sát và định hướng đánh giá sự ảnh
hưởng của yếu tố ngôn ngữ đặc biệt là yếu tố về bề sâu của từ đối với ĐKVB.
2.1. Độ khó của từ
Trong chương trình Ngữ văn lớp 6 có 40 văn bản là văn xuôi. Để xác định độ khó
của văn bản trên phương diện từ chúng tôi tập trung vào các yếu tố bề sâu, những yếu tố có
ảnh hưởng trực tiếp đến độ khó của văn bản. Yếu tố bề sâu của văn bản bao gồm: từ dễ và từ
khó; tần suất từ; từ loại; nghĩa của từ.
2.1.1. Từ dễ và từ khó
Việc xác định độ dễ và khó của từ có ý nghĩa quan trọng, góp phần giúp văn bản dễ
được học sinh tiếp cận hoặc ngược lại. Để xác định một từ là dễ hay khó bài viết căn cứ vào
danh sách 3.000 từ, chữ phổ biến từ kết quả nghiên cứu của nhóm tác giả Đinh Điền và cộng
sự (Đinh, Building a cospus-based frequency dictionary of Vietnamese, 2018). Điều này có
nghĩa là chúng tôi sẽ thực hiện song song hai nhiệm vụ là tách từ, chữ từ văn bản và tiến
hành so sánh, đối chiếu với hệ thống từ trong danh sách 3.000 của nhóm tác giả Đinh Điền.
Nếu các chữ, từ xuất hiện trong danh sách vừa nêu được xem là từ dễ và ngược lại nếu không
được xuất hiện thì đó là chữ, từ khó. Văn bản xuất hiện càng nhiều từ dễ, có ý nghĩa rõ ràng
thì văn bản đó được xem là văn bản dễ và ngược lại. Ngoài ra mức độ khó hay dễ của chữ và
từ còn phụ thuộc vào độ phổ biến, cấu trúc và tần suất của chúng. Kết quả khảo sát trong
chương trình Ngữ văn 6 như sau:
Bảng 2.1. Chữ và từ dễ có trong văn bản chương trnh Ngữ văn 6
STT
Tên văn bản
Số
chữ
Chữ dễ
Số từ
Từ dễ
Số
lượng
Tỉ lệ %
Số
lượng
Tỉ lệ %
1
Thánh Gióng
562
293
52,14%
482
248
51,45%
2
Sự tích Hồ Gươm
807
467
57,87%
669
372
55,61%
3
Hội thổi cơm thi ở Đồng Vân
524
317
60,50%
433
227
52,42%
4
Bánh Chưng bánh Giày
538
309
57,43%
444
241
54,28%
5
Sọ Dừa
1.115
663
59,46%
974
601
61,70%
6
Em bé thông minh
1.161
728
62,70%
991
594
59,94%

338 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
7
Non-bu và Heng-bu
1.046
608
58,13%
884
496
56,11%
8
Kể lại truyện cổ tích cây khế
683
407
59,59%
576
333
57,81%
9
Về bài ca dao "Đứng bên ni
đồng ngó bên tê đồng…"
792
495
62,50%
627
343
54,70%
10
Viết lại đoạn văn ghi lại cảm
xúc về một bài thơ lục bát
204
128
62,75%
155
84
54,19%
11
Bài học đường đời đầu tiên
1.892
1.086
57,40%
1.645
935
56,84%
12
Giọt sương đêm
836
410
49,04%
712
356
50,00%
13
Vừa nhắm mắt vừa mở cửa sổ
1.071
776
72,46%
974
649
66,63%
14
Cô Gió mất tên
1.769
1.156
65,35%
1.594
1.045
65,56%
15
Kể lại một trải nghiệm của bản
thân
550
363
66,00%
471
299
63,48%
16
Lao xao ngày hè
1.153
579
50,22%
991
478
48,23%
17
Thương nhớ bầy ong
479
303
63,26%
410
253
61,71%
18
Một năm ở tiểu học
690
450
65,22%
595
352
59,16%
19
Tả một phiên chợ nổi ở miền
Tây
525
305
58,10%
445
251
56,40%
20
Gió lạnh đầu mùa
1.274
779
61,15%
1.124
724
64,41%
21
Tuổi thơ tôi
1.198
674
56,26%
1.031
554
53,73%
22
Con gái của mẹ
904
604
66,81%
745
449
60,27%
23
Chiếc lá cuối cùng
946
577
60,99%
826
500
60,53%
24
Chị sẽ gọi em bằng tên
826
626
75,79%
693
487
70,27%
25
Viết đoạn văn ghi lại cảm xúc
bề bài thơ "Những cánh buồm"
223
152
68,16%
173
99
57,23%
26
Học thầy, học bạn
622
448
72,03%
484
284
58,68%
27
Bàn về nhân vật Thánh Gióng
526
334
63,50%
389
187
48,07%
28
Góc nhìn
286
215
75,17%
218
128
58,72%

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 339
...................................................................................................................................................................................
29
Phải chăng chỉ có ngọt ngào
mới làm nên hạnh phúc
991
666
67,20%
774
478
61,76%
30
Hãy gìn giữ bữa cơm gia đình
397
278
70,03%
298
149
50,00%
31
Lẵng quả thông
1.379
858
62,22%
1.153
663
57,50%
32
Con muốn làm một cái cây
1.140
760
66,67%
977
624
63,87%
33
Và tôi nhớ khói
917
454
49,51%
828
430
51,93%
34
Cô bé bán diêm
1.382
832
60,20%
1.194
725
60,72%
35
Kể trải nghiệm về một chuyến
đi
435
264
60,69%
341
184
53,96%
36
Lễ cúng thần lúa của người
Chơ-ro
636
364
57,23%
484
214
44,21%
37
Trái đất - mẹ muôn loài
549
373
67,94%
410
213
51,95%
38
Hai cây phong
772
476
61,66%
632
349
55,22%
39
Ngày môi trường thế giới
707
481
68,03%
515
238
46,21%
40
Viết văn bản thuyết minh lại
một sự kiện
571
339
59,37%
439
197
44,87%
Văn bản có số lượng lớn chữ và từ dễ là văn bản “Cô gió mất tên” với số từ dễ là 1.054
từ chiếm tỉ lệ 65,56% số lượng từ có trong văn bản; tiếp theo là “Bài học đường đời đầu tiên”
935 từ dễ chiếm tỉ lệ 56,84%. Hai văn bản trên đều thuộc thể loại “truyện đồng thoại”. theo
nhóm tác giả Nguyễn Thị Hồng Nam (Nguyễn N. T., et al., 2021) đã nhận định về thể loại này
như sau “Truyện đồng thoại là thể loại văn học dành cho thiếu nhi. Nhân vật trong truyện
đồng thoại thường là loài vật hoặc đồ vật được nhân hóa. Vì thế, chúng vừa phản nh đặc
điểm sinh hoạt của loài vật vừa thể hiện đặc điểm của con người”. Với những đặc điểm nêu
trên đã ảnh hưởng đến số lượng từ dễ có trong văn bản. Văn bản có số lượng chữ dễ và từ dễ
thấp nhất là “Viết đoạn văn ghi lại cảm xúc về một bài thơ lục bt” với số lượng lần lượt là
128 chữ dễ và 84 từ dễ, tuy nhiên khi xét về tỉ lệ chúng vẫn chiếm hơn 50% tỉ lệ chữ và từ có
trong văn bản. Những vản bản có từ và chữ dễ chiếm tỉ lệ thấp sẽ gây gây khó đến khả năng
tiếp nhận của học sinh.
Kết quả từ bảng thống kê số liệu trên, chúng tôi nhận thấy rằng số lượng chữ dễ trong
văn bản dao động từ 128 chữ đến 1.128 chữ và có tỉ lệ từ dễ chiếm hơn 50% trong tổng số chữ
của văn bản. Xét trên góc độ từ 84 từ dễ đến 1045 từ dễ, tỉ lệ từ dễ chiếm tỉ lệ từ 44,21% đến
70,27% số từ dễ có trong văn bản.

340 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
Biểu đồ 2.1. Tỉ lệ trung bình chữ dễ và chữ
khó trong văn bản của SGK Ngữ văn 6
Thông qua hai biểu đồ trên chúng ta thấy được rằng sống lượng chữ dễ và từ dễ chiếm
tỉ lệ cao hơn tỉ lệ chữ khó và từ khó, từ đó sẽ giúp học sinh dễ dàng trong việc tiếp nhận các
văn bản văn xuôi trong chương trình. Bên cạnh đó số lượng chữ và từ dễ cao hoàn toàn phù
hợp với việc rèn luyện kĩ năng đọc - hiểu ở học sinh khối lớp 6.
2.1.2. Tần suất từ
Yếu tố tần suất từ (word frequency) là một trong những yếu tố quan trọng khi đánh giá
độ khó của văn bản. Tần suất từ (chữ) thường được sử dụng để đánh giá mức độ phổ biến và
quen thuộc của các từ (chữ) trong một văn bản cụ thể. Nó phản ánh mức độ quen thuộc và phổ
biến của các từ (chữ) trong ngôn ngữ và ngữ cảnh cụ thể của văn bản đó. Đây là một số cách
mà tần suất từ có thể ảnh hưởng đến độ khó của văn bản:
(i) Từ phổ biến với từ ít gặp: Văn bản chứa nhiều từ phổ biến, thường gặp sẽ dễ hiểu
hơn so với văn bản chứa nhiều từ ít gặp hoặc từ chuyên ngành. Các từ (chữ) phổ biến thường
được học sớm và sử dụng thường xuyên, nên người đọc dễ dàng nhận biết và hiểu chúng hơn.
(ii) Đa dạng từ vựng: Văn bản có nhiều từ (chữ) ít lặp lại (tức là có nhiều từ khác nhau)
có thể khó hiểu hơn vì người đọc phải xử lý và học nhiều từ mới trong cùng một văn bản.
(iii) Tần suất từ trong ngữ cảnh: Từ (chữ) có tần suất cao trong ngữ cảnh cụ thể sẽ dễ
hiểu hơn. Ví dụ, trong một văn bản về công nghệ thông tin, từ “máy tính” sẽ có tần suất cao
và do đó dễ hiểu hơn so với từ “diệp lục”.
(iv) Trong các công thức tính độ khó của văn bản, từ (chữ) tần suất thấp thường làm
tăng độ khó của văn bản, trong khi từ (chữ) tần suất cao thường làm giảm độ khó. Điều này là
do người đọc thường dễ dàng hơn khi gặp các từ mà họ đã biết và quen thuộc.
62.27%
37.73%
Trung bình tỉ lệ chữ dễ Trung bình tỉ lệ chữ khó
56.51%
43.49%
Trung bình tỉ lệ từ dễ Trung bình tỉ lệ từ khó
Biểu đồ 2.2. Tỉ lệ trung bình từ dễ và từ
khó trong văn bản của SGK Ngữ văn 6

