Ứng dụng mô hình đo lường Rasch trong đánh giá mức kiến thức người học bằng trắc nghiệm thích nghi trên máy tính

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

Thêm vào BST

Báo xấu

7
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày mục tiêu: Đánh giá hiệu quả và hiệu năng thuật toán trắc nghiệm thích nghi (CAT) trong đánh giá đầu vào của người học qua trắc nghiệm trên máy tính (CBT). Đối tượng - Phương pháp: Thuật toán hệ thống CAT được thiết kế dựa trên việc tích hợp mô hình Rasch vào bài kiểm tra thích ứng trên máy tính, sử dụng ngôn ngữ lập trình PHP và cơ sở dữ liệu MySQL.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Ứng dụng mô hình đo lường Rasch trong đánh giá mức kiến thức người học bằng trắc nghiệm thích nghi trên máy tính

Nghiên cứu Y học Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 ỨNG DỤNG MÔ HÌNH ĐO LƯỜNG RASCH TRONG ĐÁNH GIÁ MỨC KIẾN THỨC NGƯỜI HỌC BẰNG TRẮC NGHIỆM THÍCH NGHI TRÊN MÁY TÍNH Vĩnh Sơn1, Trần Thị Diệu1, Hoàng Đạo Bảo Trâm1, Phạm Dương Uyển Bình1, Phạm Lê An1, Nguyễn Anh Vũ1 TÓM TẮT Mục tiêu: Đánh giá hiệu quả và hiệu năng thuật toán trắc nghiệm thích nghi (CAT) trong đánh giá đầu vào của người học qua trắc nghiệm trên máy tính (CBT). Đối tượng - Phương pháp: Thuật toán hệ thống CAT được thiết kế dựa trên việc tích hợp mô hình Rasch vào bài kiểm tra thích ứng trên máy tính, sử dụng ngôn ngữ lập trình PHP và cơ sở dữ liệu MySQL. Nghiên cứu mô tả một số nguyên tắc hoạt động cơ bản và triển khai cần thiết để xây dựng và đánh giá thuật toán, xác định hạn chế và đề xuất giải pháp cải tiến. Kết quả: Nghiên cứu chỉ ra thuật toán hoạt động có hiệu quả và hiệu năng, cung cấp bằng chứng cho thấy bài kiểm tra thích ứng có tính cô đọng và chính xác hơn bài kiểm tra không thích ứng. Kết luận: Kết quả nghiên cứu ghi nhận tính hiệu quả và hiệu suất của thuật toán CAT cũng như một số đề xuất cải tiến chất lượng thuật toán. Từ khóa: đo lường năng lực, đánh giá quá trình, trắc nghiệm trên máy tính (CBT), trắc nghiệm thích nghi năng lực (CAT), mô hình Rasch, lý thuyết đáp ứng câu hỏi (IRT) ABSTRACT APPLICATION OF RASCH MEASUREMENT MODEL IN COMPUTERIZED ADAPTIVE TESTING FOR STUDENT KNOWLEDGE ASSESSMENT Vinh Son, Tran Thi Dieu, Hoang Dao Bao Tram, Pham Duong Uyen Binh, Pham Le An, Nguyen Anh Vu * Ho Chi Minh City Journal of Medicine * Vol. 27 - No. 1 - 2024: 177 - 185 Objective: To evaluate the effectiveness and efficiency of an adaptive ability testing algorithm (CAT) for the assessment of student's entry knowledge level based on a computer-based testing system (CBT). Methods: The CAT system algorithm was designed based on the integration of Rasch model into computer- based adaptive ability testing, using PHP programming language and MySQL database. The study describes some basic operational principles and implementation needed to build and evaluate the algorithm, identify limitations and suggest solutions. Results: The CAT algorithm was shown to be effective and efficient, giving evidence the adaptive test be more concise and accurate than the non-adaptive test. Conclusion: The research results recognized the effectiveness and efficiency of the CAT algorithm as well as suggestion for further quality improvement of the algorithm. Keywords: Ability measurement, formative evaluation, computer-based test (CBT), computerized adaptive test (CAT), Rasch model, item response theory (IRT) ĐẶT VẤNĐỀ trình quan trọng góp phần đảm bảo đảm chất Đánh giá kiến thức của người học là một quá lượng đào tạo, có tính đặc thù đối với các Đại học Y Dược TP. Hồ Chí Minh 1 Tác giả liên lạc: TS. Nguyễn Anh Vũ ĐT: 0909090838 Email: nguyenanhvu@ump.edu.vn Tạp chí Y học Thành phố Hồ Chí Minh, 27(1):177-185. DOI: 10.32895/hcjm.m.2024.01.25 177
Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Nghiên cứu Y học chương trình đào tạo chuyên ngành khoa học một câu hỏi có độ khó trung bình sau đó dựa sức khỏe. Bên cạnh việc sử dụng hiệu quả các trên kết quả trả lời câu hỏi này để ước lượng của phương pháp đánh giá truyền thống, việc cập thí sinh, điều chỉnh độ khó của câu hỏi tiếp và nhật ứng dụng phù hợp các phương pháp đánh lựa chọn từ ngân hàng câu hỏi. Quá trình được giá hiện đại sẽ góp phần nâng cao chất lượng lặp lại và hoản tất khi ước lượng mức trình độ đào tạo, giúp người học phát triển đầy đủ các kiến thức của thí sinh đạt được độ chính xác đã năng lực cần thiết. Việc ứng dụng công nghệ định trước, hoặc đạt đến giới hạn số câu hỏi nhất thông tin và đo lường giáo dục học nhằm liên định đã được trả lời(4). CAT được nghiên cứu từ tục cải tiến và nâng cao chất lượng khảo thí đã 1970(5) và được sử dụng lần đầu năm 1985, trở và đang hình thức trắc nghiệm truyền thống nên phổ biến từ những năm 1990 trong nhiều sang trắc nghiệm trên máy tính (CBT). Bài trắc lĩnh vực như giáo dục, tuyển dụng, đánh giá tâm nghiệm dạng tuyến tính là một hình thức CBT lý và sức khỏe(5,6,7), cho thấy phương pháp này có hiện nay rất phổ biến và được sử dụng rộng rãi thể giải quyết các khuyết điểm của trắc nghiệm để đánh giá người học trong các chương trình cố định(8,9). Bên cạnh một số giới hạn(10,11), nhiều đào tạo trình độ đại học. Một bài trắc nghiệm ưu điểm của CAT được ghi nhận trong các dạng tuyến tính có độ dài cố định, được phân nghiên cứu như quản lý linh hoạt hơn, tiết kiệm phát cho tất cả thí sinh với cùng số lượng câu hỏi chi phí và công sức chuẩn bị, mức độ bảo mật và từ dễ đến khó. Bên cạnh các ưu điểm trong việc tính chính xác cao, thời lượng bài đánh giá ngắn, quản lý chặt chẽ thời gian và nguồn lực tổ chức cũng như trải nghiệm thi thú vị và ít căng thẳng thực hiện, chấm điểm, tính chuẩn hóa về hiệu hơn đối với người được kiểm tra đánh giá(12,13,14). suất làm bài, bài kiểm tra trắc nghiệm tuyến tính Tại Việt Nam, CAT được triển khai ứng dụng tại với độ dài cố định có một số hạn chế, chẳng hạn một số cơ sở từ những năm 2000 và được ghi như số lượng câu hỏi trắc nghiệm phải đủ lớn và nhận là một phương pháp đánh giá hữu một khoảng thời gian làm bài đủ dài. Mặt khác, hiệu(15,16). Tuy nhiên, việc tổ chức thực hiện trên bài kiểm tra chứa những câu hỏi quá khó hoặc thực tế đòi hỏi sự đầu tư nguồn lực và công quá dễ đối với thí sinh, dù các thí sinh sử dụng nghệ lâu dài để có thể phát triển và khai thác cùng một đề nhưng sai số điểm số đánh giá hiệu quả(17). Tại Đại học Y Dược Thành phố Hồ không đồng đều do các thí sinh có mức năng lực Chí Minh, CAT đã được triển khai thử nghiệm trung bình được đánh giá chính xác hơn các thí nhiều năm trên đối tượng sinh viên đại học với sinh ở hai vùng biên đầu và cuối của phổ năng hệ thống phần mềm mạng UMPCAT. Nghiên lực(1,2). Trắc nghiệm thích nghi (CAT) là một cứu này thực hiện tập trung vào đánh giá hiệu dạng CBT được xây dựng dựa trên nguyên tắc quả của thuật toán thích nghi nhằm cải tiến phần tạo lập, cấp phát và quản lý các bài kiểm tra mềm UMPCAT. Trong đó, mô tả đặc điểm kiến đánh giá cá nhân hóa nhờ điều chỉnh linh hoạt trúc và vận hành thuật toán kèm theo đánh giá độ khó của các câu hỏi dựa trên kết quả trả lời quá trình dựa trên một trường hợp số liệu đánh của từng thí sinh. Mỗi thí sinh sẽ nhận một bộ giá năng lực đầu vào của học phần Tin Học Ứng câu hỏi riêng biệt phù hợp với mức trình độ kiến Dụng(18). thức của mình, mỗi câu trả lời được đánh giá kết ĐỐI TƯỢNG -PHƯƠNG PHÁP NGHIÊNCỨU quả ngay. Nếu hai thí sinh có số câu trả lời đúng Đối tượng nghiên cứu bằng nhau thì thí sinh trả lời đúng nhiều câu khó Thuật toán thích nghi của phần mềm hệ hơn sẽ có điểm cao hơn(3). Đối với trắc nghiệm tuyến tính, câu hỏi sử dụng được đưa ra mà thống UMPCAT, bao gồm hai đơn nguyên: lựa chọn câu hỏi cho mỗi thí sinh, và ước lượng không xét đến khả năng trả lời của mỗi thí sinh. Trong khi đó, trắc nghiệm thích nghi bắt đầu từ năng lực thí sinh. Nghiên cứu được thực hiện tại 178
Nghiên cứu Y học Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Đại học Y Dược Thành phố Hồ Chí Minh từ Trang thiết bị tháng 11 năm 2022 đến tháng 12 năm 2023. Cấu hình máy tính chạy UMPCAT gồm CPU Tiêu chuẩn chọn Intel Core i5/i7, AMD Ryzen 5/7; RAM 16GB; hệ Sinh viên đăng ký học phần Tin Học Ứng Dụng. điều hành Window 10, dung lượng bộ nhớ SSD trống 250 GB, trình duyệt Chrome. Tiêu chuẩn loại Sinh viên học lại; hoặc đã có chứng chỉ tin Kiến trúc hệ thống học ứng dụng trình độ B trở lên, chứng chỉ quốc Các thành phần cốt lõi của UMPCAT bao tế ICDL, Cisco, IC3, MOS. gồm ngôn ngữ lập trình PHP, cơ sở dữ liệu MySQL, ứng dụng mô hình Rasch lưỡng phân Phương pháp nghiên cứu với thang đo logit sử dụng một tham số là độ Thiết kế nghiên cứu khó. Trong đó các thành phần cốt lõi của hệ Nghiên cứu trường hợp và đánh giá quá thống là ngân hàng câu hỏi và thuật toán lựa trình. Trong đó có mô tả cắt ngang tại thời điểm chọn câu hỏi. Các câu hỏi trong ngân hàng được đánh giá, thực nghiệm lai hóa giữa mô phỏng chuẩn hóa tham số theo mô hình Rasch và IRT. trên máy tính và kiểm nghiệm thực địa. Thuật toán sử dụng một số câu hỏi khởi đầu để Biến số nghiên cứu ước lượng thô mức trình độ kiến thức của thí Thời gian làm bài (phút), được tính từ câu sinh và những câu hỏi kiểm tra để tinh chỉnh hỏi đầu tiên đến lúc dừng thuật toán. dần độ chính xác của ước lượng. Những câu hỏi Độ dài bài kiểm tra (câu), được tính bằng số khởi đầu được chọn ngẫu nhiên trong tập con câu hỏi được sử dụng trong quá trình thuật toán của tập các câu hỏi có độ khó lân cận mức 0 logit. hoạt động. Quy tắc lựa chọn câu hỏi được thiết lập dựa vào tin lượng Fisher cực đại (Fisher Maximum Độ khó của các câu hỏi (logit), đã được Information, FMI) và phương pháp lượng giá chuẩn độ theo mô hình Rasch. theo khả dĩ cực đại (Conditional Maximum Mức năng lực của thí sinh (logit), được ước Likelihood, CML). Quy tắc dừng thuật toán lượng theo mô hình IRT. được thiết lập dựa trên bốn tiêu chuẩn là độ Nhân lực tham gia chính xác của ước lượng trình độ kiến thức của Giảng viên Bộ môn Tin học và Bộ môn Toán, thí sinh, số câu hỏi giới hạn được dùng trong bài gồm 01 giảng viên điều phối, 01 giảng viên quản kiểm tra, thời gian làm bài, và các quy tắc bắt trị mạng, 05 giảng viên hỗ trợ. buộc dừng (Bảng 1). Bảng 1. Thành phần cấu trúc phần mềm UMPCAT Thành phần phần mềm Thông tin Ngôn ngữ lập trình PHP Cơ sở dữ liệu MySQL Mô hình đo lường Rasch lưỡng phân, sử dụng một tham số độ khó logit. Ngân hàng câu hỏi Tin học ứng dụng, 654 câu, đã chuẩn độ logit theo Rasch. Câu hỏi khởi đầu Tập con của tập các câu hỏi có độ khó lân cận θ = 0 logit. Phương pháp chọn câu hỏi Fisher Maximum Information. Phương pháp ước lượng Maximum likelihood: CMLE, JMLE. Mã 0 Độ chính xác ước lượng đạt yêu cầu. Mã 1 Số câu hỏi vượt quá số câu giới hạn. Mã 2 Thời gian làm bài vượt quá thời gian giới hạn. Quy tắc dừng thuật toán Bắt buộc dừng thuật toán nếu Mã 3 - Thí sinh trả lời đúng hoặc sai tất cả câu hỏi, hoặc - Toàn bộ câu hỏi đã được sử dụng hết. 179
Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Nghiên cứu Y học Triển khai vận hành hệ thống giảng viên môn Tin Học Ứng Dụng về thời gian cần thiết cho thí sinh đối với bài test đánh giá Cấu trúc hệ thống đã được triển khai trên đầu vào gồm 45 câu hỏi. nền tảng web, được phát triển bằng ngôn ngữ lập trình PHP với nhiều ưu điểm như chạy Quy trình nghiên cứu nhẹ, linh hoạt và đa nền tảng, có thể được sử Đánh giá quá trình theo Tessmer (1993) gồm dụng cho nhiều hệ điều hành khác nhau. 3 giai đoạn: đánh giá chuyên gia, đánh giá cá Trong nghiên cứu này, hệ thống được sử dụng nhân và nhóm nhỏ, đánh giá thực nghiệm thực để xác định tham số cho bài kiểm tra trắc địa. nghiệm thích nghi và vận hành bài trắc - Đánh giá chuyên gia được thực hiện với nghiệm dùng trong thử nghiệm thực địa. Kết 01 giảng viên phụ trách học phần, 01 giảng quả thực nghiệm được dùng để đánh giá hiệu viên thiết kế học phần, 01 chuyên gia giáo dục quả và điều chỉnh thuật toán. học, và 01 chuyên viên khảo thí. Chuyên gia Thử nghiệm mô phỏng được thực hiện trên hiểu rõ về bản chất và mức độ tác động của máy tính, dựa trên giả lập một tình huống kiểm nghiên cứu, tự nguyện tham gia và nhận được tra trắc nghiệm trong UMPCAT. Dựa vào mô đầy đủ thông tin về nghiên cứu, quyền của hình Rasch, thống kê sai số ước lượng mức trình người tham gia và bảo mật thông tin cá nhân. độ kiến thức của thí sinh giả lập và số câu hỏi Phương pháp phỏng vấn bán cấu trúc được sử cần thiết để ước lượng đạt độ chính xác được xác dụng, về các chủ đề tính giá trị, hữu dụng, tiện định, sau đó được sử dụng làm các tham số cho lợi và những điểm cần cải tiến. bài kiểm tra thích nghi. Các tham số này được sử - Đánh giá cá nhân và nhóm nhỏ được thực dụng tiếp tục trong thử nghiệm thực địa. Kết hiện với 05 sinh viên đã học xong học phần Tin quả thử nghiệm giúp phát hiện tính năng hiệu Học Ứng Dụng và đã trải qua bài kiểm tra trắc quả thực tế và các vấn đề tồn tại trong vận hành nghiệm CBT dạng tuyến tính. Sinh viên tham gia của thuật toán UMPCAT. đánh giá hiểu rõ về bản chất và mức độ tác động Tình huống mô phỏng giả lập được thiết đặt của nghiên cứu, tự nguyện tham gia và nhận với số thí sinh giả lập là 500, mức trình độ kiến được đầy đủ thông tin về nghiên cứu, quyền của thức thí sinh có phân bố ngẫu nhiên từ -3,0 đến người tham gia và bảo mật thông tin cá nhân. 3,0 logits. Khả năng trả lời đúng mỗi câu hỏi của Đối tượng giới thiệu về phần mềm UMPCAT và mỗi thí sinh giả lập được tính toán theo mô hình mục đích sử dụng phần mềm trong giáo dục. Rasch, với quyết định kết quả trả lời đúng sai Sau đó đối tượng được trải nghiệm cá nhân với dựa trên ngưỡng phân biệt 0,5. Câu hỏi chẩn một số câu hỏi môn Tiếng Anh, Tin Học. Mỗi đoán khởi đầu có độ khó trong khoảng 0,5 ± 0,2 sinh viên mô tả trải nghiệm của mình, chia sẻ logit. Theo đó UMPCAT xuất câu hỏi kế tiếp dựa quan điểm cá nhân về ưu điểm khuyết điểm của trên kết quả trả lời câu hỏi trước của thí sinh. phần mềm. Sinh viên cũng được khuyến khích Nếu kết quả trả lời là đúng, phần mềm lựa chọn đưa ra ý kiến có nên phát triển phần mềm hay câu hỏi tiếp theo có độ khó cao hơn. Nếu kết quả không cũng như cần cải tiến theo hướng nào. trả lời là sai, phần mềm lựa chọn câu hỏi tiếp Sau khi được trải nghiệm cá nhân, sinh viên theo có độ khó thấp hơn. Quá trình đánh giá và được làm thử một bài CAT môn Tin Học Ứng lựa chọn được lặp nhiều lần đến khi sai số ước Dụng. Sau khi có kết quả đánh giá, sinh viên lượng đủ nhỏ. Sau khi mô phỏng được lặp 1000 được phỏng vấn bán cấu trúc về các chủ đề trải lần, kết quả mô phỏng cho thấy số câu hỏi trung nghiệm sử dụng, bao gồm cảm nhận chung về bình là 45, sai số chuẩn SE của ước lượng năng trắc nghiệm dạng CAT trên phần mềm lực thí sinh là 0,3 logit. Thời gian làm bài được UMPCAT, so sánh với trải nghiệm trắc nghiệm ước tính là 60 phút, dựa trên kinh nghiệm của tuyến tính, tính chính xác của đánh giá năng lực 180
Nghiên cứu Y học Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 theo CAT, những điểm hạn chế và tồn tại. thống và chất lượng hỗ trợ sử dụng. Những nội - Đánh giá thực nghiệm thực địa được thực dung đánh giá cụ thể như sau. hiện trong môi trường thực tế, dựa trên đánh giá Về vận hành, phần mềm chạy trên nền tảng mức kiến thức đầu vào của sinh viên đăng ký mạng, gọn nhẹ, dễ sử dụng và quản lý. Về giao học phần Tin Học Ứng Dụng. Quy trình gồm 6 diện người dùng, bố cục trực quan đơn giản, các bước: (1) nhập câu hỏi trắc nghiệm vào phần yếu tố quan trọng được sắp xếp dễ sử dụng và mềm; (2) xác định tham số thích nghi của đề dễ theo dõi, giao diện có phản hồi nhanh và dễ kiểm tra bao gồm số câu hỏi giới hạn, thời gian nhận biết. Thiết kế giao diện phù hợp với mục làm bài giới hạn, độ khó câu hỏi khởi đầu; (3) đích sử dụng phần mềm và nhu cầu khảo thí. khởi động thuật toán lựa chọn câu hỏi thích nghi Tuy nhiên cần chú ý yếu tố thẩm mỹ và sử dụng của phần mềm UMPCAT; (4) quản lý vận hành màu sắc tạo cảm giác thu hút khơi gợi hứng thú phần mềm trong thời gian trắc nghiệm; (5) rà của người dùng. soát các trường hợp quá hạn tham số đề; (6) thu Về thuật toán ước lượng năng lực, cần đánh thập và phân tích số liệu. giá qua thử nghiệm thực địa. Về thuật toán chọn Cỡ mẫu lựa câu hỏi, cần có kiểm soát khả năng một số Trích xuất ngân hàng câu hỏi học phần Tin câu hỏi có tần suất chọn lặp tương đối cao. Điều Học Ứng Dụng: 654 câu hỏi trắc nghiệm tham này ảnh hưởng lớn đến suy giảm tính bảo mật chiếu chuẩn mực (norm-referenced) với 4 lựa chọn. của ngân hàng câu hỏi. Đồng thời, cần chú ý cân đối phân phối nội dung câu hỏi để không bỏ sót Dành cho đánh giá chuyên gia: 04 chuyên gia. những kiến thức cần thiết hoặc quá tập trung Dành cho đánh giá cá nhân và nhóm nhỏ: vào những nội dung kiến thức khác. mẫu tiện lợi có mục đích gồm 05 sinh viên. Về tổng thể, thuật toán UMPCAT vận hành Dành cho đánh giá thực nghiệm thực địa: đúng chức năng được thiết kế. UMPCAT có mẫu tiện lợi gồm 99 sinh viên. tiềm năng ứng dụng rất cao, có thể sử dụng Phân tích số liệu trong đánh giá thành quả học tập. Tuy nhiên Số liệu mô phỏng và số liệu trả lời trắc kết quả đánh giá thuật toán UMPCAT dựa nghiệm của thí sinh được quản lý bằng Excel trên trường hợp, vì vậy phụ thuộc rất lớn vào 2016, phân tích và phối kiểm bằng R 4.3.1 và mẫu thí sinh và mẫu câu hỏi của học phần JASP 0.18.1. Biến định tính được mô tả bằng tần được sử dụng. Do đó hiệu năng của thuật toán số và tỷ lệ phần trăm, so sánh bằng kiểm định χ2 cần được nghiên cứu đánh giá thêm, mở rộng qua các bài kiểm tra giữa kỳ và cuối kỳ cũng hoặc Fisher nếu có tần số kỳ vọng dưới 5. Biến như với các học phần khác. định lượng được biểu diễn thông qua giá trị trung bình và độ lệch chuẩn, áp dụng kiểm định Đánh giá kết hợp cá nhân và nhóm nhỏ Shapiro-Wilk để kiểm tra phân phối chuẩn và Kết quả đánh giá cá nhân bao gồm trải kiểm định Student để so sánh, sử dụng kiểm nghiệm cá nhân khi sử dụng phần mềm, chia sẻ định Mann-Whitney trong trường hợp phân cảm nhận về tính năng sản phẩm, góp ý phát phối không chuẩn. Khác biệt có ý nghĩa thống kê triển sản phẩm. Kết quả đánh giá của nhóm bao gồm các lỗi gặp phải trong khi sử dụng, phản khi p
Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Nghiên cứu Y học thời gian làm bài đều giảm đi rõ rệt. Về những thức thí sinh được ước lượng xấp xỉ bằng độ khó mặt hạn chế, sinh viên cho biết giao diện người logit của câu hỏi cuối cùng trong dãy các câu hỏi dùng thiếu yếu tố thẩm mỹ đồ họa. Tính tương kiểm tra (Hình 1). tác chưa cao do đánh giá kết quả trả lời mỗi câu Trong 6 câu hỏi đầu bài kiểm tra CAT, sai số hỏi cũng như nội dung câu hỏi tiếp theo không ước lượng khá lớn và mức độ giảm sai số tương hiển thị ngay sau khi trả lời mỗi câu hỏi. Tất cả đối nhỏ. Sai số ước lượng ngày càng giảm và sinh viên đều cho biết có cảm giác bài kiểm tra thuật toán đạt độ chính xác ở bước 45, số câu hỏi thích nghi không quá căng thẳng nhưng lại kiểm tra được dùng để đánh giá mức trình độ nghiêm ngặt hơn bài kiểm tra tuyến tính, và có kiến thức là 44. Trong toàn bài kiểm tra CAT, có thể gây ra sự bó buộc vì mỗi câu hỏi đều là một rất ít số câu có độ khó cao vượt mức hoặc thấp chỉ định không thể bỏ qua, cũng như kết quả trả hơn hẳn mức trình độ kiến thức thí sinh, phần lời các câu hỏi trước là không thể thay đổi. nhiều là các câu hỏi có độ khó xấp xỉ mức trình Đánh giá thực địa độ kiến thức của thí sinh (Bảng 2). Kết quả thực nghiệm trên thực địa cho thấy Độ khó cổ điển có phân phối lệch trái rõ các diễn trình của thuật toán ước lượng mức rệt, cho thấy tỷ lệ trả lời đúng tính trên mẫu năng lực thí sinh, phân bố độ khó của ngân hàng rất lớn các thí sinh là khá cao. Độ khó logit có câu hỏi, phân phối mức năng lực của thí sinh phân phối đối xứng khá rõ và nhọn so với cũng như các thông số độ dài bài thi, thời gian phân phối chuẩn, cho thấy so với phân phối làm bài. Dưới đây là một biểu đồ minh họa điển chuẩn thì tỷ lệ thấp hơn ở các câu hỏi đánh giá hình một diễn trình ước lượng mức kiến thức thí mức trình độ kiến thức trung bình trong khi tỷ sinh của phần mềm UMPCAT, kết quả được lệ câu hỏi nhằm đến mức trình độ kiến thức trích xuất từ dữ liệu của một sinh viên có mức cao và thấp lại cao hơn ở hai biên. Đặc điểm kiến thức trên trung bình. Hai câu hỏi khởi đầu này phù hợp với đánh giá mức trình độ kiến được dùng để chẩn đoán khu trú mức kiến thức thức đầu vào của sinh viên mới đăng ký học thí sinh, các câu hỏi sau đó kiểm tra đánh giá phần lần đầu (Bảng 3). mức kiến thức thí sinh. Giá trị logit của mức kiến Hình 1. Quá trình trắc nghiệm thích nghi năng lực thí sinh với UMPCAT Bảng 2. Độ khó của câu hỏi trong ngân hàng câu hỏi thử nghiệm Trung bình Trung vị Tham số Min Max Shapiro Wilk P ± ĐLC (Q25 - Q75) -0,159 Độ khó theo Rasch (logit) -0,091 ± 1,454 -5,881 4,950 0,993 < 0,001 (-1,041 ; 0,803) 0,79 Độ khó cổ điển 0,75 ± 0,17 0,1 0,99 0,905 < 0,001 (0,67; 0,88) Kiểm định Shapiro-Wilk cho phân phối chuẩn 182
Nghiên cứu Y học Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Bảng 3. Lý do dừng thuật toán Lý do dừng thuật toán Thí sinh P Chung Đủ chính xác Quá số câu Quá thời gian Nữ, n(%) 37 (37,4) 31 (83,8) 0 (0) 6 (16,2) Nam, n(%) 62 (62,6) 54 (87,1) 2 (3,2) 6 (9,7) 0,438 Chung, n(%) 85 (85,9) 2 (2,0) 12 (12,1) 99 (100) KTC95% 77,7 – 91,4 0,6 – 7,1 7,1 – 20,0 So sánh phân phối tỷ lệ các lý do giữa hai giới bằng Kiểm định Fisher Exact Bảng 4. Mức trình độ kiến thức thí sinh, độ dài bài thi và thời gian làm bài Biến số Chung (n = 86) Nam (n = 54) Nữ (n = 31) P Năng lực thí sinh (logit) Trung bình ± ĐLC -0,743 ± 1,002 -0,766 ± 1,081 -0,704 ± 0,865 0,769a Min – Max -3,534 – 1,411 -3,534; 1,411 -2,358; 1,038 - Trung vị -0,758 -0,698 -0,797 - Q25 – Q75 -1,273; -0,039 -1,27; -0,039 -1,204; -0,133 - Độ dài bài kiểm tra Trung bình ± ĐLC 44,68 ± 4,96 44,80 ± 5,40 44,60 ± 4,3 0,606b Min – Max 20 ; 58 20 ; 58 20 ; 58 - Trung vị 45 44 45 - Q25 – Q75 43 - 47 43 – 47 43 – 47 - Thời gian làm bài (phút) Trung bình ± ĐLC 28,8 ± 8,8 28,00 ± 8,8 30,1 ± 8,6 0,236a Min – Max 9,7 - 50 9,7 – 50 14,0 – 45,6 - Trung vị 28,4 28,1 28,7 - Q25 – Q75 23,0 ; 34,7 22,3 ; 33,6 24,2 ; 37,9 - So sánh trung bình bằng a Kiểm định Student b Kiểm định Mann-Whitney Tỷ lệ dừng thuật toán do đạt độ chính xác rệt. Một bài kiểm tra CBT tuyến tính thông cần thiết đạt gần 86%. Tỷ lệ các lý do dừng thuật thường gồm từ 100 đến 120 câu hỏi, và thường toán khác biệt không có ý nghĩa thống kê giữa có SE khoảng từ 0,5 đến 0,7. Như vậy bài kiểm hai nhóm giới tính. Giới tính không liên quan có tra thích nghi có thời gian làm bài giảm trung ý nghĩa thống kê với quá giới hạn số câu và thời bình 20 phút, độ dài giả xấp xỉ 50% chỉ còn 40 gian kiểm tra (p = 0,340) (Bảng 4). đến 60 câu, kết quả lượng giá mức trình độ kiến thức thí sinh đạt độ chính xác cao hơn với SE là Mức trình độ kiến thức thí sinh có phân phối 0,3 logit. Kết quả này phù hợp các nghiên cứu chuẩn (p = 0,592 đối với nữ, p = 0,284 đối với của Wainer (1990), Callear và King (1997), nam), số đo năng lực biến động trong phạm vi Linacre (2000). Bài kiểm tra CAT thành công từ -3,5 đến 1,4 logits. Độ dài bài kiểm tra trung trong việc hạn chế đưa ra câu hỏi quá khó hoặc bình 45 câu, biến động trong phạm vi từ 20 câu quá dễ đối với từng cá nhân, đặc biệt giảm mức đến 58 câu. Thời gian làm bài có phân phối độ căng thẳng tâm lý trong thi cử là một yếu tố chuẩn, với trung bình 28,7 phút, thời gian ngắn gây nhiễu khi đo lường năng lực thực hiện công nhất là 9,7 phút và dài nhất là 50 phút. Mức trình việc đã học. Tuy nhiên bài kiểm tra thích nghi có độ kiến thức đầu vào, số câu hỏi được kiểm tra thể gây ra những hiệu ứng tâm lý khác liên quan và thời gian làm bài không khác biệt có ý nghĩa đến trình tự của dãy câu hỏi và sự không thể thống kê giữa hai nhóm giới tính. quay lại các câu hỏi đã trả lời trước đó. Kết quả BÀN LUẬN này phù hợp với Linacre (2000) và Colwell Kết quả nghiên cứu cho thấy bài kiểm tra (2013). Mặt khác, mô hình Rasch là mô hình đo trắc nghiệm CBT thích nghi so với bài kiểm tra lường khách quan vừa mạnh vừa tương đối đơn trắc nghiệm CBT tuyến tính có sự khác biệt rõ giản để triển khai trong phần mềm máy tính. Mô 183
Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Nghiên cứu Y học hình Rasch cũng giúp hiệu chuẩn các câu hỏi TÀI LIỆU THAM KHẢO kiểm tra theo một thang đo logit chung, kể cả khi 1. Oakleaf M (2008). Dangers and Opportunities: A Conceptual ngân hàng câu hỏi được cập nhật liên tục. Map of Information Literacy Assessment Approaches. Libraries and the Academy, 8(3):233–253. Những đặc điểm này phù hợp với việc thiết kế 2. Weiss DJ (1985). Adaptive testing by computer. Journal of và phát triển ứng dụng thuật toán trắc nghiệm Consulting and Clinical Psychology, 53(6):774–789. 3. Wainer H, et al (1990) Computerized Adaptive Testing: A thích nghi UMPCAT. Ưu điểm của thuật toán Primer. Lawrence Erlbaum Associates. giúp dễ dàng lựa chọn các câu hỏi trắc nghiệm 4. Meijer RR, Nering ML (1999). Computerized Adaptive Testing: phù hợp với mức trình độ kiến thức thí sinh, dễ Overview and Introduction. Applied Psychological Measurement, 23(3):187–194. hiệu chỉnh và tối ưu hóa hiệu suất thuật toán. 5. Drasgow, F (2002). The work ahead: A psychometric Mức trình độ kiến thức thí sinh được ước lượng infrastructure for computerized adaptive tests. In CN Mills, theo mô hình lý thuyết đáp ứng câu hỏi IRT, MT Potenza, JJ Fremer & WC Ward (Eds.). Computer-based testing: Building the foundation for future assessments, pp.67– thuật toán ước lượng đạt độ chính xác cao. Bên 88. Hillsdale, NJ: Lawrence Erlbaum. cạnh đó, nghiên cứu cũng chỉ ra một số hạn chế 6. Larson JW & Madsen HS (1985). Computer-adaptive language testing: Moving beyond computer-assisted testing. CALICO của thuật toán lựa chọn câu hỏi, tính thẩm mỹ Journal, 2(3):32-6. của giao diện người dùng và tính tương tác với 7. Grigoriadou M, Papanikolaou K, Kornilakis H & Magoulas G người dùng còn thấp. Đây cũng là những hạn (2001). INSPIRE: An intelligent system for personalized instruction in a remote environment. Proceedings of 3rd chế đã được khảo sát trong nghiên cứu của Workshop on Adaptive Hypertext and Hypermedia, Sonthoven, Economides và Roupas (2007), Bridegeman, Germany, pp.13–24. Lennon và Jackenthal (2017). Một số hướng tiếp 8. Ling G, Attali Y, Finn B, Stone EA (2017). Is a Computerized Adaptive Test More Motivating Than a Fixed-Item Test? cận mới có thể giúp cải tiến phương pháp thiết Applied Psychological Measurement, 41(7):495–511. kế thuật toán và giải quyết vấn đề chất lượng 9. Thomson N (2007). A Practitioner’s Guide for Variable-length Computerized Classification Testing. Practical Assessment, ứng dụng CAT(18,19,20). Research & Evaluation, 12 (1):1-13. KẾT LUẬN 10. Eggen TJHM (2001). Overexposure and underexposure of items in computerized adaptive testing. Measurement and Nghiên cứu đã ghi nhận được tính giá trị, độ Research Department Reports 2001-1. Citogroep Arnhem. 11. Roex A, Degryse J (2004) A computerized adaptive knowledge tin cậy và thỏa dụng trong áp dụng thuật toán test as an assessment tool in general practice: a pilot study. thích nghi của phần mềm UMPCAT. Phần mềm Medical Teacher, 26(2):178-183. 12. Seo DG (2017). Overview and current management of UMPCAT thể hiện tính ưu việt và tiềm năng computerized adaptive testing in licensing/certification ứng dụng, tạo trải nghiệm tích cực về tâm lý đối examinations. Journal of Educational Evaluation of Health với thí sinh, dễ sử dụng, hiệu quả và tiết kiệm Professions, pp.14-17. 13. Kane LT, Namdari S, Plummer OR, Beredjiklian P, Vaccaro A, kinh phí. Việc triển khai các nghiên cứu tiếp theo Abboud JA (2020). Use of Computerized Adaptive Testing to là cần thiết nhằm đánh giá để nâng cao độ chính Develop More Concise Patient-Reported Outcome Measures. JBJS Open Access, 5(1):e0052. xác, tính bảo mật của phương pháp, cải tiến tính 14. Weiss DJ (2004). Computerized Adaptive Testing for Effective tương tác với thí sinh, mở rộng phạm vi ứng and Efficient Measurement in Counseling and Education, Measurement and Evaluation in Counseling and Development, dụng như trong đánh giá thường xuyên, tổng 37(2):70-84 kết kết quả học tập của người học trong các lĩnh 15. Lê Thái Hưng, Trần Thị Hoa, Đặng Thị Mây, Hoàng Lan Hương (2019). Phát triển ngân hàng trắc nghiệm thích ứng để vực học thuật phù hợp. đánh giá năng lực đọc hiểu môn Ngữ văn của học sinh lớp 10 trung học phổ thông. Khoa học Giáo dục Việt Nam, 24(12):54-59. Lời cảm ơn 16. Lê Xuân Tài, Đặng Hoài Phương (2015). Xây dựng mô hình Nghiên cứu được thực hiện với sự hỗ trợ từ trắc nghiệm thích nghi trên cơ sở lý thuyết đáp ứng câu hỏi. Khoa học Đại học Huế, 97(9):1-17. nguồn kinh phí khoa học công nghệ của Đại học 17. Travitzky R, Meneghetti DDR, Alavarse OM, Catalani EMT Y Dược Thành phố Hồ Chí Minh. Nghiên cứu (2018). How to build a Computerized Adaptive Test with free software and pedagogical relevance? Proceedings of IAC 2018 in không có xung đột lợi ích theo quy định. Vienna, pp.117-126. 184
Nghiên cứu Y học Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 18. Delgado-Gomez D, Laria JC, Ruiz-Hernandez D (2018). (Eds.), Development of computerized middle school Computerized adaptive test and decision trees: a unifying achievement test (in Korean). Seoul, South Korea: Komesa Press. approach. Expert systems with applications, 117: 358-266. 24. Colwell NM (2013). Test anxiety, computer-adaptive testing 19. Chen SY (2005). Controlling Item Exposure and Test Overlap and the common core. Journal of Education and Training Studies, in Computerized Adaptive Testing. Applied Psychological doi:10.11114/jets.v1i2.101. Measurement, 3(29):204-217. 25. Economides, A.A. & Roupas, C. (2007). Evaluation of computer 20. Eggen T (2011). Computerized classification testing with the adaptive testing systems. International Journal of Web Web-Based Rasch model. Educational Research and Evaluation, 5(17): 361-371. Learning and Teaching Technologies, 2(1). 21. Tessmer M (1993). Planning and conducting formative 26. Bridgeman B, et al (2003). Effects of Screen Size, Screen evaluations. Kogan Page. URL: Resolution, and Display Rate on Computer-Based Test https://books.google.com.vn/books?id=eEsO- Performance. Applied Measurement in Education, 16(3):191-205. LvMS60C&printsec=frontcover&hl=vi&source=gbs_ge_summ ary_r&cad=0#v=onepage&q&f=false. Ngày nhận bài: 02/04/2024 22. Callear D & King T (1997). Using computer based tests for information science. ALT-J, 5(1):27-32. Ngày chấp nhận đăng bài: 10/06/2024 23. Linacre JM (2000). Computer-adaptive testing: A methodology Ngày đăng bài: 11/06/2024 whose time has come. In S Chae, U Kang, E Jeon & JM Linacre 185