intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng mô hình đo lường Rasch trong đánh giá mức kiến thức người học bằng trắc nghiệm thích nghi trên máy tính

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

1
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày mục tiêu: Đánh giá hiệu quả và hiệu năng thuật toán trắc nghiệm thích nghi (CAT) trong đánh giá đầu vào của người học qua trắc nghiệm trên máy tính (CBT). Đối tượng - Phương pháp: Thuật toán hệ thống CAT được thiết kế dựa trên việc tích hợp mô hình Rasch vào bài kiểm tra thích ứng trên máy tính, sử dụng ngôn ngữ lập trình PHP và cơ sở dữ liệu MySQL.

Chủ đề:
Lưu

Nội dung Text: Ứng dụng mô hình đo lường Rasch trong đánh giá mức kiến thức người học bằng trắc nghiệm thích nghi trên máy tính

  1. Nghiên cứu Y học Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 ỨNG DỤNG MÔ HÌNH ĐO LƯỜNG RASCH TRONG ĐÁNH GIÁ MỨC KIẾN THỨC NGƯỜI HỌC BẰNG TRẮC NGHIỆM THÍCH NGHI TRÊN MÁY TÍNH Vĩnh Sơn1, Trần Thị Diệu1, Hoàng Đạo Bảo Trâm1, Phạm Dương Uyển Bình1, Phạm Lê An1, Nguyễn Anh Vũ1 TÓM TẮT Mục tiêu: Đánh giá hiệu quả và hiệu năng thuật toán trắc nghiệm thích nghi (CAT) trong đánh giá đầu vào của người học qua trắc nghiệm trên máy tính (CBT). Đối tượng - Phương pháp: Thuật toán hệ thống CAT được thiết kế dựa trên việc tích hợp mô hình Rasch vào bài kiểm tra thích ứng trên máy tính, sử dụng ngôn ngữ lập trình PHP và cơ sở dữ liệu MySQL. Nghiên cứu mô tả một số nguyên tắc hoạt động cơ bản và triển khai cần thiết để xây dựng và đánh giá thuật toán, xác định hạn chế và đề xuất giải pháp cải tiến. Kết quả: Nghiên cứu chỉ ra thuật toán hoạt động có hiệu quả và hiệu năng, cung cấp bằng chứng cho thấy bài kiểm tra thích ứng có tính cô đọng và chính xác hơn bài kiểm tra không thích ứng. Kết luận: Kết quả nghiên cứu ghi nhận tính hiệu quả và hiệu suất của thuật toán CAT cũng như một số đề xuất cải tiến chất lượng thuật toán. Từ khóa: đo lường năng lực, đánh giá quá trình, trắc nghiệm trên máy tính (CBT), trắc nghiệm thích nghi năng lực (CAT), mô hình Rasch, lý thuyết đáp ứng câu hỏi (IRT) ABSTRACT APPLICATION OF RASCH MEASUREMENT MODEL IN COMPUTERIZED ADAPTIVE TESTING FOR STUDENT KNOWLEDGE ASSESSMENT Vinh Son, Tran Thi Dieu, Hoang Dao Bao Tram, Pham Duong Uyen Binh, Pham Le An, Nguyen Anh Vu * Ho Chi Minh City Journal of Medicine * Vol. 27 - No. 1 - 2024: 177 - 185 Objective: To evaluate the effectiveness and efficiency of an adaptive ability testing algorithm (CAT) for the assessment of student's entry knowledge level based on a computer-based testing system (CBT). Methods: The CAT system algorithm was designed based on the integration of Rasch model into computer- based adaptive ability testing, using PHP programming language and MySQL database. The study describes some basic operational principles and implementation needed to build and evaluate the algorithm, identify limitations and suggest solutions. Results: The CAT algorithm was shown to be effective and efficient, giving evidence the adaptive test be more concise and accurate than the non-adaptive test. Conclusion: The research results recognized the effectiveness and efficiency of the CAT algorithm as well as suggestion for further quality improvement of the algorithm. Keywords: Ability measurement, formative evaluation, computer-based test (CBT), computerized adaptive test (CAT), Rasch model, item response theory (IRT) ĐẶT VẤNĐỀ trình quan trọng góp phần đảm bảo đảm chất Đánh giá kiến thức của người học là một quá lượng đào tạo, có tính đặc thù đối với các Đại học Y Dược TP. Hồ Chí Minh 1 Tác giả liên lạc: TS. Nguyễn Anh Vũ ĐT: 0909090838 Email: nguyenanhvu@ump.edu.vn Tạp chí Y học Thành phố Hồ Chí Minh, 27(1):177-185. DOI: 10.32895/hcjm.m.2024.01.25 177
  2. Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Nghiên cứu Y học chương trình đào tạo chuyên ngành khoa học một câu hỏi có độ khó trung bình sau đó dựa sức khỏe. Bên cạnh việc sử dụng hiệu quả các trên kết quả trả lời câu hỏi này để ước lượng của phương pháp đánh giá truyền thống, việc cập thí sinh, điều chỉnh độ khó của câu hỏi tiếp và nhật ứng dụng phù hợp các phương pháp đánh lựa chọn từ ngân hàng câu hỏi. Quá trình được giá hiện đại sẽ góp phần nâng cao chất lượng lặp lại và hoản tất khi ước lượng mức trình độ đào tạo, giúp người học phát triển đầy đủ các kiến thức của thí sinh đạt được độ chính xác đã năng lực cần thiết. Việc ứng dụng công nghệ định trước, hoặc đạt đến giới hạn số câu hỏi nhất thông tin và đo lường giáo dục học nhằm liên định đã được trả lời(4). CAT được nghiên cứu từ tục cải tiến và nâng cao chất lượng khảo thí đã 1970(5) và được sử dụng lần đầu năm 1985, trở và đang hình thức trắc nghiệm truyền thống nên phổ biến từ những năm 1990 trong nhiều sang trắc nghiệm trên máy tính (CBT). Bài trắc lĩnh vực như giáo dục, tuyển dụng, đánh giá tâm nghiệm dạng tuyến tính là một hình thức CBT lý và sức khỏe(5,6,7), cho thấy phương pháp này có hiện nay rất phổ biến và được sử dụng rộng rãi thể giải quyết các khuyết điểm của trắc nghiệm để đánh giá người học trong các chương trình cố định(8,9). Bên cạnh một số giới hạn(10,11), nhiều đào tạo trình độ đại học. Một bài trắc nghiệm ưu điểm của CAT được ghi nhận trong các dạng tuyến tính có độ dài cố định, được phân nghiên cứu như quản lý linh hoạt hơn, tiết kiệm phát cho tất cả thí sinh với cùng số lượng câu hỏi chi phí và công sức chuẩn bị, mức độ bảo mật và từ dễ đến khó. Bên cạnh các ưu điểm trong việc tính chính xác cao, thời lượng bài đánh giá ngắn, quản lý chặt chẽ thời gian và nguồn lực tổ chức cũng như trải nghiệm thi thú vị và ít căng thẳng thực hiện, chấm điểm, tính chuẩn hóa về hiệu hơn đối với người được kiểm tra đánh giá(12,13,14). suất làm bài, bài kiểm tra trắc nghiệm tuyến tính Tại Việt Nam, CAT được triển khai ứng dụng tại với độ dài cố định có một số hạn chế, chẳng hạn một số cơ sở từ những năm 2000 và được ghi như số lượng câu hỏi trắc nghiệm phải đủ lớn và nhận là một phương pháp đánh giá hữu một khoảng thời gian làm bài đủ dài. Mặt khác, hiệu(15,16). Tuy nhiên, việc tổ chức thực hiện trên bài kiểm tra chứa những câu hỏi quá khó hoặc thực tế đòi hỏi sự đầu tư nguồn lực và công quá dễ đối với thí sinh, dù các thí sinh sử dụng nghệ lâu dài để có thể phát triển và khai thác cùng một đề nhưng sai số điểm số đánh giá hiệu quả(17). Tại Đại học Y Dược Thành phố Hồ không đồng đều do các thí sinh có mức năng lực Chí Minh, CAT đã được triển khai thử nghiệm trung bình được đánh giá chính xác hơn các thí nhiều năm trên đối tượng sinh viên đại học với sinh ở hai vùng biên đầu và cuối của phổ năng hệ thống phần mềm mạng UMPCAT. Nghiên lực(1,2). Trắc nghiệm thích nghi (CAT) là một cứu này thực hiện tập trung vào đánh giá hiệu dạng CBT được xây dựng dựa trên nguyên tắc quả của thuật toán thích nghi nhằm cải tiến phần tạo lập, cấp phát và quản lý các bài kiểm tra mềm UMPCAT. Trong đó, mô tả đặc điểm kiến đánh giá cá nhân hóa nhờ điều chỉnh linh hoạt trúc và vận hành thuật toán kèm theo đánh giá độ khó của các câu hỏi dựa trên kết quả trả lời quá trình dựa trên một trường hợp số liệu đánh của từng thí sinh. Mỗi thí sinh sẽ nhận một bộ giá năng lực đầu vào của học phần Tin Học Ứng câu hỏi riêng biệt phù hợp với mức trình độ kiến Dụng(18). thức của mình, mỗi câu trả lời được đánh giá kết ĐỐI TƯỢNG -PHƯƠNG PHÁP NGHIÊNCỨU quả ngay. Nếu hai thí sinh có số câu trả lời đúng Đối tượng nghiên cứu bằng nhau thì thí sinh trả lời đúng nhiều câu khó Thuật toán thích nghi của phần mềm hệ hơn sẽ có điểm cao hơn(3). Đối với trắc nghiệm tuyến tính, câu hỏi sử dụng được đưa ra mà thống UMPCAT, bao gồm hai đơn nguyên: lựa chọn câu hỏi cho mỗi thí sinh, và ước lượng không xét đến khả năng trả lời của mỗi thí sinh. Trong khi đó, trắc nghiệm thích nghi bắt đầu từ năng lực thí sinh. Nghiên cứu được thực hiện tại 178
  3. Nghiên cứu Y học Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Đại học Y Dược Thành phố Hồ Chí Minh từ Trang thiết bị tháng 11 năm 2022 đến tháng 12 năm 2023. Cấu hình máy tính chạy UMPCAT gồm CPU Tiêu chuẩn chọn Intel Core i5/i7, AMD Ryzen 5/7; RAM 16GB; hệ Sinh viên đăng ký học phần Tin Học Ứng Dụng. điều hành Window 10, dung lượng bộ nhớ SSD trống 250 GB, trình duyệt Chrome. Tiêu chuẩn loại Sinh viên học lại; hoặc đã có chứng chỉ tin Kiến trúc hệ thống học ứng dụng trình độ B trở lên, chứng chỉ quốc Các thành phần cốt lõi của UMPCAT bao tế ICDL, Cisco, IC3, MOS. gồm ngôn ngữ lập trình PHP, cơ sở dữ liệu MySQL, ứng dụng mô hình Rasch lưỡng phân Phương pháp nghiên cứu với thang đo logit sử dụng một tham số là độ Thiết kế nghiên cứu khó. Trong đó các thành phần cốt lõi của hệ Nghiên cứu trường hợp và đánh giá quá thống là ngân hàng câu hỏi và thuật toán lựa trình. Trong đó có mô tả cắt ngang tại thời điểm chọn câu hỏi. Các câu hỏi trong ngân hàng được đánh giá, thực nghiệm lai hóa giữa mô phỏng chuẩn hóa tham số theo mô hình Rasch và IRT. trên máy tính và kiểm nghiệm thực địa. Thuật toán sử dụng một số câu hỏi khởi đầu để Biến số nghiên cứu ước lượng thô mức trình độ kiến thức của thí Thời gian làm bài (phút), được tính từ câu sinh và những câu hỏi kiểm tra để tinh chỉnh hỏi đầu tiên đến lúc dừng thuật toán. dần độ chính xác của ước lượng. Những câu hỏi Độ dài bài kiểm tra (câu), được tính bằng số khởi đầu được chọn ngẫu nhiên trong tập con câu hỏi được sử dụng trong quá trình thuật toán của tập các câu hỏi có độ khó lân cận mức 0 logit. hoạt động. Quy tắc lựa chọn câu hỏi được thiết lập dựa vào tin lượng Fisher cực đại (Fisher Maximum Độ khó của các câu hỏi (logit), đã được Information, FMI) và phương pháp lượng giá chuẩn độ theo mô hình Rasch. theo khả dĩ cực đại (Conditional Maximum Mức năng lực của thí sinh (logit), được ước Likelihood, CML). Quy tắc dừng thuật toán lượng theo mô hình IRT. được thiết lập dựa trên bốn tiêu chuẩn là độ Nhân lực tham gia chính xác của ước lượng trình độ kiến thức của Giảng viên Bộ môn Tin học và Bộ môn Toán, thí sinh, số câu hỏi giới hạn được dùng trong bài gồm 01 giảng viên điều phối, 01 giảng viên quản kiểm tra, thời gian làm bài, và các quy tắc bắt trị mạng, 05 giảng viên hỗ trợ. buộc dừng (Bảng 1). Bảng 1. Thành phần cấu trúc phần mềm UMPCAT Thành phần phần mềm Thông tin Ngôn ngữ lập trình PHP Cơ sở dữ liệu MySQL Mô hình đo lường Rasch lưỡng phân, sử dụng một tham số độ khó logit. Ngân hàng câu hỏi Tin học ứng dụng, 654 câu, đã chuẩn độ logit theo Rasch. Câu hỏi khởi đầu Tập con của tập các câu hỏi có độ khó lân cận θ = 0 logit. Phương pháp chọn câu hỏi Fisher Maximum Information. Phương pháp ước lượng Maximum likelihood: CMLE, JMLE. Mã 0 Độ chính xác ước lượng đạt yêu cầu. Mã 1 Số câu hỏi vượt quá số câu giới hạn. Mã 2 Thời gian làm bài vượt quá thời gian giới hạn. Quy tắc dừng thuật toán Bắt buộc dừng thuật toán nếu Mã 3 - Thí sinh trả lời đúng hoặc sai tất cả câu hỏi, hoặc - Toàn bộ câu hỏi đã được sử dụng hết. 179
  4. Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Nghiên cứu Y học Triển khai vận hành hệ thống giảng viên môn Tin Học Ứng Dụng về thời gian cần thiết cho thí sinh đối với bài test đánh giá Cấu trúc hệ thống đã được triển khai trên đầu vào gồm 45 câu hỏi. nền tảng web, được phát triển bằng ngôn ngữ lập trình PHP với nhiều ưu điểm như chạy Quy trình nghiên cứu nhẹ, linh hoạt và đa nền tảng, có thể được sử Đánh giá quá trình theo Tessmer (1993) gồm dụng cho nhiều hệ điều hành khác nhau. 3 giai đoạn: đánh giá chuyên gia, đánh giá cá Trong nghiên cứu này, hệ thống được sử dụng nhân và nhóm nhỏ, đánh giá thực nghiệm thực để xác định tham số cho bài kiểm tra trắc địa. nghiệm thích nghi và vận hành bài trắc - Đánh giá chuyên gia được thực hiện với nghiệm dùng trong thử nghiệm thực địa. Kết 01 giảng viên phụ trách học phần, 01 giảng quả thực nghiệm được dùng để đánh giá hiệu viên thiết kế học phần, 01 chuyên gia giáo dục quả và điều chỉnh thuật toán. học, và 01 chuyên viên khảo thí. Chuyên gia Thử nghiệm mô phỏng được thực hiện trên hiểu rõ về bản chất và mức độ tác động của máy tính, dựa trên giả lập một tình huống kiểm nghiên cứu, tự nguyện tham gia và nhận được tra trắc nghiệm trong UMPCAT. Dựa vào mô đầy đủ thông tin về nghiên cứu, quyền của hình Rasch, thống kê sai số ước lượng mức trình người tham gia và bảo mật thông tin cá nhân. độ kiến thức của thí sinh giả lập và số câu hỏi Phương pháp phỏng vấn bán cấu trúc được sử cần thiết để ước lượng đạt độ chính xác được xác dụng, về các chủ đề tính giá trị, hữu dụng, tiện định, sau đó được sử dụng làm các tham số cho lợi và những điểm cần cải tiến. bài kiểm tra thích nghi. Các tham số này được sử - Đánh giá cá nhân và nhóm nhỏ được thực dụng tiếp tục trong thử nghiệm thực địa. Kết hiện với 05 sinh viên đã học xong học phần Tin quả thử nghiệm giúp phát hiện tính năng hiệu Học Ứng Dụng và đã trải qua bài kiểm tra trắc quả thực tế và các vấn đề tồn tại trong vận hành nghiệm CBT dạng tuyến tính. Sinh viên tham gia của thuật toán UMPCAT. đánh giá hiểu rõ về bản chất và mức độ tác động Tình huống mô phỏng giả lập được thiết đặt của nghiên cứu, tự nguyện tham gia và nhận với số thí sinh giả lập là 500, mức trình độ kiến được đầy đủ thông tin về nghiên cứu, quyền của thức thí sinh có phân bố ngẫu nhiên từ -3,0 đến người tham gia và bảo mật thông tin cá nhân. 3,0 logits. Khả năng trả lời đúng mỗi câu hỏi của Đối tượng giới thiệu về phần mềm UMPCAT và mỗi thí sinh giả lập được tính toán theo mô hình mục đích sử dụng phần mềm trong giáo dục. Rasch, với quyết định kết quả trả lời đúng sai Sau đó đối tượng được trải nghiệm cá nhân với dựa trên ngưỡng phân biệt 0,5. Câu hỏi chẩn một số câu hỏi môn Tiếng Anh, Tin Học. Mỗi đoán khởi đầu có độ khó trong khoảng 0,5 ± 0,2 sinh viên mô tả trải nghiệm của mình, chia sẻ logit. Theo đó UMPCAT xuất câu hỏi kế tiếp dựa quan điểm cá nhân về ưu điểm khuyết điểm của trên kết quả trả lời câu hỏi trước của thí sinh. phần mềm. Sinh viên cũng được khuyến khích Nếu kết quả trả lời là đúng, phần mềm lựa chọn đưa ra ý kiến có nên phát triển phần mềm hay câu hỏi tiếp theo có độ khó cao hơn. Nếu kết quả không cũng như cần cải tiến theo hướng nào. trả lời là sai, phần mềm lựa chọn câu hỏi tiếp Sau khi được trải nghiệm cá nhân, sinh viên theo có độ khó thấp hơn. Quá trình đánh giá và được làm thử một bài CAT môn Tin Học Ứng lựa chọn được lặp nhiều lần đến khi sai số ước Dụng. Sau khi có kết quả đánh giá, sinh viên lượng đủ nhỏ. Sau khi mô phỏng được lặp 1000 được phỏng vấn bán cấu trúc về các chủ đề trải lần, kết quả mô phỏng cho thấy số câu hỏi trung nghiệm sử dụng, bao gồm cảm nhận chung về bình là 45, sai số chuẩn SE của ước lượng năng trắc nghiệm dạng CAT trên phần mềm lực thí sinh là 0,3 logit. Thời gian làm bài được UMPCAT, so sánh với trải nghiệm trắc nghiệm ước tính là 60 phút, dựa trên kinh nghiệm của tuyến tính, tính chính xác của đánh giá năng lực 180
  5. Nghiên cứu Y học Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 theo CAT, những điểm hạn chế và tồn tại. thống và chất lượng hỗ trợ sử dụng. Những nội - Đánh giá thực nghiệm thực địa được thực dung đánh giá cụ thể như sau. hiện trong môi trường thực tế, dựa trên đánh giá Về vận hành, phần mềm chạy trên nền tảng mức kiến thức đầu vào của sinh viên đăng ký mạng, gọn nhẹ, dễ sử dụng và quản lý. Về giao học phần Tin Học Ứng Dụng. Quy trình gồm 6 diện người dùng, bố cục trực quan đơn giản, các bước: (1) nhập câu hỏi trắc nghiệm vào phần yếu tố quan trọng được sắp xếp dễ sử dụng và mềm; (2) xác định tham số thích nghi của đề dễ theo dõi, giao diện có phản hồi nhanh và dễ kiểm tra bao gồm số câu hỏi giới hạn, thời gian nhận biết. Thiết kế giao diện phù hợp với mục làm bài giới hạn, độ khó câu hỏi khởi đầu; (3) đích sử dụng phần mềm và nhu cầu khảo thí. khởi động thuật toán lựa chọn câu hỏi thích nghi Tuy nhiên cần chú ý yếu tố thẩm mỹ và sử dụng của phần mềm UMPCAT; (4) quản lý vận hành màu sắc tạo cảm giác thu hút khơi gợi hứng thú phần mềm trong thời gian trắc nghiệm; (5) rà của người dùng. soát các trường hợp quá hạn tham số đề; (6) thu Về thuật toán ước lượng năng lực, cần đánh thập và phân tích số liệu. giá qua thử nghiệm thực địa. Về thuật toán chọn Cỡ mẫu lựa câu hỏi, cần có kiểm soát khả năng một số Trích xuất ngân hàng câu hỏi học phần Tin câu hỏi có tần suất chọn lặp tương đối cao. Điều Học Ứng Dụng: 654 câu hỏi trắc nghiệm tham này ảnh hưởng lớn đến suy giảm tính bảo mật chiếu chuẩn mực (norm-referenced) với 4 lựa chọn. của ngân hàng câu hỏi. Đồng thời, cần chú ý cân đối phân phối nội dung câu hỏi để không bỏ sót Dành cho đánh giá chuyên gia: 04 chuyên gia. những kiến thức cần thiết hoặc quá tập trung Dành cho đánh giá cá nhân và nhóm nhỏ: vào những nội dung kiến thức khác. mẫu tiện lợi có mục đích gồm 05 sinh viên. Về tổng thể, thuật toán UMPCAT vận hành Dành cho đánh giá thực nghiệm thực địa: đúng chức năng được thiết kế. UMPCAT có mẫu tiện lợi gồm 99 sinh viên. tiềm năng ứng dụng rất cao, có thể sử dụng Phân tích số liệu trong đánh giá thành quả học tập. Tuy nhiên Số liệu mô phỏng và số liệu trả lời trắc kết quả đánh giá thuật toán UMPCAT dựa nghiệm của thí sinh được quản lý bằng Excel trên trường hợp, vì vậy phụ thuộc rất lớn vào 2016, phân tích và phối kiểm bằng R 4.3.1 và mẫu thí sinh và mẫu câu hỏi của học phần JASP 0.18.1. Biến định tính được mô tả bằng tần được sử dụng. Do đó hiệu năng của thuật toán số và tỷ lệ phần trăm, so sánh bằng kiểm định χ2 cần được nghiên cứu đánh giá thêm, mở rộng qua các bài kiểm tra giữa kỳ và cuối kỳ cũng hoặc Fisher nếu có tần số kỳ vọng dưới 5. Biến như với các học phần khác. định lượng được biểu diễn thông qua giá trị trung bình và độ lệch chuẩn, áp dụng kiểm định Đánh giá kết hợp cá nhân và nhóm nhỏ Shapiro-Wilk để kiểm tra phân phối chuẩn và Kết quả đánh giá cá nhân bao gồm trải kiểm định Student để so sánh, sử dụng kiểm nghiệm cá nhân khi sử dụng phần mềm, chia sẻ định Mann-Whitney trong trường hợp phân cảm nhận về tính năng sản phẩm, góp ý phát phối không chuẩn. Khác biệt có ý nghĩa thống kê triển sản phẩm. Kết quả đánh giá của nhóm bao gồm các lỗi gặp phải trong khi sử dụng, phản khi p
  6. Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Nghiên cứu Y học thời gian làm bài đều giảm đi rõ rệt. Về những thức thí sinh được ước lượng xấp xỉ bằng độ khó mặt hạn chế, sinh viên cho biết giao diện người logit của câu hỏi cuối cùng trong dãy các câu hỏi dùng thiếu yếu tố thẩm mỹ đồ họa. Tính tương kiểm tra (Hình 1). tác chưa cao do đánh giá kết quả trả lời mỗi câu Trong 6 câu hỏi đầu bài kiểm tra CAT, sai số hỏi cũng như nội dung câu hỏi tiếp theo không ước lượng khá lớn và mức độ giảm sai số tương hiển thị ngay sau khi trả lời mỗi câu hỏi. Tất cả đối nhỏ. Sai số ước lượng ngày càng giảm và sinh viên đều cho biết có cảm giác bài kiểm tra thuật toán đạt độ chính xác ở bước 45, số câu hỏi thích nghi không quá căng thẳng nhưng lại kiểm tra được dùng để đánh giá mức trình độ nghiêm ngặt hơn bài kiểm tra tuyến tính, và có kiến thức là 44. Trong toàn bài kiểm tra CAT, có thể gây ra sự bó buộc vì mỗi câu hỏi đều là một rất ít số câu có độ khó cao vượt mức hoặc thấp chỉ định không thể bỏ qua, cũng như kết quả trả hơn hẳn mức trình độ kiến thức thí sinh, phần lời các câu hỏi trước là không thể thay đổi. nhiều là các câu hỏi có độ khó xấp xỉ mức trình Đánh giá thực địa độ kiến thức của thí sinh (Bảng 2). Kết quả thực nghiệm trên thực địa cho thấy Độ khó cổ điển có phân phối lệch trái rõ các diễn trình của thuật toán ước lượng mức rệt, cho thấy tỷ lệ trả lời đúng tính trên mẫu năng lực thí sinh, phân bố độ khó của ngân hàng rất lớn các thí sinh là khá cao. Độ khó logit có câu hỏi, phân phối mức năng lực của thí sinh phân phối đối xứng khá rõ và nhọn so với cũng như các thông số độ dài bài thi, thời gian phân phối chuẩn, cho thấy so với phân phối làm bài. Dưới đây là một biểu đồ minh họa điển chuẩn thì tỷ lệ thấp hơn ở các câu hỏi đánh giá hình một diễn trình ước lượng mức kiến thức thí mức trình độ kiến thức trung bình trong khi tỷ sinh của phần mềm UMPCAT, kết quả được lệ câu hỏi nhằm đến mức trình độ kiến thức trích xuất từ dữ liệu của một sinh viên có mức cao và thấp lại cao hơn ở hai biên. Đặc điểm kiến thức trên trung bình. Hai câu hỏi khởi đầu này phù hợp với đánh giá mức trình độ kiến được dùng để chẩn đoán khu trú mức kiến thức thức đầu vào của sinh viên mới đăng ký học thí sinh, các câu hỏi sau đó kiểm tra đánh giá phần lần đầu (Bảng 3). mức kiến thức thí sinh. Giá trị logit của mức kiến Hình 1. Quá trình trắc nghiệm thích nghi năng lực thí sinh với UMPCAT Bảng 2. Độ khó của câu hỏi trong ngân hàng câu hỏi thử nghiệm Trung bình Trung vị Tham số Min Max Shapiro Wilk P ± ĐLC (Q25 - Q75) -0,159 Độ khó theo Rasch (logit) -0,091 ± 1,454 -5,881 4,950 0,993 < 0,001 (-1,041 ; 0,803) 0,79 Độ khó cổ điển 0,75 ± 0,17 0,1 0,99 0,905 < 0,001 (0,67; 0,88) Kiểm định Shapiro-Wilk cho phân phối chuẩn 182
  7. Nghiên cứu Y học Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Bảng 3. Lý do dừng thuật toán Lý do dừng thuật toán Thí sinh P Chung Đủ chính xác Quá số câu Quá thời gian Nữ, n(%) 37 (37,4) 31 (83,8) 0 (0) 6 (16,2) Nam, n(%) 62 (62,6) 54 (87,1) 2 (3,2) 6 (9,7) 0,438 Chung, n(%) 85 (85,9) 2 (2,0) 12 (12,1) 99 (100) KTC95% 77,7 – 91,4 0,6 – 7,1 7,1 – 20,0 So sánh phân phối tỷ lệ các lý do giữa hai giới bằng Kiểm định Fisher Exact Bảng 4. Mức trình độ kiến thức thí sinh, độ dài bài thi và thời gian làm bài Biến số Chung (n = 86) Nam (n = 54) Nữ (n = 31) P Năng lực thí sinh (logit) Trung bình ± ĐLC -0,743 ± 1,002 -0,766 ± 1,081 -0,704 ± 0,865 0,769a Min – Max -3,534 – 1,411 -3,534; 1,411 -2,358; 1,038 - Trung vị -0,758 -0,698 -0,797 - Q25 – Q75 -1,273; -0,039 -1,27; -0,039 -1,204; -0,133 - Độ dài bài kiểm tra Trung bình ± ĐLC 44,68 ± 4,96 44,80 ± 5,40 44,60 ± 4,3 0,606b Min – Max 20 ; 58 20 ; 58 20 ; 58 - Trung vị 45 44 45 - Q25 – Q75 43 - 47 43 – 47 43 – 47 - Thời gian làm bài (phút) Trung bình ± ĐLC 28,8 ± 8,8 28,00 ± 8,8 30,1 ± 8,6 0,236a Min – Max 9,7 - 50 9,7 – 50 14,0 – 45,6 - Trung vị 28,4 28,1 28,7 - Q25 – Q75 23,0 ; 34,7 22,3 ; 33,6 24,2 ; 37,9 - So sánh trung bình bằng a Kiểm định Student b Kiểm định Mann-Whitney Tỷ lệ dừng thuật toán do đạt độ chính xác rệt. Một bài kiểm tra CBT tuyến tính thông cần thiết đạt gần 86%. Tỷ lệ các lý do dừng thuật thường gồm từ 100 đến 120 câu hỏi, và thường toán khác biệt không có ý nghĩa thống kê giữa có SE khoảng từ 0,5 đến 0,7. Như vậy bài kiểm hai nhóm giới tính. Giới tính không liên quan có tra thích nghi có thời gian làm bài giảm trung ý nghĩa thống kê với quá giới hạn số câu và thời bình 20 phút, độ dài giả xấp xỉ 50% chỉ còn 40 gian kiểm tra (p = 0,340) (Bảng 4). đến 60 câu, kết quả lượng giá mức trình độ kiến thức thí sinh đạt độ chính xác cao hơn với SE là Mức trình độ kiến thức thí sinh có phân phối 0,3 logit. Kết quả này phù hợp các nghiên cứu chuẩn (p = 0,592 đối với nữ, p = 0,284 đối với của Wainer (1990), Callear và King (1997), nam), số đo năng lực biến động trong phạm vi Linacre (2000). Bài kiểm tra CAT thành công từ -3,5 đến 1,4 logits. Độ dài bài kiểm tra trung trong việc hạn chế đưa ra câu hỏi quá khó hoặc bình 45 câu, biến động trong phạm vi từ 20 câu quá dễ đối với từng cá nhân, đặc biệt giảm mức đến 58 câu. Thời gian làm bài có phân phối độ căng thẳng tâm lý trong thi cử là một yếu tố chuẩn, với trung bình 28,7 phút, thời gian ngắn gây nhiễu khi đo lường năng lực thực hiện công nhất là 9,7 phút và dài nhất là 50 phút. Mức trình việc đã học. Tuy nhiên bài kiểm tra thích nghi có độ kiến thức đầu vào, số câu hỏi được kiểm tra thể gây ra những hiệu ứng tâm lý khác liên quan và thời gian làm bài không khác biệt có ý nghĩa đến trình tự của dãy câu hỏi và sự không thể thống kê giữa hai nhóm giới tính. quay lại các câu hỏi đã trả lời trước đó. Kết quả BÀN LUẬN này phù hợp với Linacre (2000) và Colwell Kết quả nghiên cứu cho thấy bài kiểm tra (2013). Mặt khác, mô hình Rasch là mô hình đo trắc nghiệm CBT thích nghi so với bài kiểm tra lường khách quan vừa mạnh vừa tương đối đơn trắc nghiệm CBT tuyến tính có sự khác biệt rõ giản để triển khai trong phần mềm máy tính. Mô 183
  8. Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 Nghiên cứu Y học hình Rasch cũng giúp hiệu chuẩn các câu hỏi TÀI LIỆU THAM KHẢO kiểm tra theo một thang đo logit chung, kể cả khi 1. Oakleaf M (2008). Dangers and Opportunities: A Conceptual ngân hàng câu hỏi được cập nhật liên tục. Map of Information Literacy Assessment Approaches. Libraries and the Academy, 8(3):233–253. Những đặc điểm này phù hợp với việc thiết kế 2. Weiss DJ (1985). Adaptive testing by computer. Journal of và phát triển ứng dụng thuật toán trắc nghiệm Consulting and Clinical Psychology, 53(6):774–789. 3. Wainer H, et al (1990) Computerized Adaptive Testing: A thích nghi UMPCAT. Ưu điểm của thuật toán Primer. Lawrence Erlbaum Associates. giúp dễ dàng lựa chọn các câu hỏi trắc nghiệm 4. Meijer RR, Nering ML (1999). Computerized Adaptive Testing: phù hợp với mức trình độ kiến thức thí sinh, dễ Overview and Introduction. Applied Psychological Measurement, 23(3):187–194. hiệu chỉnh và tối ưu hóa hiệu suất thuật toán. 5. Drasgow, F (2002). The work ahead: A psychometric Mức trình độ kiến thức thí sinh được ước lượng infrastructure for computerized adaptive tests. In CN Mills, theo mô hình lý thuyết đáp ứng câu hỏi IRT, MT Potenza, JJ Fremer & WC Ward (Eds.). Computer-based testing: Building the foundation for future assessments, pp.67– thuật toán ước lượng đạt độ chính xác cao. Bên 88. Hillsdale, NJ: Lawrence Erlbaum. cạnh đó, nghiên cứu cũng chỉ ra một số hạn chế 6. Larson JW & Madsen HS (1985). Computer-adaptive language testing: Moving beyond computer-assisted testing. CALICO của thuật toán lựa chọn câu hỏi, tính thẩm mỹ Journal, 2(3):32-6. của giao diện người dùng và tính tương tác với 7. Grigoriadou M, Papanikolaou K, Kornilakis H & Magoulas G người dùng còn thấp. Đây cũng là những hạn (2001). INSPIRE: An intelligent system for personalized instruction in a remote environment. Proceedings of 3rd chế đã được khảo sát trong nghiên cứu của Workshop on Adaptive Hypertext and Hypermedia, Sonthoven, Economides và Roupas (2007), Bridegeman, Germany, pp.13–24. Lennon và Jackenthal (2017). Một số hướng tiếp 8. Ling G, Attali Y, Finn B, Stone EA (2017). Is a Computerized Adaptive Test More Motivating Than a Fixed-Item Test? cận mới có thể giúp cải tiến phương pháp thiết Applied Psychological Measurement, 41(7):495–511. kế thuật toán và giải quyết vấn đề chất lượng 9. Thomson N (2007). A Practitioner’s Guide for Variable-length Computerized Classification Testing. Practical Assessment, ứng dụng CAT(18,19,20). Research & Evaluation, 12 (1):1-13. KẾT LUẬN 10. Eggen TJHM (2001). Overexposure and underexposure of items in computerized adaptive testing. Measurement and Nghiên cứu đã ghi nhận được tính giá trị, độ Research Department Reports 2001-1. Citogroep Arnhem. 11. Roex A, Degryse J (2004) A computerized adaptive knowledge tin cậy và thỏa dụng trong áp dụng thuật toán test as an assessment tool in general practice: a pilot study. thích nghi của phần mềm UMPCAT. Phần mềm Medical Teacher, 26(2):178-183. 12. Seo DG (2017). Overview and current management of UMPCAT thể hiện tính ưu việt và tiềm năng computerized adaptive testing in licensing/certification ứng dụng, tạo trải nghiệm tích cực về tâm lý đối examinations. Journal of Educational Evaluation of Health với thí sinh, dễ sử dụng, hiệu quả và tiết kiệm Professions, pp.14-17. 13. Kane LT, Namdari S, Plummer OR, Beredjiklian P, Vaccaro A, kinh phí. Việc triển khai các nghiên cứu tiếp theo Abboud JA (2020). Use of Computerized Adaptive Testing to là cần thiết nhằm đánh giá để nâng cao độ chính Develop More Concise Patient-Reported Outcome Measures. JBJS Open Access, 5(1):e0052. xác, tính bảo mật của phương pháp, cải tiến tính 14. Weiss DJ (2004). Computerized Adaptive Testing for Effective tương tác với thí sinh, mở rộng phạm vi ứng and Efficient Measurement in Counseling and Education, Measurement and Evaluation in Counseling and Development, dụng như trong đánh giá thường xuyên, tổng 37(2):70-84 kết kết quả học tập của người học trong các lĩnh 15. Lê Thái Hưng, Trần Thị Hoa, Đặng Thị Mây, Hoàng Lan Hương (2019). Phát triển ngân hàng trắc nghiệm thích ứng để vực học thuật phù hợp. đánh giá năng lực đọc hiểu môn Ngữ văn của học sinh lớp 10 trung học phổ thông. Khoa học Giáo dục Việt Nam, 24(12):54-59. Lời cảm ơn 16. Lê Xuân Tài, Đặng Hoài Phương (2015). Xây dựng mô hình Nghiên cứu được thực hiện với sự hỗ trợ từ trắc nghiệm thích nghi trên cơ sở lý thuyết đáp ứng câu hỏi. Khoa học Đại học Huế, 97(9):1-17. nguồn kinh phí khoa học công nghệ của Đại học 17. Travitzky R, Meneghetti DDR, Alavarse OM, Catalani EMT Y Dược Thành phố Hồ Chí Minh. Nghiên cứu (2018). How to build a Computerized Adaptive Test with free software and pedagogical relevance? Proceedings of IAC 2018 in không có xung đột lợi ích theo quy định. Vienna, pp.117-126. 184
  9. Nghiên cứu Y học Y học Thành phố Hồ Chí Minh * Tập 27 * Số 1 * 2024 18. Delgado-Gomez D, Laria JC, Ruiz-Hernandez D (2018). (Eds.), Development of computerized middle school Computerized adaptive test and decision trees: a unifying achievement test (in Korean). Seoul, South Korea: Komesa Press. approach. Expert systems with applications, 117: 358-266. 24. Colwell NM (2013). Test anxiety, computer-adaptive testing 19. Chen SY (2005). Controlling Item Exposure and Test Overlap and the common core. Journal of Education and Training Studies, in Computerized Adaptive Testing. Applied Psychological doi:10.11114/jets.v1i2.101. Measurement, 3(29):204-217. 25. Economides, A.A. & Roupas, C. (2007). Evaluation of computer 20. Eggen T (2011). Computerized classification testing with the adaptive testing systems. International Journal of Web Web-Based Rasch model. Educational Research and Evaluation, 5(17): 361-371. Learning and Teaching Technologies, 2(1). 21. Tessmer M (1993). Planning and conducting formative 26. Bridgeman B, et al (2003). Effects of Screen Size, Screen evaluations. Kogan Page. URL: Resolution, and Display Rate on Computer-Based Test https://books.google.com.vn/books?id=eEsO- Performance. Applied Measurement in Education, 16(3):191-205. LvMS60C&printsec=frontcover&hl=vi&source=gbs_ge_summ ary_r&cad=0#v=onepage&q&f=false. Ngày nhận bài: 02/04/2024 22. Callear D & King T (1997). Using computer based tests for information science. ALT-J, 5(1):27-32. Ngày chấp nhận đăng bài: 10/06/2024 23. Linacre JM (2000). Computer-adaptive testing: A methodology Ngày đăng bài: 11/06/2024 whose time has come. In S Chae, U Kang, E Jeon & JM Linacre 185
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2