intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm Conquest tại Học viện Quân y

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

33
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng câu hỏi (IRT). Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học phần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số của câu hỏi, đề thi trắc nghiệm.

Chủ đề:
Lưu

Nội dung Text: Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm Conquest tại Học viện Quân y

  1. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 PHÂN TÍCH, ĐÁNH GIÁ CÂU HỎI VÀ ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN HỌC PHẦN BỆNH HỌC NHI KHOA BẰNG PHẦN MỀM CONQUEST TẠI HỌC VIỆN QUÂN Y Hoàng Anh Tuấn1, Đặng Văn Cao1, Nguyễn Việt Hưng1 TÓM TẮT Mục đích: Đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng câu hỏi (IRT). Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học phần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số của câu hỏi, đề thi trắc nghiệm. Kết quả: Hệ số tin cậy (Sr - Separation reliability) = 0,905. Câu hỏi trắc nghiệm được phân thành 3 nhóm: Câu hỏi tốt, câu hỏi chưa tốt cần chỉnh sửa, câu hỏi cần loại bỏ). Độ khó của câu hỏi được chia thành 3 nhóm: Câu hỏi có độ khó trung bình, câu hỏi dễ, câu hỏi quá dễ so với năng lực của thí sinh. Kết luận: Câu hỏi thi trắc nghiệm khách quan có thông số phù hợp, đề thi phù hợp với mô hình Rash, độ tin cậy cao, đánh giá đúng nội dung, dễ so với năng lực của thí sinh. * Từ khóa: Trắc nghiệm; Lý thuyết khảo thí cổ điển; Thuyết đáp ứng câu hỏi; Phần mềm Conquest. Analysis and Evaluation of Questions and Objective Test of Pediatric Disease Software by Conquest Software at Vietnam Military Medical University Summary Objectives: To evaluate the quality of questions and on multiple-choice questions using question-response theory (IRT). Subjects and methods: Multiple-choice questions and multiple-choice questions in the Pediatric Pathology section were processed using Conquest software to provide the parameters of the questions and multiple-choice questions. Results: Separation reliability = 0.905. Multiple choice questions were divided into 3 groups: Good questions, bad questions that need editing, and questions that need to be eliminated. The difficulty of the question was divided into 3 groups: Medium difficulty questions, easy questions, and too easy questions compared to the competitor's ability. Conclusion: Objective multiple- choice questions with appropriate parameters, exam questions suitable for the Rash model, high reliability, correct content assessment, easy compared to the candidate's capacity. * Keywords: Testing; Classic test theory; Theory of response to the question; Conquest software. 1 Phòng Khoa học Quân sự, Học viện Quân y Người phản hồi: Hoàng Anh Tuấn (hoanganhtuan@vmmu.edu.vn) Ngày nhận bài: 20/2/2021 Ngày bài báo được đăng: 28/4/2021 134
  2. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 ĐẶT VẤN ĐỀ năng của nó. Chúng tôi nghiên cứu đề tài này nhằm: Đánh giá chất lượng câu hỏi Kiểm tra đánh giá là một khâu rất quan trắc nghiệm khách quan và đề thi học trọng trong quá trình đổi mới đào tạo. phần Bệnh học Nhi khoa. Kiểm tra đánh giá khách quan, nghiêm túc, công bằng, đúng cách sẽ tạo động ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP lực cho người học, khích lệ người học NGHIÊN CỨU trên con đường chiếm lĩnh tri thức. Mặt khác, thông qua hoạt động kiểm tra đánh 1. Đối tượng nghiên cứu giá giúp giảng viên và các nhà quản lý đổi Dữ liệu thu thập từ kết quả thi của 86 mới về phương pháp giảng dạy, phương thí sinh với đề thi 50 câu hỏi trắc nghiệm pháp quản lý để hỗ trợ người học đạt khách quan môn Bệnh học Nhi khoa tại được các mục tiêu trong học tập. Những Học viện Quân y năm 2021. Ngân hàng năm gần đây, tại Học viện Quân y, bên câu hỏi thi trắc nghiệm sau khi được biên cạnh việc đổi mới chương trình và soạn đảm bảo đáp ứng được nội dung phương pháp giảng dạy, hoạt động đổi yêu cầu của chương trình đào tạo. mới phương pháp kiểm tra đánh giá cũng 2. Phương pháp nghiên cứu được quan tâm, chú trọng bằng việc thay đổi quan điểm tiếp cận về lý luận kiểm tra Sử dụng phần mềm Conquest xử lý đánh giá, thay đổi phương pháp kiểm tra kết quả thi được trích xuất từ phần mềm đánh giá phù hợp với yêu cầu của hoạt thi trắc nghiệm sau khi thi xong. động giảng dạy. Hình thức thi trắc nghiệm Chương trình Conquest cho ra các khách quan là phương pháp đánh giá có thông số về mức độ phù hợp của câu hỏi nhiều ưu điểm được sử dụng trong nhiều với mô hình Rash, năng lực thí sinh với kỳ thi quan trọng như: Thi tuyển sinh Đại độ khó của câu hỏi, độ tin cậy của đề thi học, thi tốt nghiệp Trung học phổ thông và các đặc trưng của câu hỏi đó là độ Quốc gia… và ngày càng được áp dụng khó, độ phân biệt, hệ số tương quan của với nhiều môn thi tại Học viện Quân y câu hỏi với toàn bài, độ tin cậy và sai số. trong những năm gần đây. Tuy nhiên, * Các thông số đánh giá câu hỏi và đề hiện nay các câu hỏi trắc nghiệm khách thi trắc nghiệm: quan và đề thi trắc nghiệm được sử dụng tại Học viện Quân y chưa được đánh giá Sau khi câu hỏi trắc nghiệm khách một cách khoa học và khách quan. Do đó, quan được nghiệm thu về nội dung, cần việc nâng cao chất lượng của câu hỏi trắc định lượng các tham số của câu hỏi bằng nghiệm, cũng như đánh giá mức độ phù kết quả trả lời của thí sinh với câu hỏi đó. hợp của đề thi với năng lực của sinh viên Theo lý thuyết khảo thí cổ điển, câu hỏi là rất quan trọng để hoạt động kiểm tra cần đạt được các giá trị về độ khó, độ đánh giá thực hiện được vai trò và chức phân biệt. Các giá trị này được tính toán 135
  3. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 dựa trên kết quả về thống kê mà không cậy của đề trắc nghiệm có thể được xem xét nội dung thuộc vào lĩnh vực nào. đánh giá bằng nhiều phương pháp như: - Độ khó của câu hỏi (p): Là tỷ lệ phần Trắc nghiệm - trắc nghiệm lại; đề thi trắc trăm thí sinh trả lời đúng câu hỏi/tổng số nghiệm tương đương; phân đôi đề thi trắc thí sinh tham gia trả lời. Giá trị của p nằm nghiệm; phương pháp Kuder-Richardson; trong khoảng 0,1, p càng lớn thì câu hỏi hệ số Cronbach alpha: là biểu thức dùng càng dễ và ngược lại. Giá trị của có thể ước lượng độ tin cậy của một đề kiểm tra chấp nhận được nằm trong khoảng tổng thể (có thể gồm nhiều đề trắc 0,25 - 0,75; câu hỏi có p < 0,25 là quá nghiệm con nhị phân hoặc đa phân, được khó, câu hỏi có p > 0,75 là quá dễ với thí sử dụng nhiều trong tâm lý và giáo dục). sinh (Lord [2]). Về lý thuyết, giá trị độ tin cậy nằm trong khoảng 0 - 1. Độ tin cậy cao nghĩa là các - Độ phân biệt của câu hỏi trắc nghiệm câu hỏi có độ gắn kết với nhau. Thí sinh hoặc đề thi trắc nghiệm: Là khả năng trả lời được câu hỏi này có xu hướng trả phân biệt được năng lực của thí sinh: lời được các câu hỏi cùng nhóm. Đề thi giỏi, khá, trung bình, kém… Độ phân biệt có độ tin cậy > 0,8 là rất tốt và có thể sử của câu hỏi liên quan đến độ khó của câu dụng cho đề thi trên lớp; độ tin cậy từ hỏi. Nếu một câu hỏi quá khó hay quá dễ 0,7 - 0,8 là tốt, tuy nhiên cần chỉnh sửa thì phản ứng của thí sinh có năng lực một số câu hỏi; độ tin cậy < 0,7 là tương khác nhau là giống nhau: Hoặc sai hết đối thấp (Brenan [4]). hoặc đúng hết, do đó không phân biệt được năng lực của thí sinh. Vì vậy, 1 câu - Độ giá trị của đề thi trắc nghiệm: Là hỏi có khả năng phân biệt tốt cần có độ yêu cầu quan trọng nhất vì nó phản ánh khó ở mức trung bình và 1 đề thi trắc đúng giá trị nội dung cần đo, biểu thị mức độ đạt được mục tiêu đề ra cho phép đo nghiệm tốt cần có nhiều câu hỏi có mức nhờ đề trắc nghiệm. Để độ giá trị của đề độ trung bình. Khi đó, điểm số của thí trắc nghiệm cao, cần xác định tỉ mỉ mục sinh có phổ trải rộng. Để xác định độ tiêu cần đo và bám sát mục tiêu đó trong phân biệt của câu hỏi, tính hệ số tương quá trình xây dựng ngân hàng câu hỏi. quan giữa điểm của câu hỏi với điểm của Độ giá trị và độ tin cậy của đề thi trắc cả bài thi trắc nghiệm (hệ số R-pearson). nghiệm có liên quan với nhau. Đề thi có Thông thường, giá trị Rp > 0,2 (Lord [2]). độ tin cậy thấp không thể có giá trị. - Độ tin cậy: Là giá trị dùng để đánh Nhưng ngược lại, độ tin cậy cao chưa giá chất lượng của đề thi trắc nghiệm, chắc có giá trị vì có thể không phản ánh là đại lượng biểu thị mức độ chính xác đúng đối tượng cần đo (Samuel Messick của phép đo nhờ đề trắc nghiệm. Độ tin [7]). 136
  4. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 * Lý thuyết khảo thí hiện đại và phần số: sử dụng cả 3 tham số là độ khó, độ mềm Conquest: phân biệt và độ phán đoán của thí sinh. Thuyết đáp ứng câu hỏi (Item Response Phần mềm Conquest được xây dựng Theory), còn gọi là lý thuyết khảo thí hiện dựa trên lý thuyết IRT, được sử dụng để đại, được ra đời vào thế kỷ XX và phát đánh giá và phân tích câu hỏi, cho phép triển mạnh mẽ cho đến nay. Lý thuyết khảo sát thuộc tính về đánh giá năng lực khảo thí hiện đại đã khắc phục được một và đánh giá truyền thống. Phần mềm số nhược điểm của lý thuyết khảo thí cổ cung cấp cho người sử dụng các thông điển là không tách biệt được các đặc tin: Thông số cơ bản của việc phân tích trưng của thí sinh độc lập (năng lực) với câu hỏi theo mô hình IRT; thông số độ đặc trưng của đề trắc nghiệm; thuyết khó, độ phân biệt theo lý thuyết cổ điển; khảo thí cổ điển coi sai số tiêu chuẩn của các tham số liên quan đến độ khó, độ phép đo năng lực giữa các thí sinh là như phân biệt, độ phỏng đoán theo lý thuyết nhau, quan tâm mức độ đáp ứng của thí IRT, độ tin cậy của đề thi, số lượng thí sinh lựa chọn từng phương án trả lời; sinh với đề thi mà không chú trọng mức phân bố độ khó của câu hỏi với năng lực độ đáp ứng của thí sinh với các câu hỏi của thí sinh; đường cong đặc trưng của riêng biệt (Lâm Quang Thiệp [1]). câu hỏi; trường hợp bất thường của Lý thuyết ứng đáp câu hỏi là mô hình người trả lời. hóa mối quan hệ giữa biến không thể quan sát là năng lực của thí sinh và xác KẾT QUẢ NGHIÊN CỨU suất mà tại đó thí sinh trả lời đúng 1 câu hỏi (Harris [5]). Hiểu đơn giản hơn, theo Đề thi gồm 50 câu hỏi trắc nghiệm Wu và CS [3], lý thuyết ứng đáp câu hỏi khách quan ở học phần Bệnh học Nhi là sử dụng mô hình toán học để dự khoa với thời gian 60 phút của 85 sinh viên y khoa năm thứ 5. Đề thi nhằm đánh đoán xác suất trả lời đúng 1 câu hỏi, dựa giá năng lực nhận thức ở 3 mức độ: Nhớ trên chỉ số về năng lực của người trả lời (25 câu), thông hiểu (15 câu) và vận dụng và độ khó của câu hỏi. Câu hỏi trắc (10 câu). nghiệm được đặc trưng bởi 3 thông số là: Độ khó, độ phân biệt và độ phán đoán 1. Mức độ phù hợp với mô hình IRT (đoán mò của thí sinh). Tương ứng các Tiến hành phân tích kết quả trong file thông số đó, các mô hình đáp ứng được SHW cho thấy, các câu hỏi trong bài kiểm đưa ra bao gồm: Mô hình đáp ứng 1 tra có giá trị Unweighted fit nằm trong giới thông số (mô hình Rash): chỉ sử dụng 1 hạn 0,7 - 1,30 và chỉ số của Weighted tham số là độ khó của câu hỏi; mô hình 2 MNSQ của các câu hỏi đều xấp xỉ 1 cho tham số: sử dụng cả 2 biến là độ khó và thấy dữ liệu dùng để phân tích phù hợp độ phân biệt của câu hỏi; mô hình 3 tham với mô hình IRT. 137
  5. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 Bảng 1: Mức độ phù hợp của câu hỏi với mô hình IRT. Cả 50 câu hỏi trong đề thi trắc nghiệm hoàn toàn phù hợp, đánh giá đúng nội dung cần đánh giá. Bài thi trắc nghiệm có độ tin cậy cao với hệ số tin cậy Sr = 0,905. 2. Các đặc tính của câu hỏi Câu hỏi trắc nghiệm khách quan tốt là câu hỏi đảm bảo chuẩn về nội dung, các tham số của câu hỏi như độ khó, độ phân biệt, các phương án nhiễu đều hợp lý. Câu hỏi không phù hợp với mô hình, quá khó, quá dễ, phương án nhiễu không hiệu quả cần loại bỏ hoặc điều chỉnh cho phù hợp. - Nhóm câu hỏi tốt (44, 33, 29, 9, 5, 4): Là câu hỏi có độ khó phù hợp, phương án nhiễu có giá trị. Ví dụ phân tích câu hỏi số 9: 138
  6. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 Hình 2: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 9. Câu hỏi có độ khó theo lý thuyết khảo thí cổ điển là 0,65, nằm trong giới hạn (0,25 -0,75), có 65,88% thí sinh trả lời đúng kết quả. Độ phân biệt của câu hỏi ở mức khá (Discrimnation = 0,48 > 0,2), tức câu hỏi có khả năng phân biệt được nhóm học sinh có năng lực cao và nhóm học sinh có năng lực thấp. Chỉ số Pt Bis ở các phương án nhiễu (A, B, C) đều có giá trị âm, trong khi phương án đúng (D) có giá trị dương và cao nhất. Chứng tỏ các phương án nhiễu có giá trị trong việc đánh giá năng lực của thí sinh. So sánh cấu trúc đề thi và ý kiến của chuyên gia về nội dung câu hỏi cho thấy, câu hỏi số 9 dùng để đánh giá năng lực nhận thức ở mức độ vận dụng, do đó độ khó bằng 0,65 là khá phù hợp, độ phân biệt 0,48 ở mức chấp nhận được. Phân tích đường cong đặc trưng của câu hỏi cũng thấy khá phù hợp. - Nhóm câu hỏi cân nhắc điều chỉnh (40, 27, 26, 25, 21, 17, 10, 8, 42): Là câu hỏi có độ phân biệt rất thấp, phương án nhiễu không hiệu quả hoặc có độ khó không phù hợp. Ví dụ phân tích câu hỏi số 27: 139
  7. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 Hình 3: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 27. Kết quả phân tích cho thấy câu hỏi có độ khó 0,77, độ phân biệt 0,1. Tham khảo ý kiến chuyên gia cho thấy câu hỏi được sử dụng để đánh giá năng lực mức thông hiểu. Do câu hỏi dễ nên không có khả năng phân biệt năng lực của thí sinh. Xem xét giá trị Pt Bis thấy các đáp án A, D có chỉ số dương, chỉ có 1/85 thí sinh chọn đáp án A. Chứng tỏ phương án nhiễu không hiệu quả. - Nhóm câu hỏi chưa tốt (32, 30, 24, 23, 20, 15, 6, 2, 41): Là câu hỏi có độ khó, độ phân biệt hoặc phương án nhiễu không hợp lý. Ví dụ phân tích câu hỏi số 20: 140
  8. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 Hình 4: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 20. Kết quả phân tích cho thấy câu hỏi có độ khó 0,85, độ phân biệt -0,11. Có thể thấy, câu hỏi không có khả năng phân biệt năng lực giữa các nhóm thí sinh. Điều này cũng thấy rõ ở chỉ số Pt Bis khi đáp án đúng A có 85,88% sinh viên trả lời đúng nhưng có giá trị -0,01, nhỏ hơn giá trị của đáp án sai B, C. 3. Phân bố độ khó của câu hỏi với năng lực thí sinh Hình 5: Thang phân bố độ khó của câu hỏi với năng lực thí sinh. 141
  9. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 Độ khó của câu hỏi với các mức năng đó giúp giảng viên và các nhà quản lý lựa lực của thí sinh từ -2 đến +2 theo đơn vị chọn được những câu hỏi tốt, đề xuất logic. những câu hỏi cần chỉnh sửa và loại bỏ Câu hỏi trắc nghiệm phân thành 3 những câu hỏi không chất lượng, từ đó nhóm chính: Nhóm câu hỏi có độ khó nâng cao chất lượng ngân hàng câu hỏi, trung bình, nhóm câu hỏi dễ và nhóm câu góp phần đánh giá đúng năng lực của hỏi rất dễ. người học, nâng cao chất lượng đào tạo. - Nhóm câu hỏi có độ khó trung bình: TÀI LIỆU THAM KHẢO 36, 47, 24, 11, 29, 44, 8, 4, 3, 42, 21, 33, 38. 1. Lâm Quang Thiệp. Đo lường và đánh - Nhóm câu hỏi dễ: 9, 16, 30, 26, 31, 5, giá hoạt động học tập trong nhà trường. NXB 48, 7, 13, 32, 49, 6, 27, 40, 46, 17, 14, 23, Đại học Sư phạm. Hà Nội 2012. 37, 1, 18, 2, 10, 20, 22, 35. 2. Lord FM. Tài liệu dịch: Psychometrika - - Nhóm có câu hỏi quá dễ: 43, 19, 34, Mối quan hệ giữa độ tin cậy của câu hỏi đa 28, 41, 50, 12, 15, 25, 39. lựa chọn và phân bổ độ khó của câu hỏi 1952; 18:181-194. Nhiều thí sinh (16/85 thí sinh) có năng lực cao hơn câu hỏi có độ khó cao nhất. 3. Wu M, Adams R. Applying the Rasch Model to Psycho-social Measurement: A practical Ngược lại, nhiều câu hỏi ở mức độ quá approach. Tài liệu tập huấn Thiết kế công cụ dễ khi độ khó của câu hỏi nằm dưới năng đánh giá do Ngân hàng Thế giới phối hợp với lực của tất cả thí sinh tham gia kiểm tra ACER tổ chức năm 2007-2008 tại Việt Nam. (các câu hỏi 43, 28, 41, 50, 12, 15, 25, 39). 2007. 4. Brennan LR. Educational Measurement KẾT LUẬN (4th ed.). American Council on Education. Từ kết quả phân tích các đặc tính của Washington DC 2006. câu hỏi bằng lý thuyết đáp ứng IRT (mức 5. Harris D. Comparison of 1-, 2-, and độ phù hợp mô hình, độ tin cậy, độ giá trị, 3-paramater ITR models. A module in NCME độ phân biệt và phân bố độ khó của câu series of Instructional Topics in Educational hỏi với năng lực thí sinh, đường cong đặc Measurement. NCME Journal of Educational trưng câu hỏi) kết hợp ý kiến chuyên gia, Measurement: Issues and Practices 1989; 35-41. chúng tôi rút ra một số kết luận: 6. Margaret L, Wu Raymond J, Adams - Đề thi phù hợp với mô hình Rash, có Mark R, Wilson Samuel A Haldane. ACER Conquest version 2.0: Generalised item response độ giá trị và độ tin cậy cao. Tuy nhiên, đề modelling software. ACER Press 2007. thi còn dễ so với năng lực của thí sinh, 7. Messick S. Validity of psychological thể hiện qua việc nhiều thí sinh (16/85) có assessment: Validation of inferences from năng lực vượt qua mức độ khó của câu persons’ responses and performances as hỏi và có 14/50 câu hỏi có mức độ khó scientific inquiry into score meaning. American dưới năng lực của tất cả các thí sinh. Psychologist 1995; 50:741-749. - Phần mềm Conquest hỗ trợ việc 8. Rasch G. Probablistic models for some phân tích đánh giá chất lượng câu hỏi intelligence and attainment tests. Danish trắc nghiệm và đề thi trắc nghiệm rất hiệu Institute for Educational Research. Copenhagen, quả theo lý thuyết khảo thí hiện đại. Qua Denmark 1960. 142
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0