intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Đề tài nghiên cứu khoa học: Đánh giá chất lượng câu hỏi trắc nghiệm khách quan đã sử dụng tại trường Đại học Quảng Nam

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:66

2
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài nghiên cứu khoa học "Đánh giá chất lượng câu hỏi trắc nghiệm khách quan đã sử dụng tại trường Đại học Quảng Nam" được nghiên cứu với mục tiêu: Đo lường trong giáo dục và Lý thuyết trắc nghiệm cổ điển; Phương pháp lý thuyết trắc nghiệm hiện đại; Báo cáo kết quả nghiên cứu.

Chủ đề:
Lưu

Nội dung Text: Đề tài nghiên cứu khoa học: Đánh giá chất lượng câu hỏi trắc nghiệm khách quan đã sử dụng tại trường Đại học Quảng Nam

  1. UBND TINH QUANG NAM TRtfdNG DAI HOC QUANG NAM • • ---------------------------- ------ HAM 'a 1997 »E TAI NGHIEN U/lJ KHOA HOC Ten de tai: “Danh gia chat lirong can hoi trac nghiem khach quan da sir dung tai trirong Dai hoc Quang Nam” Chu nhiem de tai: ThS. Le Phird’c Thanh TWONG BAI HOC QUANG NAM TKUNG TAM HOC LIEU • • QudngNam, 12/2013
  2. MỞ ĐẦU 1. Lý do chọn đề tài Trong những năm gần đây, Bộ Giáo dục và Đào tạo đã, đang thực hiện các chủ trương đổi mới nội dung chương trình giảng dạy, cải tiến phương pháp thi, kiểm tra đánh giá kết quả học tập của học sinh, sinh viên từ phổ thông đến đại học. Phương pháp trắc nghiệm khách quan nhiều chọn lựa (gọi tắt là Trắc nghiệm khách quan_TNKQ) được đưa vào trong các kỳ kiểm tra, thi học kỳ, tuyển sinh, tốt nghiệp v.v… nên sự quan tâm của các giảng viên và các cơ quan quản lý giáo dục ngày càng nhiều. Phương pháp này đã thể hiện nhiều tính năng ưu việt vượt trội hơn những phương pháp khác như: kiểm tra được nhiều kiến thức hơn, đảm bảo chính xác, khách quan công bằng hơn, tiết kiệm hơn và tốn ít thời gian làm bài của thí sinh cũng như thời gian chấm bài. Thực tế hiện nay việc xây dựng các bộ đề thi trắc nghiệm khách quan được giao cho các nhóm giảng viên phụ trách môn học thực hiện. Các giảng viên xây dựng bộ đề hầu hết đều theo kinh nghiệm chủ quan của mình, chưa được trang bị đầy đủ về kiến thức, kỹ năng, khoa học về đo lường và đánh giá thiết kế đề thi trắc nghiệm. Các đề thi do giảng viên viên soạn thảo được đưa vào ứng dụng trực tiếp, không qua quá trình thử nghiệm và đánh giá, chưa đánh giá câu hỏi thông qua việc phân tích độ khó, độ phân biệt của câu hỏi; độ tin cậy, độ giá trị của đề thi và dãy phân bố điểm thi. Từ đó việc đánh giá kết quả của thí sinh không chính xác: đúng năng lực thí sinh và mục tiêu dạy và học. Một số môn học đã có ngân hàng đề thi trắc nghiệm nhưng thực chất là “kho câu hỏi” vì các câu hỏi chưa mang các tham số về độ khó, độ phân biệt, đánh giá đề thi theo cách định tính. Một thực trạng (khó kiểm soát) hiện nay là Phòng Khảo thí và Đảm bảo chất lượng không nắm bắt khâu biên soạn đề thi. Đây là khâu rất quan trọng từ việc lập kế hoạch ngân hàng đề thi, triển khai, ma trận kiến thức, duyệt nội dung ngân hàng đề thi…đây là những yếu tố cơ bản ảnh hưởng đến chất lượng đề thi. Như vậy để có một ngân hàng đề thi trắc nghiệm thật sự, công việc đầu tiên là các câu hỏi phải nhận được tham số câu hỏi, định cỡ (Calibration) đề thi trắc nghiệm, từ đó loại bỏ những câu hỏi không đạt chất lượng, cập nhật và chỉnh sửa câu hỏi trong ngân hàng … Xuất phát từ yêu cầu đó, cũng như lâu dài có một ngân hàng đề thi trắc nghiệm thật sự, bản thân chọn đề tài: “Đánh giá chất lượng câu hỏi trắc nghiệm khách quan đã sử dụng tại trường Đại học Quảng Nam”. Đề tài đặc biệt chú trọng đến cách tiếp cận khoa học lý thuyết ứng đáp câu hỏi IRT (Item Response Theory), một khoa học đã được nghiên cứu và ứng dụng nhiều trên thế giới, đảm bảo độ chính xác trong việc xây dựng thang đo và độ chính xác trong đo lường. Đề tài thể hiện hướng nghiên cứu mới làm cơ sở cho việc đánh giá lại toàn bộ ngân hàng câu hỏi đã sử dụng cũng như tạo điều kiện cho các giảng viên đánh giá lại những câu hỏi đã sử dụng từng bước xây dựng ngân hàng đề thi hoàn chỉnh. 1
  3. 2. Mục tiêu nghiên cứu của đề tài 2.1. Nghiên cứu về khoa học đo lường: + Lý thuyết trắc nghiệm cổ điển (Classical Test Theory-CTT) + Lý thuyết trắc nghiệm hiện đại (Modern Test Theory-MTT) hay còn gọi là lý thuyết ứng đáp câu hỏi IRT (Item Response Theory) Căn cứ vào lý thuyết nhằm xác định các tham số câu hỏi, đánh giá chất lượng câu hỏi trắc nghiệm và đề trắc nghiệm như độ khó, độ phân biệt, độ tin cậy độ giá trị 2.2. Nghiên cứu về bộ công cụ đặc tả về khoa học đo lường Sử dụng phần mềm thống kê EXCEL, SPSS, QUEST và VITESTA để xử lý, phân tích và trình bày kết quả, trên cơ sở đó đánh giá chất lượng của câu hỏi trắc nghiệm và đề trắc nghiệm: - Đề thi có phù hợp với năng lực của nhóm thí sinh dự thi hay không? Nếu chưa phù hợp thì cần điều chỉnh như thế nào? - Có câu hỏi nào trong đề không phù hợp và cần chỉnh sửa hay loại bỏ hay không? Những phân tích này là cơ sở để đánh giá, cho điểm bài thi/kiểm tra và lựa chọn câu hỏi đạt chất lượng xây dựng ngân hàng câu hỏi thi. Đồng thời đưa ra khuyến cáo cho công tác viết câu hỏi trắc nghiệm trong những lần ra đề sau này đạt chất lượng được tốt nhất, đề xuất một số gợi ý đối với cấp quản lý giáo dục và giảng viên về vấn đề kiểm tra, đánh giá. 3. Đối tượng nghiên cứu và phạm vi nghiên cứu 3.1. Đối tượng nghiên cứu Các câu hỏi trong các đề thi trắc nghiệm đã được sử dụng, trong mỗi câu hỏi nghiên cứu về: độ khó, độ phân biệt Các đề thi trắc nghiệm đã sử dụng, mỗi đề thi nghiên cứu về: Độ khó đề thi, độ tin cậy, độ giá trị. 3.2. Phạm vi nghiên cứu Các câu hỏi trong các đề thi trắc nghiệm đã sử dụng: Ngân hàng đề thi môn: - Cơ sở Văn hóa Việt Nam-ThS. Nguyễn Văn Hào (ĐH Ngữ văn, GDTH, Việt Nam học) - Pháp luật đại cương-ThS. Lê Như Thơ (Tất cả các ngành Đại học) 4. Phương pháp nghiên cứu - Phương pháp chuyên gia: Cán bộ làm đề trắc nghiệm nhằm đánh giá và điều chỉnh ngân hàng câu hỏi. - Nghiên cứu về lý thuyết đo lường trong giáo dục 2
  4. - Phương pháp thống kê toán học: Thu thập, xử lý và phân tích dữ liệu bằng các phần mềm chuyên dụng: Excel, SPSS, QUEST, VITESTA 3
  5. NỘI DUNG Chương 1: Đo lường trong giáo dục và Lý thuyết trắc nghiệm cổ điển 1.1. Đo lường trong giáo dục Bất cứ một quá trình giáo dục nào mà một người tham gia cũng nhằm tạo ra những biến đổi nhất định trong con người đó, đây là một thuộc tính của tư duy, mà tư duy không thể quan sát trực tiếp được (đại lượng ẩn). Muốn biết những biến đổi đó xảy ra ở mức độ nào phải đánh giá hành vi của người đó trong một tình huống nhất định, chẳng hạn: để biết một sinh viên có nắm được nội dung của môn học hay không sau khi học xong môn học đó, một bài thi/ kiểm tra có thể cho chúng ta biết một cách chính xác sinh viên đó hiểu biết đến mức độ nào. Một vấn đề đặt ra là công cụ đo lường (bài kiểm tra/ thi) phải được thiết kế cẩn thận, được kiểm định, đạt chất lượng, có tin cậy không trước khi sử dụng. Trên cơ sở những phân tích về đo lường, những chuyên gia sẽ có những đánh giá nhằm đưa ra những nhận định nhằm cải tiến công cụ đo để tăng độ chính xác của phép đo. Khi việc đo lường được chính xác, kết quả của phép đo giúp chúng ta xác định được mục tiêu giáo dục đã đặt ra có phù hợp hay không phù hợp, việc giảng dạy có thành công hay không, người học có tiến bộ hay không. Khi thực hiện một phép đo, đầu tiên là xây dựng thang đo, đó là việc xác định các tham số câu hỏi, gọi là việc định cỡ. Với thang đo đó, tiếp theo là xây dựng thước đo, đó là đề thi trắc nghiệm. Cuối cùng là việc áp thước đo vào đối tượng cần đo và đọc kết quả, nghĩa là thực hiện công việc thi và xác định kết quả cho thí sinh. Một điều quan trọng trong phép đo đó là độ chính xác của phép đo, độ chính xác này phải đảm bảo hai điều kiện: (i) Một là quá trình định cỡ (khắc độ cho thước đo) phải đủ độ tin cậy, đặc biệt là các mẫu thử khác nhau không ảnh hưởng lên kết quả định cỡ. Nghĩa là khi định cỡ (xác định độ khó của câu hỏi) câu hỏi trắc nghiệm , dù mẫu thí sinh giỏi hay yếu cũng không ảnh hưởng lên độ khó của câu hỏi. (ii) Hai là dù đo bằng thước đo nào có cùng cỡ thì kết quả đo phải như nhau (tất nhiên với sai số chấp nhận được). Nghĩa là có thể thiết kế nhiều đề thi trắc nghiệm tương đương (không phải việc thay đổi thứ tự câu hỏi và trật tự đáp án, thực chất chỉ một đề thi) vẫn đánh giá đúng năng lực (điểm số) của thí sinh. 1.2. Giới thiệu về lý thuyết trắc nghiệm cổ điển Việc học và thi trên thế giới đã diễn ra hàng nghìn năm trước đây, nhưng một khoa học về đo lường trong giáo dục thật sự có thể xem như bắt đầu cách đây chỉ khoảng hơn một thế kỉ. Trong thế kỉ XX, khoa học này phát triển xuất phát từ châu Âu nhưng tăng tốc mạnh 4
  6. mẽ khi du nhập vào Hoa Kì. Cho đến thập niên 1970 thì khoa học này phát triển tương đối hoàn chỉnh trong khuôn khổ một lí thuyết được gọi là Lí thuyết Trắc nghiệm cổ điển (Classical Test Theory – CTT). Lý thuyết trắc nghiệm cổ điển được xây dựng dựa trên thống kê học, hay gọi là nghiên cứu định lượng. Bất kỳ một sự vật, hiện tượng nào đều có những tham số đặc trưng nhằm xác định mối quan hệ/ vị trí của nó với các sự vật hiện tượng khác. Một câu hỏi trắc nghiệm hay một đề trắc nghiệm khi được soạn thảo hoàn toàn chưa biết được độ lớn của các tham số ấy. Chúng chỉ được xác định bằng phương pháp thống kê từ kết quả trả lời của thí sinh đối với các câu hỏi. Sau đây là những tham số đặc trưng của câu hỏi và đề trắc nghiệm theo lý thuyết trắc nghiệm cổ điển. 1.2.1. Độ khó của câu hỏi trắc nghiệm (dificulty) và đề thi trắc nghiệm a. Độ khó của câu hỏi trắc nghiệm - Độ khó p của câu hỏi thứ i là tỷ lệ (hoặc tỷ số phần trăm) giữa số lượng thí sinh trả lời đúng câu hỏi thứ i với tổng số thí sinh tham gia trả lời câu hỏi. - Giá trị của độ khó: 0  p  1 - Các câu hỏi của một đề thi trắc nghiệm thường có độ khó khác nhau, khi giá trị p càng bé thì câu hỏi càng khó và ngược lại. - Giả sử 100 thí sinh tham gia trả lời 1 câu hỏi nào đó và có 80 thí sinh trả lời đúng. Khi đó giá trị p = 80/100 = 0.80, cho biết có 80% thí sinh trả lời đúng. Nếu có 300 thí sinh nhưng chỉ có 225 thí sinh trả lời đúng thì giá trị p = 0.75 (vì 225/300 = 0.75). - Theo các chuyên gia: Độ khó của câu hỏi nên nằm trong khoảng: 0.25 – 0.75. Câu hỏi có độ khó lớn hơn 0.75 là quá dễ và nhỏ hơn 0.25 là quá khó. Nếu để tuyển sinh hoặc chọn lọc thí sinh, nên thêm một số câu có độ khó> 75%. Nếu chỉ để đánh giá đạt hay không đạt có thể dùng một số câu có độ khó < 10%. - Độ khó trung bình của câu hỏi: Độ khó trung bình (tính bằng %) của câu hỏi được xác định bằng điểm giữa của việc trả lời đúng (100%) và chọn may rủi (câu có 4 phương án, chọn may rủi là 1/4), như vậy độ khó trung bình của câu hỏi là: (100%+25%)/2=62.5%. b. Độ khó của bài thi trắc nghiệm - Được xác định bằng cách đối chiếu giữa điểm trung bình bài thi trắc nghiệm (lấy điểm trung bình của tất cả các bài thi quan sát được) và điểm trung bình lý tưởng. - Điểm trung bình lý tưởng là điểm giữa của điểm tối đa mà thí sinh làm được với điểm chọn theo may rủi. Chẳng hạn đề thi có 50 câu, mỗi câu có 5 phương án trả lời, mỗi câu 5
  7. đúng là 1 điểm. Điểm tối đa là 50 điểm, điểm may rủi cho một câu là: 50*1/5= 10 điểm. Vì vậy điểm trung bình lý tưởng là: (50+10)/2=30. - Dựa vào dãy phân bố điểm thô của các bài thi, nếu nếu điểm trung bình quan sát bài thi trắc nghiệm vượt xa với điểm trung bình lý tưởng thì đề thi quá dễ và ngược lại. - Dãy phân phối điểm thi càng rộng càng tốt, càng phân loại được thí sinh hơn. - Độ khó hoàn toàn phụ thuộc vào mẫu (sample dependence), điều này có nghĩa nếu mẫu dùng để xác định độ khó sẽ phụ thuộc vào mức năng lực của thí sinh. Nếu mẫu có nhiều thí sinh khá, giỏi thì độ khó sẽ cao và ngược lại. c. Sử dụng giá trị độ khó p để phân tích câu hỏi thi/ kiểm tra - Đối với các câu hỏi có độ khó lớn hơn 0.8 hoặc nhỏ hơn 0.2 nên xem xét hoặc loại bỏ. - Giá trị độ khó p cũng nên được tính cho các phương án trả lời, nhằm biết được chất lượng của các câu hỏi gây nhiễu/ mồi nhử, chẳng hạn theo thống kê phương án trả lời của một câu hỏi nào đó như sau: Phương án trả lời A B C* D Bỏ sót Tổng Số lượng 28 17 197 41 3 286 Giá trị p 0.10 0.06 0.69 0.14 *: ký hiệu phương án trả lời đúng. Câu hỏi này có độ khó của đáp án được chấp nhận, song phương án B không thu hút nhiều thí sinh được chọn, gây nhiễu hầu như không tác dụng (lộ liễu). Vì vậy nên viết lại phương án nhiễu. - Cũng có thể dùng độ khó p dùng dự đoán khả năng nhầm đáp án. Nhầm đáp án là trường hợp đa số thí sinh tham gia làm bài chọn phương án khác với đáp án. Trường hợp nhầm đáp án có thể xảy ra bởi các nguyên nhân: có thể do người viết câu hỏi có sự nhầm lẫn, cũng có thể do phần lớn thí sinh tham gia làm bài hiểu sai câu hỏi hoặc được dạy sai kiến thức, cũng có thể do câu hỏi quá khó khiến thí sinh đoán mò và trùng hợp là phần đông thí sinh đoán mò trùng một phương án (trường hợp này xác xuất xảy ra là rất thấp). Tốt nhất nên chia thành 2 nhóm thí sinh (tỷ lệ mỗi nhóm 27%), nhóm có điểm toàn bài cao và thấp sau đó tính độ khó p. Chẳng hạn, có bảng thống kê như sau: PhuongAn A B* C D Bỏ A B C D Bỏ Dap XemLai Câu hỏi Nhóm điểm cao (27%) Nhóm điểm thấp (27%) án i 10 8 1 2 0 9 3 0 9 0 B A, B Hãy xem lại B có phải là đáp án thật sự hay là A mới là đáp án, vì cả nhóm điểm cao và điểm thấp đều có số lượng cho phương án A nhiều hơn. d. Phân tích độ khó của bài thi trắc nghiệm Có hai cách để xác định độ khó của đề thi trắc nghiệm theo lý thuyết trắc nghiệm cổ điển Cách 1: Tìm dãy phân bố độ khó của câu hỏi 6
  8. Giả sử đề thi trắc nghiệm gồm 50 câu hỏi, sau khi tính độ khó của từng câu, lập biểu đồ tần suất phân bố độ khó, sau đó căn cứ vào phần trăm độ khó như sau: + 0
  9. - Tìm điểm trung bình lý tưởng: (Số câu của đề thi+Số câu*1/ Số phương án)/2=31.25 Điểm trung bình lý tưởng nhỏ hơn điểm trung bình quan sát Kết luận: Đề thi tương đối dễ so với năng lực thí sinh. 1.2.2. Độ phân biệt của câu hỏi trắc nghiệm (discrimination) a. Khái niệm - Độ phân biệt của câu trắc nghiệm nhằm đánh giá phản ứng của thí sinh trước câu hỏi trắc nghiệm ấy, nghĩa là câu trắc nghiệm đánh giá được/ phân biệt được nhóm thí sinh giỏi, T.Bình, Yếu.. - Độ phân biệt liên quan đến độ khó. +Nếu câu trắc nghiệm quá dễ (độ khó cao) như vậy hầu như tất cả các thí sinh đều làm được (phản ứng như nhau) độ phân biệt kém + Nếu câu trắc nghiệm quá khó (độ khó thấp) như vậy hầu như tất cả các thí sinh đều không làm được (phản ứng như nhau) độ phân biệt kém. Kết luận: Muốn cho câu hỏi có độ phân biệt tốt thì độ khó ở mức độ trung bình b. Cách tính độ phân biệt b.1. Tính độ phân biệt bằng cách chia nhóm điểm cao và thấp Dựa vào kết quả của điểm thô, chia số thí sinh làm bài thành 2 nhóm, nhóm điểm cao (nhóm giỏi) lấy từ điểm cao nhất lấy xuống và nhóm điểm thấp (nhóm yếu) lấy từ điểm thấp nhất lấy lên, số lượng mỗi nhóm khoảng 27-30% trong tổng số thí sinh - Gọi N1 là số thí sinh của nhóm cao trả lời đúng câu hỏi - Gọi N2 là số thí sinh của nhóm thấp trả lời đúng câu hỏi - n là số thí sinh của một trong 2 nhóm - Độ phân biệt của câu hỏi là : N1  N 2 - Giá trị của r: -1
  10. - Khi r dần về 0 thì độ phân biệt kém, hầu như không có sự phân biệt (số lượng nhóm TS giỏi và yếu đều trả lời như nhau) - Khi r dần về 1 thì độ phân biệt tốt theo chiều dương: Nhóm thí sinh điểm cao (nhóm giỏi) trả lời đúng câu hỏi nhiều hơn nhóm thí sinh điểm thấp (nhóm yếu) - Khi r dần về -1 thì độ phân biệt tốt theo chiều âm: Nhóm thí sinh điểm thấp (nhóm yếu) trả lời đúng câu hỏi nhiều hơn nhóm thí sinh điểm cao (nhóm giỏi) - Theo các chuyên gia: + Độ phân biệt liên quan mật thiết với độ khó và số lượng câu hỏi trong đề thi trắc nghiệm. Nếu độ khó trong khoảng 25% - 75% thì độ phân biệt khoảng 10% là bài trắc nghiệm có độ phân biệt tốt. + Để đánh giá bộ câu hỏi thi trắc nghiệm, các nhà nghiên cứu cho rằng tối thiểu phải có 30 câu hỏi cho 30 thí sinh gồm có 3 nhóm:10 thí sinh yếu,10 thí sinh trung bình và 10 thí sinh khá để tiến hành đánh giá bộ câu hỏi theo các chỉ số trên. b.2. Tính độ phân biệt theo hệ số tương quan (Correlation Coefficient) Có thể tính độ phân biệt r của câu hỏi theo một định nghĩa khái quát hơn: Đó là hệ số tương quan giữa điểm câu hỏi và điểm cả đề thi trắc nghiệm xét trên mọi thí sinh tham gia trả lời đề trắc nghiệm. Giá trị của r: -1
  11. Trong đó d là sự khác biệt của từng cặp giá trị của hai tập hợp điểm Tính điểm thô của câu hỏi và điểm thô của bài trắc nghiệm đối với tất cả các thí sinh Trong Excel: Dùng hàm CORREL(Dãy điểm câu hỏi thứ i, dãy tổng điểm bài thi trắc nghiệm) Trong SPSS: Analyze\Correlate\r12\ Chọn Peason và chọn 2 biến c. Sử dụng độ phân biệt để phân tích câu hỏi thi/ kiểm tra - Cách chọn r: + r  0.4 Câu hỏi có độ phân biệt tốt + 0.3  r
  12. - Theo Cyril Weir lại diễn giải như sau: Một bài thi có độ tin cậy là bài thi mà kết quả bài làm của thí sinh phản ánh đúng trình độ của họ, nếu bạn cho họ làm lại thì bạn vẫn nhận được kết quả tương tự - Một bài thi được thực hiện với cùng một đối tượng ở những thời điểm khác nhau cho ta những kết quả tương tự nhau là bài thi đáng tin cậy - Theo Bachman, 1990, độ tin cậy của bài thi chính là khả năng đánh giá trình độ của thí sinh của bài thi đó chính xác đến mức độ nào - Trắc nghiệm là một phép đo: Dùng thước đo là đề trắc nghiệm để đo lường một năng lực nào đó của thí sinh. Độ tin cậy của đề trắc nghiệm chính là đại lượng biểu thị mức độ chính xác của phép đo nhờ đề trắc nghiệm. b. Các phương pháp cơ bản để tính độ tin cậy b.1. Phương pháp trắc nghiệm-trắc nghiệm lại Dùng một đề trắc nghiệm cho một nhóm thí sinh làm hai lần và tính hệ số tương quan giữa hai bộ điểm. Phương pháp này có nhược điểm: Một là các đáp án của thí sinh trong lần thứ hai không độc lập so với lần thứ nhất, nghĩa là năng lực của thí sinh đã bị thay đổi trong lần thứ hai. b.2. Phương pháp đề trắc nghiệm tương đương Cho một nhóm thí sinh làm hai đề trắc nghiệm tương đương rồi tính hệ số tương quan giữa hai bộ điểm. Vấn đề tốn nhiều công sức để thiết kế hai đề trắc nghiệm tương đương b.3. Phương pháp phân đôi đề trắc nghiệm Thường dùng để đánh giá độ tin cậy của một trắc nghiệm khi ta không có điều kiện đo trắc nghiệm hai lần trên cùng một đối tượng và cũng không thiết kế được các trắc nghiệm tương đương, là phương pháp phân đôi số item của trắc nghiệm thành hai phần (thường chia theo số chẵn và số lẻ) rồi so sánh tương quan điểm giữa hai nửa trắc nghiệm. Đây gọi là phương pháp tính độ tin cậy phân đôi trắc nghiệm (split-half reliablity). Về lý thuyết, hai nửa trắc nghiệm có thể được xem là hai đề trắc nghiệm tương đương của cùng một trắc nghiệm. Ta có thể sử dụng công thức chuyển hệ số độ tin cậy phân đôi thành hệ số độ tin cậy của toàn trắc nghiệm gọi là công thức Spearman - Brown. nrs r (n  1)rs  1 r: Độ tin cậy của đề trắc nghiệm có độ dài gấp n lần rs là độ tin cậy của đề trắc nghiệm ngắn xuất phát. Nếu đề trắc nghiệm phân thành hai nửa đề chẵn và đề lẻ thì độ tin cậy r được tính như sau: 2rs r rs  1 b.4. Phương pháp Kuder - Richardson 11
  13. Phương pháp được tính dựa trên ý tưởng mỗi câu hỏi trắc nghiệm là một đề trắc nghiệm tương đương, tức là chúng có cùng điểm trung bình và cùng phương sai. Hệ số tương đương được tính như sau: k k  pi qi r (1  i 1 2 ) k 1  k: Số câu hỏi trong đề trắc nghiệm pi: tỷ lệ trả lời đúng câu hỏi thứ i qi=1-pi : Tỷ lệ trả lời sai câu hỏi thứ i  i : Phương sai của tổng điểm mọi thí sinh đối với cả đề trắc nghiệm Trong trường hợp các câu trắc nghiệm không khác nhau nhiều về độ khó, công thức Kuder – Richardson được viết lại như sau: M M (1  k k ) r (1  k 1 2 M: giá trị trung bình của điểm số của cả đề trắc nghiệm b.5. Hệ số Cronbach's alpha Phương pháp này đánh giá độ tin cậy của phép đo dựa trên sự tính toán phương sai của từng item trong toàn phép đo và tính tương quan điểm của từng item với điểm của tổng các item còn lại của phép đo. Phương pháp này thích hợp với các loại trắc nghiệm được thiết kế với điểm số theo thang định khoảng hay thang tỷ lệ. Công thức được tính là k k  i 2 r   (1  i 1 2 ) k 1 X k - Số các item của trắc nghiệm 2 σ i - Giá trị của phương sai của từng item cụ thể của trắc nghiệm 2 σ X - Giá trị của phương sai của toàn bộ trắc nghiệm 2 Σσ i - Tổng các giá trị phương sai của tất cả các item của trắc nghiệm. c. Sử dụng độ tin cậy để đánh giá đề thi trắc nghiệm Những yếu tố sau đây ảnh hưởng đến độ tin cậy trắc nghiệm: - Các yếu tố gây ra kết quả điểm trắc nghiệm không ổn định qua các lần đo: Điểm số trắc nghiệm không ổn định có thể là do người làm trắc nghiệm có sự thay đổi thực lực về kiến thức, hiểu biết, kỹ năng giữa hai lần đo, do đó kết quả điểm trắc nghiệm giữa hai lần đo khác nhau. Sự không ổn định cũng có thể là do những thay đổi ở phía người làm trắc nghiệm như mệt mỏi, xúc cảm không ổn định, thiếu tập trung...hoặc câu hỏi trắc nghiệm quá khó, phải phán đoán dẫn đến sai lệch điểm giữa các lần đo. 12
  14. - Các yếu tố liên quan đến item, câu hỏi của trắc nghiệm: Các trắc nghiệm chỉ là một tập hợp có giới hạn các item nhằm đo một mẫu hành vi đại diện cho đặc tính được nghiên cứu mà không đo tất cả các biểu hiện của đặc tính đó. Một trắc nghiệm càng có nhiều item thì độ tin cậy của trắc nghiệm càng tăng, vì càng nhiều item, trắc nghiệm sẽ có nhiều cơ hội để cung cấp một mẫu rộng hơn những hiểu biết về đặc tính cần đo. Trắc nghiệm không thể quá dài gây mệt mỏi, thiếu tập trung cho nghiệm thể nhưng mặt khác các item của trắc nghiệm lại phải có tính đại diện, đủ bao quát hết miền cần đo. - Các yếu tố liên quan đến thống kê: Khi phạm vi điểm trắc nghiệm càng bị thu hẹp thì tương quan càng giảm, vì vậy độ tin cậy của trắc nghiệm sẽ giảm. Ngược lại phạm vi điểm trắc nghiệm càng được mở rộng thì tương quan càng tăng, do đó độ tin cậy của trắc nghiệm sẽ tăng. Đánh giá độ tin cậy r: Độ tin cậy Đánh giá độ tin cậy r ≥ 0.9 Rất tốt 0.8 ≤ r < 0.9 Tôt 0.7 ≤ r < 0.8 Chấp nhận được 0.6 ≤ r < 0.7 Nghi ngờ 0.5 ≤ r< 0.6 Yếu r < 0.5 Không chấp nhận 1.2.4. Độ tin giá trị Yêu cầu quan trọng nhất của bài trắc nghiệm với tư cách là một phép đo lường trong giáo dục là phép đo ấy đo được cái cần đo. Nói cách khác, phép đo ấy cần phải đạt được mục tiêu đề ra cho nó. Độ giá trị của bài trắc nghiệm là đại lượng biểu thị mức độ đạt được mục tiêu đề ra cho phép đo nhờ bài trắc nghiệm. Các loại tính chất giá trị: giá trị tiên đoán; giá trị so với tiêu chí cho sẵn; giá trị nội dung. Để bài trắc nghiệm có độ giá trị cao, cần phải xác định tỉ mỉ mục tiêu cần đo qua bài trắc nghiệm và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng câu hỏi trắc nghiệm cũng như khi tổ chức triển khai kỳ thi. Nếu thực hiện các quá trình nói trên không đúng thì có khả năng kết quả của phép đo sẽ phản ánh một cái gì khác chứ không phải cái mà ta muốn đo nhờ bài trắc nghiệm. Qua định nghĩa về độ tin cậy và độ giá trị ta có thể thấy rõ mối tương quan giữa chúng. Khi bài trắc nghiệm không có độ thi cậy, tức là phép đo nhờ bài trắc nghiệm rất kém chính xác, thì chúng ta không thể nói đến độ giá trị của nó. Nói cách khác, khi bài trắc nghiệm không có độ tin cậy thì nó cũng không thể có độ giá trị. Đôi khi phép đo nhờ bài trắc nghiệm có thể đo chính xác, nhưng nó đo một cái gì khác chứ không phải cái nó cần đo, trong trường hợp đó thì bài trắc nghiệm có độ tin cậy cao nhưng độ giá trị rất thấp. 13
  15. Để đề thi TNKQ đạt được mục tiêu môn học, một công cụ thuận lợi để thiết kế các thành phần của đề của một đề trắc nghiệm là bảng biểu diễn nội dung và mục tiêu học tập cụ thể, thường được gọi là bảng ma trận kiến thức. Cấu trúc bảng gồm các dòng được phân thành các mục nội dung như chương/ chủ đề/ các phần của môn học. Các cột ứng với các mục tiêu theo mức nhận thức của Bloom. Các ô ghi số câu hỏi cần thiết trong một đề trắc nghiệm, nếu các câu hỏi có trọng số điểm thì thêm ô trọng số CÁC MỨC KIẾN THỨC Nhận Thông Vận dụng Vận dụng Tổng cộng NỘI DUNG biết hiểu Thấp Cao Chương 1:… n11 n12 n13 n14 Nội dung 1.1 t11 t12 t13 t14 n21 n22 n23 n24 Nội dung 1.2 t21 t22 t23 t24 Nội dung 1.3 Chương 2:… Nội dung 2.1 Nội dung 2.2 Nội dung 2.3 Tổng cộng CÁC MỨC KIẾN THỨC Nhận Thông Vận dụng Vận dụng Tổng cộng NỘI DUNG biết hiểu Thấp Cao 5 9 2 1 20 Chương 1 0.1 0.2 0.3 0.4 5 2 1 2 7 Chương 2 0.1 0.2 0.3 0.4 6 5 3 2 17 Chương 3 0.1 0.2 0.3 0.4 3 2 1 1 6 Chương 4 0.1 0.2 0.3 0.4 12 18 12 8 50 câu Tổng cộng 1.9 3.6 2.1 2.4 10 điểm 1.2.5. Các loại điểm trắc nghiệm a. Điểm thô (Raw Score) 14
  16. Một đề thi trắc nghiệm bao gồm nhiều câu hỏi. Một câu hỏi được gán cho một điểm số nào đó, thường là điểm 1 nếu làm đúng, điểm 0 nếu làm sai. Sau khi chấm bài trắc nghiệm và cộng các điểm số từng câu hỏi, ta được điểm số của thí sinh, điểm này gọi là điểm thô. Ở Việt Nam người dùng dùng thang điểm 10 hay khung điểm từ 0 đến 10. Vì vậy khi có điểm thô ta phải chuyển qua thang điểm 10 và đây chính là điểm cuối cùng của thí sinh Cách chuyển qua thang điểm 10: 10* DiemTho DiemToiDaCuaBaiTracNghiem Tất nhiên khi chuyển qua sẽ có số lẻ, tùy theo qui định cách làm tròn điểm số theo thang 10 ta sẽ làm tròn theo số chữ số thập phân này. Chẳng hạn: Đề thi trắc nghiệm gồm 50 câu, mỗi câu đúng được 1 điểm, giả sử thí sinh làm đúng được 38 câu, điểm lấy phần nguyên. Điểm thô là 38 điểm 10* 48 Thang điểm 10 là:  7.6 50 Điểm của bài thi trắc nghiệm là 8 b. Loại điểm tương đối dựa vào phân phối chuẩn Trong thực tế khi khảo sát một mẫu ta tiến hành đo lường trên tập mẫu đó, kết quả đo lường thường có dạng phân bố chuẩn, chẳng hạn kết quả điểm thô của tập thí sinh tham gia kiểm tra. Tuy nhiên để so sánh kết quả phép đo với những đại lượng khác nhau, chẳng hạn, kết quả so sánh điểm thi môn văn và điểm môn toán, ta tiến hành chuyển đổi hai phân bố chuẩn trên về cùng một phân phối chuẩn tắc (giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1). Hoặc khi so sánh hai kết quả thi của cùng một bộ môn, ta cũng tiến hành chuyển hai dãy phân bố điểm đó về dạng phân phối chuẩn tắc. Điểm z: Để chuyển một phân phối chuẩn biến x có giá trị trung bình  và độ lệch chuẩn  về phân phối chuẩn tắc biến z ta xác định bằng công thức sau: x z=  Hình dáng của phân phối chuẩn tắc như sau: 15
  17. Điểm z -3 -2 -1 0 +1 +2 +3 Điểm IQ 55 70 85 100 115 130 145 Điểm TOEFL 200 300 400 500 600 700 800 TOEFL(IBT) 0 20 40 60 80 100 120 Từ hình vẽ cho thấy trong phân bố chuẩn tắc đoạn [-3  , +3  ] chiếm 99.8% trường hợp của phân bố gần hết tất cả các trường hợp Điểm Z rất thích hợp trong các nghiên cứu để so sánh các bộ điểm thô thu được từ các đề trắc nghiệm khác nhau thực hiện trên cùng một nhóm thí sinh được chọn làm chuẩn. Tuy nhiên việc sử dụng điểm z trong thực tế không thuận lợi vì có giá trị âm và các khoảng nguyên quá rộng hoặc biểu diễn phần thập phân. Người ta thường sử dụng các thang điểm chuẩn khác bằng cách gán giá trị trung bình và độ lệch chuẩn của điểm thô bằng các giá trị lựa chọn tùy ý nào đó. Chẳng hạn: Điểm trắc nghiệm trí thông minh IQ với giá trị trung bình là 100, độ lệch chuẩn là 15, khoảng điểm là [55, 145] Điểm TOEFL với giá trị trung bình là 500, độ lệch chuẩn là 100, khoảng điểm là [200, 800] Điểm thi tú tài trước 1975 và điểm dùng hiện nay dùng đoạn [-2.5  , +2.5  ] trên dãy phân phối, nhưng điểm tú tài với giá trị trung bình là 10, độ lệch chuẩn là 4, khoảng điểm là [0, 20], điểm hiện nay với giá trị trung bình là 5, độ lệch chuẩn là 2, khoảng điểm là [0, 10] 1.2.6. Quy trình chuẩn bị và triển khai một kỳ thi trắc nghiệm khách quan tiêu chuẩn hoá Có thể áp dụng phương pháp trắc nghiệm để tổ chức thi, kiểm tra ở các lớp học thông thường với số thí sinh không đông; cũng có thể áp dụng ở các kỳ thi quy mô lớn hàng nghìn, hàng vạn thí sinh. Để triển khai một kỳ thi quy mô lớn người ta phải chuẩn bị hết sức cẩn thận về đề thi, quy trình thi, thể thức chấm điểm, cách công bố kết quả v.v. Quá trình chuẩn bị đó hết sức công phu và tốn kém mà một kỳ thi thông thường ở lớp học không thể làm nổi. Kỳ thi được chuẩn bị công phu như vậy được gọi là kỳ thi tiêu chuẩn hóa. Các câu hỏi trong 16
  18. một đề thi tiêu chuẩn hóa là các câu đã được thử nghiệm, phân tích để xác định được độ khó, độ phân biệt của từng câu và độ tin cậy, độ giá trị của cả bài. Quy trình tổ chức một kỳ thi trắc nghiệm tiêu chuẩn hóa rất phức tạp. Có thể tóm tắt các bước của quy trình đó như sau: Bước 1: Lập bảng ma trận kiến thức Xác định môn thi và những nội dung tổng quát cần kiểm tra. Đồng thời, định ra yêu cầu về các mức kỹ năng, chẳng hạn: biết, hiểu, vận dụng, phân tích, tổng hợp, đánh giá. Để thực hiện bước này người ta thường lập một ma trận 2 chiều: các dòng phân theo các phần nội dung, các cột phân theo các mức kỹ năng, trong mỗi ô ghi số câu hỏi cần thiết (hoặc tỷ lệ phần trăm) của phần nội dung và mức kỹ năng tương ứng. Bước 2: Viết câu hỏi trắc nghiệm Phân công cho các giảng viên, mỗi người viết một số câu trắc nghiệm theo các yêu cầu cụ thể về nội dung và mức kỹ năng đã xác định. Giảng viên nên trao đổi trong nhóm đồng nghiệp, lấy ý kiến chuyên gia. Kinh nghiệm cho thấy quá trình trao đổi này rất quan trọng, giúp tác giả phát hiện và sửa chữa được nhiều sai sót mà bản thân không nhận thấy. Bước 3: Chuyển câu hỏi vào ngân hàng Biên tập và đưa các câu trắc nghiệm vào “ngân hàng” có thể lưu trong máy tính. Phụ trách biên tập phải là người am hiểu cả về chuyên môn lẫn kỹ thuật viết trắc nghiệm. Ngân hàng câu hỏi được quản lý bằng một phần mềm tin học chuyên dụng. Bước 4: Tổ chức thi Lập đề thi và tổ chức thi thử trên một số nhóm thí sinh; các nhóm này là “mẫu” đại diện cho đối tượng thí sinh chung làm bài trắc nghiệm. Bước 5: Chấm thi và phân tích kết quả Chấm thi và phân tích thống kê các kết quả thi thử. Phương pháp thống kê cho phép xác định các đặc trưng của mỗi câu trắc nghiệm như độ khó, độ phân biệt, qua đó có thể đánh giá độ tin cậy của bài trắc nghiệm, phân loại chất lượng các câu trắc nghiệm. Gia công các câu hỏi kém chất lượng và thay các câu đã được gia công vào ngân hàng. Có thể chấm bài trắc nghiệm trên các hệ thống tự động gồm một máy quét quang học và một máy tính có phần mềm tin học hỗ trợ việc chấm thi. Cũng có phần mềm tin học thực hiện các phép phân tích thật tỉ mỉ về chất lượng các câu trắc nghiệm và nhiều yếu tố liên quan đến bài làm của thí sinh. Việc chấm thi (nên) thực hiện bằng máy quét, đây là cách chuyển bài làm thí sinh thành dạng file ảnh, từ file ảnh phần mềm nhận dạng sẽ chuyển kết quả làm bài thành dữ liệu dạng văn bản tương ứng với các phương án trả lời. Đây là dữ liệu đầu vào cho việc phân tích kết quả. Bước 6: Ra đề thi chính thức Căn cứ vào dàn bài (phân bố câu theo nội dung và mức độ kỹ năng tương ứng với bảng đặc trưng hai chiều), nhờ phần mềm tin học để chọn một cách ngẫu nhiên từ ngân hàng số câu hỏi cần thiết với các đặc trưng xác định (độ khó, độ phân biệt, mức kỹ năng) để lập 17
  19. nên một đề thi. Phần mềm tin học có thể tạo ra các đề thi tương đương có cùng nội dung nhưng khác nhau về hình thức bằng cách đảo lộn thứ tự các câu hỏi (khi có thể đảo lộn) và các phương án trả lời A, B, C, D v.v. 18
  20. Chương 2: Phương pháp lý thuyết trắc nghiệm hiện đại Với nhu cầu phát triển về đo lường trong giáo dục, song song với phát triển lý thuyết trắc nghiệm cổ điển hoàn thiện vào thập niên 70 của thế kỷ 20, một lý thuyết trắc nghiệm mới ra đời và phát triển mạnh mẽ, lý thuyết trắc nghiệm hiện đại hay gọi là Lý thuyết ứng đáp câu hỏi IRT(Item Response Theory) 2.1. Tính khách quan và chính xác của phép đo dùng đề trắc nghiệm Trong khoa học về đo lường nói chung và phép đo năng lực với công cụ đo là đề trắc nghiệm nói chung, công việc đầu tiên là phải xây dựng đó là thang đo hay định cỡ (Calibration) đề trắc nghiệm. Đó là việc xác định các tham số của câu hỏi như độ khó, độ phân biệt, độ tin cậy. Phép đo năng lực nào đó của thí sinh bằng thước đo là đề trắc nghiệm được chính xác là kết quả định cỡ đề trắc nghiệm không phụ thuộc vào mẫu thí sinh được dùng để trắc nghiệm thử (tức là các tham số của câu hỏi thu được), đó là điều kiện thứ nhất. Điều kiện thứ hai, điểm số thu được của thí sinh không phụ thuộc vào một đề trắc nghiệm cụ thể, tức là điểm số thu được sẽ như nhau dù đo bằng bất kỳ đề trắc nghiệm nghiệm nào có cùng một định cỡ. Đây là điều thật sự rất mong mỏi của các nhà giáo, làm thế nào một thí sinh có điểm năng lực là 7 thì khi làm bất kỳ đề trắc nghiệm nghiệm nào cùng đạt điểm 7? Lý thuyết trắc nghiệm cổ điển không giải quyết được vấn đề này. Thật vậy, lấy ví dụ về độ khó của một câu hỏi trắc nghiệm. Nếu chọn nhóm thí sinh làm thử đề trắc nghiệm để xác định độ khó, khi mẫu này có nhiều thí sinh giỏi thì độ khó rất lớn, khi mẫu này có nhiều thí sinh yếu thì độ khó nhỏ. 2.2. Lý thuyết ứng đáp câu hỏi và mô hình Rasch Nhà toán học Đan Mạch, Georg Rasch, đã đưa ra mô hình ứng đáp câu hỏi để mô tả mối tương tác giữa thí sinh và câu hỏi của đề trắc nghiệm, và dùng mô hình đó để phân tích các dữ liệu thu được từ đề trắc nghiệm. Đầu tiên Rasch chọn mô hình 1 tham số, mô hình về mối quan hệ giữa độ khó câu hỏi và năng lực của thí sinh. Rasch phát biểu: “Một thí sinh có khả năng hơn hơn một thí sinh khác thì thí sinh nêu trước phải có một xác suất lớn hơn để trả lời đúng một câu hỏi bất kỳ, cũng tương tự như vậy, một câu hỏi khó hơn một câu hỏi khác thì xác suất để trả lời đúng câu hỏi sau là lớn hơn câu hỏi trước đối với một thí sinh bất kỳ” Từ cách phát biểu trên, Rasch xây dựng mô hình toán học như sau: 19
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
6=>0