intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phương pháp tự động đánh giá tương tác trong lớp học dựa trên video lớp học

Chia sẻ: Phó Cửu Vân | Ngày: | Loại File: PDF | Số trang:6

4
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Phương pháp tự động đánh giá tương tác trong lớp học dựa trên video lớp học" đề xuất phương pháp tự động đánh giá tương tác trong lớp học. Phương pháp xây dựng gồm 2 giai đoạn: phát hiện hình trạng giơ tay và đứng lên trên ảnh và theo vết trên video nhằm xác định số lần học sinh giơ tay và số lần học sinh đứng lên phát biểu. Các kết quả thử nghiệm trên video của lớp học cho thấy ứng dụng tiềm năng của phương pháp đề xuất. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Phương pháp tự động đánh giá tương tác trong lớp học dựa trên video lớp học

  1. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Phương pháp tự động đánh giá tương tác trong lớp học dựa trên video lớp học Phuong-Dung Nguyen∗† , Khoi-Nguyen Dam† , Ngoc-Trang Le∗ , Tien-Thanh Nguyen∗ , Huu-Quynh Nguyen† Thi-Lan Le∗ , ∗ Trường Điện - Điện tử, Đại học Bách Khoa Hà Nội † Trường Đại học Thủy Lợi Tóm tắt—Ngày nay, dạy học tương tác đang là một xu thập từ lớp học, làm cơ sở hỗ trợ giáo viên trong quá hướng đổi mới trong giáo dục. Dạy học tương tác là một trình dạy học. phương pháp giảng dạy mà giáo viên và học sinh tương tác Một số nghiên cứu đã được đề xuất cho bài toán nhận với nhau thông qua các hoạt động giáo dục. Phương pháp này giúp cho học sinh trở nên chủ động, tăng cường khả dạng hoạt động trong lớp học [1], [2]. Tuy nhiên các năng giao tiếp, tư duy logic, sáng tạo và học hỏi từ nhau. nghiên cứu này thường chỉ tập trung vào nhận dạng Ngoài ra, dạy học tương tác còn giúp cho học sinh phát hoạt động giơ tay phát biểu ở mức khung hình/ảnh. triển các kỹ năng mềm như làm việc nhóm, thuyết trình, Trong bài báo này, chúng tôi đề xuất phương pháp tự giải quyết vấn đề và lãnh đạo. Một trong những cách đánh động đánh giá tương tác trong lớp học. Phương pháp xây giá lớp học có được áp dụng phương pháp dạy học tương dựng gồm 2 giai đoạn: (1) phát hiện hình trạng giơ tay tác hay không là xác định số lần giơ tay và số lần được gọi đứng lên phát biểu của mỗi học sinh. Trong thời đại công và đứng lên trên ảnh và (2) theo vết trên video nhằm xác nghệ 4.0, phần lớn các lớp học đã được lắp đặt camera định số lần học sinh giơ tay và số lần học sinh đứng lên giám sát, đồng thời các phương pháp phát hiện và theo phát biểu. Để phát hiện hình trạng giơ tay và đứng lên vết hoạt động ngày càng được cải thiện về chất lượng. Do phát biểu ở mức ảnh/khung hình, bộ phát hiện YOLOv5 vậy, trong bài báo này, chúng tôi đề xuất phương pháp tự được đề xuất sử dụng. Bộ phát hiện này sẽ được huấn động đánh giá tương tác trong lớp học. Phương pháp xây luyện trên một cơ sở dữ liệu đã có về các hoạt động dựng gồm 2 giai đoạn: phát hiện hình trạng giơ tay và trong lớp học. Sau đó, các kết quả phát hiện ở mức ảnh đứng lên trên ảnh và theo vết trên video nhằm xác định số lần học sinh giơ tay và số lần học sinh đứng lên phát sẽ được kết nối dựa trên bộ theo vết StrongSORT để biểu. Các kết quả thử nghiệm trên video của lớp học cho tạo ra kết quả nhận dạng mức video. Các kết quả thử thấy ứng dụng tiềm năng của phương pháp đề xuất. nghiệm trên video của lớp học cho thấy ứng dụng tiềm Từ khóa—Phát hiện hoạt động, Theo vết hoạt động, năng của phương pháp đề xuất. Nhận dạng hoạt động trong lớp học Phần còn lại của bài báo được bố cục như sau. Mục II phân tích các nghiên cứu liên quan về nhận dạng hoạt I. GIỚI THIỆU động trong lớp học trong khi mục III trình bày phương pháp đề xuất trong bài báo. Các kết quả thử nghiệm Tương tác là một yếu tố có vai trò quan trọng, quyết được trình bày trong mục IV. Cuối cùng, kết luận và định sự thành công của giờ học. Hình thức phổ biến hướng phát triển tiếp theo được phân tích trong mục V. nhất của tương tác trong lớp học là giáo viên đưa ra các câu hỏi về nội dung bài học và yêu cầu học sinh trả II. CÁC NGHIÊN CỨU LIÊN QUAN lời thông qua hoạt động giơ tay và đứng lên phát biểu. Trong nghiên cứu [3], các tác giả kết hợp thông tin Hình thức tương tác này, nếu được giáo viên sử dụng khuôn mặt và bàn tay trên mỗi khung hình cho bài toán hiệu quả sẽ đem lại hứng thú, khơi gợi say mê học tập phát hiện hình trạng giơ tay. Khi cả khuôn mặt và bàn cho học sinh. Tuy nhiên, do lớp học thường đông, thời tay đều được phát hiện, vị trí tương đối giữa chúng được lượng hạn chế, giáo viên trong nhiều trường hợp có thể tính toán để xác định xem đó có thực sự là một hình có những thiên lệch trong việc gọi học sinh lên phát trạng giơ tay hay không. Theo một nghiên cứu gần đây biểu. [4], các tác giả đã thiết kế một hệ thống phân tích ba cử Gần đây, camera được sử dụng ngày càng rộng rãi chỉ của học sinh bao gồm giơ tay, ngủ gật và đứng lên trong các lớp học. Điều này cho phép xây dựng các hệ phát biểu. Các tác giả đã cải tiến mạng Faster-RCNN thống tự động xác định số lần học sinh giơ tay và số và sử dụng đặc trưng kết hợp để phát hiện các cử chỉ từ lần học sinh được gọi lên phát biểu dựa trên video thu video ghi lại giờ học thực tế. Cụ thể, hệ thống sử dụng ISBN 978-604-80-8932-0 270
  2. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) luồng ảnh từ các video làm đầu vào cho mô hình phát kết thúc khác nhau. Do đó các phương pháp nhận hiện Faster-RCNN, và đề xuất ra các vùng có thể chứa dạng hoạt động đề xuất cho video đã được phân đối tượng là các cử chỉ cần quan tâm. Để giải quyết vấn đoạn không thể áp dụng trực tiếp trên dữ liệu của đề mất cân bằng dữ liệu, tác giả đã sử dụng thuật toán lớp học. OHEM để tập trung vào các mẫu khó. Trong nghiên cứu Từ những phân tích trên, trong nghiên cứu này, chúng tôi [2], Zheng và đồng nghiệp đã giới thiệu một mô hình mô hình hóa bài toán nhận dạng hoạt động động trong phát hiện mới có tên là GestureDet để phát hiện các cử chuỗi ảnh là một bài toán theo vết trong đó các phương chỉ tiêu biểu của học sinh. GestureDet tích hợp các cơ pháp phát hiện đối tượng sẽ được sử dụng nhằm ước chế chú ý theo không gian, theo kênh và theo batch vào lượng vị trí trên ảnh của các hình trạng, sau đó bộ theo mô hình phát hiện MobileNetV2 để khai thác đặc trưng vết sẽ thực hiện kết nối các kết quả phát hiện để tạo một cách mạnh mẽ hơn trong việc học dữ liệu chứa hình thành các chuỗi ảnh cho từng hoạt động. Hình 1 minh trạng của cử chỉ giơ tay và đứng phát biểu. Bên cạnh đó, họa phương pháp đề xuất của chúng tôi. Cụ thể, phương việc sử dụng mô hình nhẹ cho phép GestureDet có thể pháp đề xuất của chúng tôi sẽ bao gồm hai bước: triển khai hiệu quả trên các thiết bị nhúng như NVidia • Bước 1: Thực hiện phát hiện các hình trạng của Jetson TX2. hoạt động. Ở bước này, mô hình phát hiện đối tượng Hầu hết các công trình nghiên cứu hiện tại coi các cử YOLOv5 được áp dụng để phát hiện hình trạng các chỉ trong lớp học là những hình trạng tĩnh và áp dụng hoạt động giơ tay và đứng lên. Theo phân tích và mô hình phát hiện đối tượng để giải quyết. Trong nghiên qua trải nghiệm thực tế của chúng tôi, YOLOv5 là cứu trước [1], chúng tôi đã đề xuất phương pháp nhận một mô hình phát hiện đối tượng tối ưu cả về thời dạng cử chỉ giơ tay động dựa trên kết hợp bộ phát hiện gian huấn luyện và hiệu suất. và theo vết. Trong nghiên cứu này, chúng tôi sẽ mở rộng • Bước 2: Thực hiện theo vết các hình trạng đó để nghiên cứu cho bài toán nhận dạng tự động hoạt động xác định hành động. Trong bước này, chúng tôi sử giơ tay và đứng lên phát biểu. dụng StrongSORT - một bộ theo vết được đánh giá III. PHƯƠNG PHÁP ĐỀ XUẤT là tiên tiến nhất hiện nay. A. Tổng quan chung về phương pháp đề xuất B. Phát hiện hình trạng giơ tay và đứng lên phát biểu Như đã trình bày trong mục nghiên cứu liên quan, Phương pháp được đề xuất trong bài báo có thể sử mặc dù đã có nhiều phương pháp hoạt động đã được đề dụng bất cứ mô hình nào trong bước phát hiện. Gần đây, xuất nhưng bài toán nhận dạng hoạt động trong lớp học nhiều phương pháp phát hiện dựa trên mạng học sâu đã có những đặc thù riêng như sau: được đề xuất bao gồm các phương pháp hai giai đoạn • Số lượng người trong một khung hình lớn: Trong như Faster R-CNN [5], một giai đoạn như các phiên bản các nghiên cứu về nhận dạng hoạt động, thông của YOLO và kiến trúc transformer như DETR [6]. thường chỉ có 1 hoặc 2 người trong một khung hình, YOLO(You Only Look Once) [7] là một trong những hình ảnh của người thường chiếm phần lớn trong mô hình phát hiện đối tượng nhanh nhất với ba thành khung hình. Khi đó, thông tin của toàn bộ khung phần chính: mạng cơ sở (backbone), mạng cổ (neck) và hình thường được sử dụng làm đầu vào cho các mô mạng đầu (head). Backbone là một mạng được đào tạo hình nhận dạng. Ngược lại, đối với video của lớp trước được sử dụng để giảm độ phân giải không gian học thực tế, nhiều người học cùng có mặt trong một của hình ảnh và tăng độ phân giải đặc trưng sau đó được khung hình nên hình ảnh của một học sinh thường đưa vào Neck. Neck sử dụng để trích xuất các hình kim chỉ chiếm một vùng nhỏ trên toàn bộ khung hình. tự tháp đặc trưng. Điều này giúp mô hình có thể khái Do vậy việc sử dụng thông tin của toàn bộ khung quát hóa tốt các đối tượng ở các kích thước và tỷ lệ khác hình là không hợp lý. Đặc điểm này yêu cầu các nhau. Cuối cùng, Head áp dụng các hộp neo trên bản phương pháp nhận dạng hoạt động từ video lớp học đồ đặc trưng và hiển thị đầu ra cuối cùng, bao gồm: các cần phải xác định vùng liên quan đến người học có lớp, độ tin cậy và hộp giới hạn. hoạt động quan tâm, thường được thực hiện thông • Input Image: Thuật toán lấy hình ảnh làm đầu vào. qua các phương pháp phát hiện các hình trạng quan • Grid Division: Hình ảnh được chia thành một lưới tâm trên ảnh. các ô. Kích thước của lưới phụ thuộc vào kích thước • Trong cùng một video, nhiều người thực hiện các đầu vào của hình ảnh và kích thước của bản đồ chập hoạt động khác nhau ở các vị trí khác nhau, trong cuối của mạng(network’s last convolutional feature khoảng thời gian khác nhau và thời điểm bắt đầu và map). ISBN 978-604-80-8932-0 271
  3. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Hình 1: Phương pháp đề xuất cho đánh giá tương tác trong lớp học dựa trên video. • Feature Extraction: Mỗi ô được truyền qua con- tượng. YOLOv5 sử dụng kiến trúc phức tạp có tên là volutional neural network(CNN) [8] để trích xuất EfficiencyDet, giúp đạt được độ chính xác cao hơn và các đặc trưng. Một mạng CNN được sử dụng để khả năng khái quát hóa tốt hơn cho nhiều loại đối tượng phát hiện đối tượng tại mỗi ô lưới này. hơn. Bên cạnh đó, YOLOv5 còn sử dụng một phương • Objectness Score: Điểm tin cậy mỗi đối tượng pháp mới để tạo các hộp neo, là "dynamic anchor boxes". được dự đoán trong ô lưới. Điều này được thực Bằng cách này các hộp neo được căn chỉnh chặt chẽ hơn hiện bằng cách sử dụng một hàm hồi quy logistic. với kích thước và hình dạng của các đối tượng được phát Hàm này dự đoán xác suất của một đối tượng có hiện. YOLOv5 sử dụng một hàm mất mát mới - CIoU mặt trong ô. loss để huấn luyện mô hình, nhằm cải thiện hiệu suất • Class Probability: Đối với mỗi ô lưới, YOLO dự của mô hình trên các tập dữ liệu không cân bằng và để đoán lớp của đối tượng và xác suất của nó. Điều này tính toán tổn thất vị trí. được thực hiện bằng cách sử dụng hàm softmax, Bài báo chính thức về YOLOv7 phát hành tháng 7 tính toán xác suất điều kiện của đối tượng thuộc năm 2022 bởi Chien-Yao Wang, Alexey Bochkovskiy và mỗi lớp. Hong-Yuan Mark Liao. [10] YOLOv7 sử dụng kiến trúc • Bounding Box: Đối với mỗi ô dự đoán đối tượng, mới và sử dụng "Trainable bag-of-freebies" YOLO dự đoán hộp bao quanh đối tượng. Hộp bao quanh được dự đoán liên quan đến kích thước ô và C. Phương pháp theo vết đối tượng được biểu thị bằng tọa độ trung tâm, chiều rộng và Thuật toán SORT được để xuất trong nghiên cứu [11] chiều cao của nó. nhằm ước lượng chuyển động của một đối tượng tồn • Non-Maximum Suppression: Để loại bỏ các hộp tại trong video bằng cách truyền thông tin của một đối bao quanh dư thừa và cải thiện độ chính xác của tượng từ các khung hình trước đó đến khung hình hiện việc phát hiện, YOLO thực hiện non-maximum tại. Cụ thể, trạng thái của đối tượng trong SORT là một suppression(NMS) [9] trên các hộp bao quanh được bộ bảy thông số: x = [u, v, s, r, u′ , v ′ , s′ ]T . Trong đó (u, dự đoán. NMS loại bỏ tất cả các hộp giới hạn có v) là tọa độ 2D của tâm hộp giới hạn được phát hiện điểm tin cậy thấp hơn. bởi mô hình phát hiện đối tượng. s và r là diện tích và • Output: Kết quả cuối cùng của YOLO là một danh tỉ lệ khung hình của hộp giới hạn. Tỷ lệ khung hình r sách các hộp bao quanh với lớp và điểm tin cậy liên được giả định là không đổi. Ba thông số còn lại lần lượt quan của chúng. Các hộp này là các đối tượng được là thành phần vận tốc của u, v và s. tìm thấy trong hình ảnh cung cấp làm đầu vào. Nghiên cứu [11] cũng chỉ ra rằng giả định kết quả của việc theo dõi đối tượng là chuyển động tuyến tính YOLOv5 được giới thiệu năm 2020 với những ưu và tận dụng bộ lọc Kalman để liên kết các dự đoán từ điểm là nhanh, dễ sử dụng và có khả năng đạt được mô hình phát hiện đối tượng với các ước tính vị trí thông kết quả tiên tiến cho các nhiệm vụ phát hiện đối qua ngưỡng IoU. Khi tốc độ khung hình video cao, việc ISBN 978-604-80-8932-0 272
  4. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) giả định chuyển động tuyến tính có thể có hiệu quả đối B. Độ đo đánh giá với sự dịch chuyển đối tượng trên các khung hình liên Để đánh giá hiệu suất phát hiện các hình trạng hoạt tiếp. Tuy nhiên, nếu các đối tượng đang theo dõi biến động trên ảnh tĩnh, chúng tôi sử dụng độ đo mAP, đây mất do bị che khuất thì các phép đo trong quá trình lọc là một trong những thước đo phổ biến thường được sử Kalman sẽ cập nhật sai số phức hợp bậc hai theo thời dụng trong đánh giá hiệu suất của các mô hình phát gian. hiện đối tượng. Nguyên lý cơ bản của tính toán mAP là Để giải quyết vấn đề che khuất trên, các tác giả trong để so sánh các hộp giới hạn dự đoán với các hộp giới nghiên cứu [12] đã đề xuất DeepSORT dựa trên SORT hạn thực tế của các đối tượng trên ảnh dựa trên một và bổ sung thêm thông tin thị giác trích chọn từ các ngưỡng nhất định IoU. Ngưỡng IoU cho biết tỷ lệ giao vùng của đối tượng thông qua một mạng nơ ron. Nhờ cắt giữa hộp giới hạn được phát hiện và hộp giới hạn đó, DeepSORT có thể theo dõi các đối tượng tốt hơn thực tế tương ứng của nó. Ngưỡng IoU được sử dụng ngay cả khi đối tượng bị che khuất. để xác định xem dự đoán đó có đúng hay không. Nói StrongSORT [13] là một phiên bản cải tiến của chung, mAP được tính trên phạm vi IoU (từ 0 đến 1). DeepSORT với hai kỹ thuật được bổ sung là AFLink Ví dụ: mAP@0.5 và mAP@0.75 là những giá trị mAP (appearance-free link model) và Gaussian-smoothed in- được xem xét với IoU = 0,5 và 0,75 tương ứng. terpolation (GSI). AFLink được đề xuất nhằm thực hiện các kết nối các chuỗi theo vết không dựa trên các đặc C. Kết quả phát hiện hình trạng trên ảnh trưng thị giác nhờ đó tăng tốc độ theo vết trong khi Để đánh giá các bộ phát hiện hình trạng đứng lên và vẫn đảm bảo độ chính xác. GSI là một kỹ thuật dựa giơ tay phát biểu trên ảnh chúng tôi thực hiện huấn luyện trên hồi quy tiến trình Gauss cho phép theo vết ngay cả 5 bộ phát hiện bao gồm Faster-RCNN, DETR, YOLOv5, trong trường hợp đối tượng không được phát hiện bởi bộ YOLOv7 và YOLOv8 trên bộ dữ liệu StudentAct. Kết phát hiện. Trong nghiên cứu này, chúng tôi tích hợp bộ quả được thể hiện ở Bảng I và các hình 2 và hình 3. Các phát hiện hình trạng dựa trên mạng YOLO và bộ theo kết quả thực nghiệm cho thấy đối với cả 2 hình trạng, vết StrongSORT nhằm kết nối các kết quả phát hiện và mô hình YOLOv5 đều đạt kết quả cao nhất ở cả độ đo sinh ra các chuỗi (tracklet) cho từng hoạt động. mAP@0.5 và mAP@0.5:0.95. Đối với tất cả các bộ phát hiện, kết quả đạt được cho hình trạng đứng lên phát biểu IV. KẾT QUẢ THỰC NGHIỆM cao hơn so với hình trạng giơ tay do hình trạng giơ tay Trong bài báo này, chúng tôi thực hiện hai thử nghiệm. có kích thước nhỏ, thường xuyên bị che khuất. Trong thử nghiệm thứ nhất, chúng tôi thực hiện đánh giá hiệu quả của các phương pháp phát hiện hình trạng giơ Bảng I: Kết quả nhận dạng hình trạng giơ tay và đứng tay và đứng lên phát biểu trên ảnh, làm cơ sở lựa chọn lên của các mô hình học sâu. Kết quả tốt nhất được in bộ phát hiện sử dụng trong bài toán nhận dạng hoạt đậm. động động của đề tài. Thử nghiệm thứ hai trình bày kết Hoạt động Mô hình mAP@0.5 mAP@0.5:0.95 quả của phương pháp đề xuất trên video của lớp học. Faster-RCNN 0.708 0.334 DETR 0.903 0.521 A. Cơ sở dữ liệu Đứng lên YOLOv5 0.908 0.538 YOLOv7 0.866 0.4786 Trong nghiên cứu này chúng tôi sử dụng bộ dữ liệu YOLOv8 0.889 0.541 dùng chung StudentAct đã được xây dựng qua nghiên Faster-RCNN 0.670 0.248 cứu [14] để huấn luyện và sử dụng một bộ dữ liệu thu tại DETR 0.850 0.293 Giơ tay YOLOv5 0.878 0.405 lớp 5 của một trường tiểu học để kiểm thử. StudentAct YOLOv7 0.864 0.375 là bộ cơ sở dữ liệu được thiết kế nhằm mục đích sử dụng YOLOv8 0.875 0.411 cho các nghiên cứu về nhận dạng hoạt động trong lớp học. Bộ cơ sở dữ liệu định nghĩa năm hoạt động quan tâm trong lớp học bao gồm: ngồi học (sitting), giơ tay D. Kết quả nhận dạng hoạt động (raising_hand), đứng lên phát biểu (standing), ngủ gật Từ kết quả của thử nghiệm 1, chúng tôi sử dụng mô (sleeping) và sử dụng điện thoại (using_phone). Bộ dữ hình YOLOv5 vào giai đoạn phát hiện đối tượng trong liệu có khoảng 31,000 ảnh với khoảng hơn 596,300 hộp phương pháp đề xuất. Kết quả của giai đoạn này được giới hạn các hình trạng hoạt động trên 5 hướng nhìn đưa vào bộ theo vết đối tượng StrongSORT để nhận khác nhau. Trong khi bộ dữ liệu dùng để kiểm thử là dạng các hoạt động diễn ra trong lớp học. Thực nghiệm một video có thời lượng 10 phút được thu từ một camera trên một giờ học của lớp 5 trường tiểu học, chúng tôi hướng thẳng từ bảng xuống dưới lớp. thu được kết quả nhận dạng là 546 lượt giơ tay trên tổng ISBN 978-604-80-8932-0 273
  5. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Hình 2: So sánh kết quả nhận dạng hình trạng giơ tay của các mô hình học sâu. Hình 6: Kết quả nhận dạng hoạt động đứng lên phát biểu trên video. Hình 7: Minh họa một chuỗi hình trạng đứng lên trên Hình 3: So sánh kết quả nhận dạng hình trạng đứng lên video. phát biểu của các mô hình học sâu. Biểu đồ dưới đây mô tả sự phân bố số lượng khung số 433 lượt giơ tay thực tế và 82 lượt được gọi đứng hình của hai lớp giơ tay (raising hand) và đứng lên lên trả lời trên tổng số 71 lượt đứng lên thực tế. Hình 4, (standing up). Hình 8 cho thấy lần phát hiện hoạt động hình 5, hình 6, và hình 7 minh họa kết quả nhận dạng giơ tay có số lượng khung hình cao nhất là 691, trong hoạt động giơ tay và đứng lên phát biểu. khi số lượng khung hình cao nhất của hoạt động đứng lên là 300. Tuy nhiên, giá trị trung vị của hai hoạt động lần lượt là 14 và 12, điều này cho thấy hầu hết các lần giơ tay và đứng lên đều có thời gian ngắn. Cũng theo biểu đồ, mô hình của chúng tôi đã phát hiện ra hoạt động giơ tay có số lượng nhiều hơn so với số lượng hoạt động đứng lên. Hình 4: Kết quả nhận dạng hoạt động giơ tay trên video. Hình 5: Minh họa một chuỗi hình trạng giơ tay trên Hình 8: Biểu đồ boxplot hiển thị phân bố của các lớp video. ISBN 978-604-80-8932-0 274
  6. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) V. KẾT LUẬN [3] T. S. Nazaré and M. Ponti, “Hand-raising gesture detection with lienhart-maydt method in videoconference and distance Qua nghiên cứu này, chúng tôi đã đề xuất một phương learning,” in Progress in Pattern Recognition, Image Analy- pháp tự động đánh giá tương tác trong lớp học dựa sis, Computer Vision, and Applications: 18th Iberoamerican trên video thu thập từ camera giám sát lớp học. Trong Congress, CIARP 2013, Havana, Cuba, November 20-23, 2013, Proceedings, Part II 18. Springer, 2013, pp. 512–519. đó, chúng tôi đã kết hợp mô hình phát hiện đối tượng [4] R. Zheng, F. Jiang, and R. Shen, “Intelligent student behavior YOLOv5 và bộ theo vết đối tượng StrongSORT để phát analysis system for real classrooms,” in ICASSP 2020-2020 hiện hai hoạt động tích cực trong lớp là hoạt động giơ IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 9244–9248. tay và hoạt động đứng lên phát biểu. Kết quả bước đầu [5] R. Girshick, “Fast r-cnn,” in Proceedings of the IEEE interna- xác định được mức độ tương quan giữa hoạt động đứng tional conference on computer vision, 2015, pp. 1440–1448. [6] N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and lên phát biểu và hoạt động giơ tay. Theo đó, số lượng S. Zagoruyko, “End-to-end object detection with transformers,” học sinh được gọi đứng lên trên số lượng lượt giơ tay in European conference on computer vision. Springer, 2020, của các học sinh là rất nhỏ, điều này phản ánh đúng pp. 213–229. [7] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only thực tế trong thời lượng giới hạn của mỗi tiết học, giáo look once: Unified, real-time object detection,” in Proceedings of viên khó có thể đáp ứng hết mong muốn đứng lên trả the IEEE conference on computer vision and pattern recognition, lời của các học sinh. Mặc dù, với mong muốn đưa ra 2016, pp. 779–788. [8] S. Albawi, T. A. Mohammed, and S. Al-Zawi, “Understanding tỉ lệ giữa số lượt đứng lên phát biểu trên số lượt giơ of a convolutional neural network,” in 2017 international con- tay của mỗi học sinh trong một giờ học, nhưng nghiên ference on engineering and technology (ICET). Ieee, 2017, pp. cứu này mới đưa ra được mức độ tương quan giữa tổng 1–6. [9] M. Gong, D. Wang, X. Zhao, H. Guo, D. Luo, and M. Song, số lần đứng lên phát biểu và tổng số lần giơ tay của “A review of non-maximum suppression algorithms for deep các học sinh trong lớp học. Trong tương lai chúng tôi learning target detection,” in Seventh Symposium on Novel Pho- sẽ thực hiện kết hợp phương pháp tái định danh để xác toelectronic Detection Technology and Applications, vol. 11763. SPIE, 2021, pp. 821–828. định chính xác số lượt giơ tay và số lượt đứng lên của [10] C.-Y. Wang, A. Bochkovskiy, and H.-Y. M. Liao, “Yolov7: mỗi học sinh để đưa ra đánh giá chính xác về mức độ Trainable bag-of-freebies sets new state-of-the-art for real-time tương tác của mỗi học sinh trong lớp học. object detectors,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 7464– LỜI CẢM ƠN 7475. [11] A. Bewley, Z. Ge, L. Ott, F. T. Ramos, and Nghiên cứu này được tài trợ Đề tài NCKH cấp Bộ, Bộ B. Upcroft, “Simple online and realtime tracking,” Giáo dục và Đào tạo "Nghiên cứu phát triển hệ thống 2016 IEEE International Conference on Image Processing tự động đánh giá hoạt động học tập trong lớp học dựa (ICIP), pp. 3464–3468, 2016. [Online]. Available: https://api.semanticscholar.org/CorpusID:16034699 trên công nghệ xử lý ảnh và trí tuệ nhân tạo" mã số [12] N. Wojke, A. Bewley, and D. Paulus, “Simple online and CT2020.02.BKA.02. realtime tracking with a deep association metric,” in 2017 IEEE International Conference on Image Processing (ICIP), 2017, pp. TÀI LIỆU THAM KHẢO 3645–3649. [1] V. Le, V. Hoang, T. Nguyen, V. Le, T. Tran, H. Vu, and T. Le, [13] Y. Du, Z. Zhao, Y. Song, Y. Zhao, F. Su, T. Gong, and H. Meng, “Hand activity recognition from automatic estimated egocentric “Strongsort: Make deepsort great again,” 2023. skeletons combining slow fast and graphical neural networks,” [14] P.-D. Nguyen, H.-Q. Nguyen, T.-B. Nguyen, T.-L. Le, T.-H. Tran, Vietnam. J. Comput. Sci., vol. 10, no. 1, pp. 75–100, 2023. H. Vu, and Q. N. Huu, “A new dataset and systematic evaluation [Online]. Available: https://doi.org/10.1142/s219688882250035x of deep learning models for student activity recognition from [2] R. Zheng, F. Jiang, and R. Shen, “Gesturedet: Real-time student classroom videos,” in 2022 International Conference on Multi- gesture analysis with multi-dimensional attention-based detec- media Analysis and Pattern Recognition (MAPR), 2022, pp. 1–6. tor,” in Proceedings of the Twenty-Ninth International Confer- ence on International Joint Conferences on Artificial Intelli- gence, 2021, pp. 680–686. ISBN 978-604-80-8932-0 275
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2