Giới thiệu tài liệu
Báo cáo này trình bày nghiên cứu về việc sử dụng dữ liệu để hiểu và dự đoán tình trạng trầm cảm, với mục tiêu hỗ trợ các tổ chức trong việc chẩn đoán và can thiệp sớm. Nghiên cứu này nhấn mạnh tầm quan trọng của việc xác định kịp thời các cá nhân có nguy cơ để cung cấp hỗ trợ trước khi tình hình trở nên tồi tệ hơn. Các yếu tố đầu vào bao gồm các đặc điểm cá nhân như thông tin cá nhân, tình trạng làm việc/học tập, sức khỏe và lối sống, các yếu tố tâm lý và tài chính, và trình độ học vấn. Đầu ra là dự đoán về tình trạng trầm cảm, được gắn nhãn là 0 (không bị trầm cảm) hoặc 1 (bị trầm cảm).
Đối tượng sử dụng
Mục tiêu của nghiên cứu là khám phá các yếu tố gây ra trầm cảm và dự đoán khả năng mắc bệnh này, từ đó tạo ra các công cụ hỗ trợ chẩn đoán dễ dàng hơn.
Nội dung tóm tắt
Nghiên cứu sử dụng một bộ dữ liệu thu thập từ một cuộc khảo sát ẩn danh được thực hiện từ tháng 1 đến tháng 6 năm 2023, thời điểm COVID-19 có tác động đáng kể đến sức khỏe tâm thần. Quá trình tiền xử lý dữ liệu bao gồm xử lý các giá trị bị thiếu bằng cách loại bỏ các cột vượt quá ngưỡng 70% giá trị null, điền các giá trị null bằng giá trị trung vị cho các cột số và điền bằng "Unkown" hoặc các giá trị mode cho các cột category. Label Encoding được áp dụng cho từng cột phân loại. Các mô hình được sử dụng bao gồm Decision Tree, Random Forest, LightGBM và Multi-Layer Perceptron (MLP). Standard Scaler được áp dụng cho dữ liệu huấn luyện trước khi sử dụng mạng nơ-ron. Các mô hình được đánh giá bằng cách sử dụng ma trận nhầm lẫn (Confusion Matrix), đường cong ROC, độ chính xác (Accuracy), độ thu hồi (Recall), độ chính xác (Precision) và F1-score. Kết quả cho thấy các mô hình như Random Forest, LightGBM và Multi-layer Perceptron có tiềm năng mạnh mẽ trong việc dự đoán trầm cảm. Hướng nghiên cứu tương lai bao gồm tăng cường dữ liệu và phân tích sâu hơn các yếu tố ảnh hưởng đến trầm cảm.