Giới thiệu tài liệu
Tài liệu này cung cấp một cái nhìn tổng quan về việc sử dụng Internet có vấn đề và các yếu tố liên quan. Nó bao gồm giới thiệu về vấn đề, phân tích dữ liệu khám phá (EDA) của các đặc trưng, tiền xử lý dữ liệu, xây dựng mô hình, đánh giá mô hình và trình diễn.
Đối tượng sử dụng
Sinh viên, nhà nghiên cứu
Nội dung tóm tắt
Tài liệu này trình bày chi tiết về việc phân tích và mô hình hóa dữ liệu liên quan đến việc sử dụng Internet có vấn đề. Nó bắt đầu bằng việc giới thiệu về vấn đề và mô tả bộ dữ liệu được sử dụng, bao gồm các thông tin về số lượng mẫu, độ tuổi của đối tượng và các biến số có sẵn. Phần EDA tập trung vào việc khám phá các đặc trưng quan trọng như chỉ số suy giảm mức độ nghiêm trọng (SII), tổng điểm PCIAT, và giờ sử dụng Internet, cũng như mối tương quan giữa chúng và các yếu tố khác như tuổi và giới tính. Quá trình tiền xử lý dữ liệu bao gồm việc loại bỏ các cột không cần thiết, xử lý các giá trị bị thiếu và dữ liệu sai lệch, cũng như áp dụng các kỹ thuật feature engineering để cải thiện hiệu suất mô hình. Các mô hình học máy như XGBoost, Random Forest và Neural Network được sử dụng để dự đoán việc sử dụng Internet có vấn đề, và hiệu suất của chúng được đánh giá bằng các độ đo như accuracy, precision, recall và f1-score. Kết quả cho thấy Neural Network cho hiệu suất tốt nhất sau khi áp dụng feature engineering.