KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
P a g e 62 | 82
NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA DỮ LIỆU MẪU NGẪU NHIÊN
BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON
Giảng viên hướng dẫn: ThS. Phạm Thị Kim Thúy
Sinh viên thực hiện: Nguyễn Phi Thái Lớp: CQ.57.CNTT
Trần Xuân Lâm Lớp: CQ.57.CNTT
m tắt: Trong thời đại 4.0, ng nghệ thông tin vai trò rất quan trọng trong tự động hóa và
trao đổi dữ liu. Đáp ứng với xu hướng đó, việc áp dụng kiến thức công nghệ thông tin để giải quyết c
bài toán rất quan trọng, cụ thbài toán xác suất thống kê. vậy, đề i này chọn phương pháp lập
trình với ngôn ngữ python để hình hóa mẫu dữ liệu mẫu ngẫu nhiên. Việc mô tả dữ liệu bằng
phương pháp này vai trò quan trọng, giúp cho chúng ta phân tích được những đặc tính của dữ
liu, mối quan hgia các mẫu khác nhau. Từ đó đưa ra được kết quả chínhc cho mẫu d liu.
Từ khóa: Mô hình hóa dữ liệu, phương pháp lập trình, ngôn ngữ python.
1. ĐẶT VẤN ĐỀ
Hiện nay, Việt Nam, sinh viên chuyên ngành Công Nghệ Thông Tin, Toán Tin đang
áp dụng kiến thức toán hoặc thuật toán để làm đề tài tốt nghiệp. Khảo sát các đề tài tốt nghiệp
năm 2019 của sinh viên CNTT K56 thuộc phân hiệu, không ít sinh viên chọn Đại số tuyến
tính, Xác suất Thống kê,… làm kiến thức nền cho việc lập trình trong đề tài của sinh viên. Đa
số sinh viên đều sử dụng Python những thuộc tính ưu việt trong việc tính toán: tích phân,
đạo hàm, giải các phương trình vi phân,
thể thấy, lập trình giúp cho việc giải toán nhanh, chúng ta chỉ cần định nghĩa ra
phương pháp giải chúng ta thể giải được bài toán với bất mẫu dữ liệu tương tự nào.
Cụ thể, việc sử dụng phương pháp lập trình với ngôn ngữ python để tả dữ liệu ngẫu nhiên
giúp chúng ta hình dung được dữ liệuđưa ra được các nhận xét chính xác, quan trọng.
2. CÁC NỘI DUNG CHÍNH
2.1. Phương pháp nghiên cứu
- Phương pháp thu thập xử số liệu từ thực nghiệm.
- Phương pháp hình hóa dữ liệu thông qua ngôn ngữ python.
2.2. Phương tiện nghiên cứu
- Sử dụng ngôn ngữ python để lập trình.
2.3. Nội dung nghiên cứu đã thực hiện
Từ việc nghiên cứu về những phương pháp tả dữ liệu trong thống bao gồm: tả
dữ liệu bằng phương pháp đồ thị, tả dữ liệu bằng phương pháp số việc nghiên cứu
phương pháp lập trình với ngôn ngữ Python để hình hóa dữ liệu thông qua những dạng đồ
thị: đồ thị hình cột (histogram), đồ thị chỉ tần số, đồ thị chỉ tần suất, đồ thị hình hộp (boxplot),
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
P a g e 63 | 82
phương trình đường thẳng hồi quy tuyến nh tính toán được các giá trị liên quan đến
những hình: giá trị mode, trung vị, trung bình,
Trong đó, hình hóa dữ liệu với mẫu dữ liệu thực phần trọng tâm của đề tài. Dữ liệu
thực phỏng trong đề tài danh sách điểm thi kết thúc học phần điểm thành phần môn
Xác suất Thống của lớp CNTT-K57. Dữ liệu này được phỏng để giải quyết dạng toán:
Tìm mối tương quan giữa điểm thành phần điểm cuốicụ th thông qua hình hồi quy
tuyến tính.
Kết quả những dạng hình dữ liệu được tạo dựa trên ngôn ngữ python:
Hình 1. Biểu đồ hình thanh
Hình 2. Biểu đồ hình thanh theo cặp
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
P a g e 64 | 82
Hình 3. Biểu đồ đường
Hình 4. Biểu đồ tần số của điểm thành phần điểm kết thúc học phần
Hình 5. Biểu đồ tần suất
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
P a g e 65 | 82
Hình 6. Biểu đồ hình hộp
Hình 7. Biểu đồ tán xạ
Hình 8. Đường thẳng hồi quy tuyến tính
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
P a g e 66 | 82
Từ những hình trên, ta nhận xét: Điểm thành phần thường cao hơn điểm kết thúc
học phần. Hơn nữa, điểm thành phần, điểm kết thúc học phần mối tương quan với nhau cụ
thể: điểm thành phần cao thì điểm kết thúc học phần cũng xu hướng cao.
Ngoài ra, thông qua đồ thị hồi quy tuyến tính giữa điểm thành phần điểm thi kết thúc
học phần, nhóm những nhận xét sau:
- Đường thẳng hồi quy tuyến tính xu hướng đi lên nên điểm thành phần điểm kết
thúc học phần tỉ lệ thuận với nhau, điểm thành phần tăng thì điểm thi kết thúc học phần cũng
tăng.
- Các giá trị của điểm kết thúc học phần tương ứng với điểm thành phần phân bố hai bên
đường thẳng hồi quy.
- Nhìn vào đồ thị, thể dự báo được điểm kết thúc học phần khi điểm thành phần.
Giả sử điểm thành phần được 3 điểm thì điểm kết thúc học phần thể dự đoán nằm trong
khoảng từ [1.8, 2] điểm.
2.4. Kết quả nghiên cứu
Đề tài đã đánh giá hình hóa được các đại lượng tiêu biểu của thống dữ liệu.
Trong đó, nhóm nghiên cứu đã sử dụng hồi quy đơn tuyến tính để đưa ra những phân tích đặc
trưng kết quả thi của một mẫu dữ liệu sinh viên Phân hiệu. Kết quả đó thông tin bổ ích để
giảng viên Toán Phân hiệu tham khảo để định hướng giảng dạy.
2.5. Kiến nghị
Dữ liệu trong thực tế thì thường rất lớn việc xử số liệu nhiều phương pháp khác
nhau cũng như kết hợp với các thuật toán phức tạp để thể xử đưa ra những nhận định
chính xác cho mẫu dữ liệu. Do đó, trong tương lai đề tài thể mở rộng với tập dữ liệu quy
lớn hơn và nên chọn hình hồi quy đa tuyến.
3. KẾT LUẬN
Trong môn học Xác xuất Thống kê, sinh viên sẽ giải tiếp cận các bài toán bằng cách
phương pháp thông thường vậy phương pháp này thiếu đi tính minh họa, trực quan. Hơn
nữa, trong lĩnh vực y việc lấy mẫu dự liệu rất quan trọng, do đó với mỗi mẫu dữ liệu khác
nhau thì sinh viên phải giải nhiều lần khác nhau, điều y tốn rất nhiều thời gian, công sức.
vậy, việc thực hiện giải các bài toán bằng phương pháp lập trình sẽ giải quyết vấn đề đó.
Ngôn ngữ python một trong những công cụ lập trình tính năng mạnh mẽ của trong
việc giải các bài toán, đặc biệt trong lĩnh vực phân tích dữ liệu. Cụ thể python nhiều thư
viện được xây dựng giúp chúng ta minh họa được các bài toán thông qua các dạng đồ thị,
biểu đồ như histogram, tròn, boxplot, ... Điều này giúp cho việc đánh giá dữ liệu dễ dàng. Từ
đó, nhà thống thể đưa ra những kết luận chính xác cho mẫu dữ liệu.
Đề tài này đã sử dụng phương pháp lập trình với ngôn ngữ python để xử dữ liệu
hình hóa dữ liệu một cách trực quan hơn. Cụ thể, đề tài đã xây dựng một hình để biểu thị
mỗi tương quan của hai thuộc tính trong dữ liệu đó phương trình hồi quy tuyến tính. Thông
qua phương trình hồi quy tuyến tính, khi chúng ta biết một trong hai thuộc tính, chúng ta