intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ ngành Máy tính: Phân tích dữ liệu sinh viên tốt nghiệp bằng phương pháp trực quan

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:81

22
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài “Phân tích dữ liệu sinh viên tốt nghiệp bằng phương pháp trực quan” được đặt ra nhằm tìm kiếm thông tin hữu ích liên quan đến việc hình thành hoặc bổ sung các thông tin hỗ trợ nâng cao chất lượng đào tạo của Trường.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ ngành Máy tính: Phân tích dữ liệu sinh viên tốt nghiệp bằng phương pháp trực quan

  1. NGUYỄN THỊ HOÀNG YẾN BỘ GIÁO DỤC VIỆN HÀN LÂM VÀ ĐÀO TẠO KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Thị Hoàng Yến HỆ THỐNG THÔNG TIN PHÂN TÍCH DỮ LIỆU SINH VIÊN TỐT NGHIỆP BẰNG PHƯƠNG PHÁP TRỰC QUAN LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH 2021 Thành phố Hồ Chí Minh - 2021
  2. BỘ GIÁO DỤC VIỆN HÀN LÂM VÀ ĐÀO TẠO KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Thị Hoàng Yến PHÂN TÍCH DỮ LIỆU SINH VIÊN TỐT NGHIỆP BẰNG PHƯƠNG PHÁP TRỰC QUAN Chuyên ngành : Hệ Thống Thông Tin. Mã số : 8480104 LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN VĨNH PHƯỚC Thành phố Hồ Chí Minh – 2021
  3. i LỜI CAM KẾT Tôi cam đoan đây là công trình nghiên cứu của cá nhân tôi, xuất phát từ nhu cầu thực tế trong quá trình học tập cao học, cũng như nhu cầu biểu diễn và phân tích trực quan của Trường Cao đẳng Giao thông Vận tải. Dữ liệu sử dụng trong nghiên cứu được thu thập tại Trường Cao đẳng Giao thông Vận tải Trung ương III. Trong quá trình nghiên cứu của luận văn, các tài liệu trích dẫn và tham khảo có nguồn gốc rõ ràng. Kết quả của luận văn nghiên cứu Phân tích dữ liệu sinh viên tốt nghiệp bằng phương pháp trực quan được đặt ra nhằm tìm kiếm thông tin hữu ích liên quan đến việc hình thành hoặc bổ sung các thông tin hỗ trợ nâng cao chất lượng đào tạo của Trường là trung thực. Tác giả luận văn Nguyễn Thị Hoàng Yến
  4. ii LỜI CẢM ƠN Trong quá trình thực hiện luận văn “Phân tích dữ liệu sinh viên tốt nghiệp bằng phương pháp trực quan”, tôi đã nhận được nhiều sự hỗ trợ, chỉ dẫn từ phía Thầy Cô, các cá nhân và tổ chức sau: Tôi xin chân thành cảm ơn sâu sắc đến Thầy hướng dẫn chính PGS.TS. Trần Vĩnh Phước đã tận tình dìu dắt, hướng dẫn, góp ý, chỉnh sửa, chỉ dạy các kiến thức trực quan, khai phá dữ liệu, hệ thống thông tin để tôi hoàn thành luận văn này. Trân trọng cảm ơn TS. Trương Nguyên Vũ – Viện trưởng viện Cơ học và Tin học ứng dụng thuộc Viện Hàn Lâm Khoa Học đã tạo điều kiện cho lớp học tốt nhất, mời nhiều nhà giáo ưu tú nhất để lớp học thành công tốt đẹp. Tôi xin gởi lời cảm ơn đến Quý bạn Viện Cơ Học và Tin Học Ứng Dụng, Trường Cao đẳng Giao thông Vận tải Trung ương III đã đóng góp ý kiến xây dựng dữ liệu ban đầu. Tôi cũng xin được gửi lời cảm ơn đến Ban Giám đốc Học Viện, Phòng đào tạo Sau Đại học, các Thầy, Cô trong Khoa Hệ thống thông tin và viễn thông, Học Viện Khoa học và Công nghệ, Viện Cơ Học và Tin Học Ứng Dụng đã tạo mọi điều kiện và môi trường nghiên cứu học tập tốt nhất. Tác giả luận văn Nguyễn Thị Hoàng Yến
  5. iii DANH MỤC CHỮ VIẾT TẮT TÊN VIẾT TẮT KÍ HIỆU DIỄN GIẢI SV Sinh viên
  6. iv DANH MỤC CÁC BẢNG BIỂU Bảng 2.1: Bảng điểm tốt nghiệp của Sinh viên ............................................... 11 Bảng 2.2: Bảng điểm tốt nghiệp sinh viên tốt nghiệp và có việc làm ............ 11 Bảng 3.1: Bảng dữ liệu sinh viên xử lý........................................................... 14 Bảng 3.2: Bảng dữ liệu điểm SV thuật toán K -Means .................................. 33 Bảng 3.3: Bảng dữ liệu cụm ngẫu nhiên k = 1................................................ 34 Bảng 3.4: Bảng kết quả khoảng cách đến tâm cụm ........................................ 34 Bảng 3.5: Bảng kết quả phân cụm .................................................................. 35 Bảng 3.6: Bảng tính kết quả tâm cụm ............................................................. 36 Bảng 3.7: Kết quả khoảng cách sinh viên đến tâm cụm ................................. 37 Bảng 3.8: Bảng kết quả phân cụm mới ........................................................... 37 Bảng 3.9: Bảng dữ liệu tính lại tâm cụm ........................................................ 38 Bảng 3.10: Bảng kết quả số liệu đến tâm cụm mới ........................................ 39 Bảng 3.11: Bảng kết quả phân cụm mới ......................................................... 39 Bảng 3.12: Bảng dữ liệu SV phân cụm ........................................................... 40 Bảng 4.1: Bảng phân tích câu hỏi ................................................................... 46
  7. v DANH SÁCH CÁC HÌNH Hình 2.1: Biểu đồ minh họa trực quan .............................................................. 3 Hình 2.2: Biểu đồ cột đứng ............................................................................... 4 Hình 2.3: Biểu đồ Pareto Chart ......................................................................... 4 Hình 2.4: Biểu đồ Area ..................................................................................... 5 Hình 2.5: Biểu đồ Line ...................................................................................... 6 Hình 2.6: Biểu đồ Line Point ............................................................................ 6 Hình 2.7: Sơ đồ thuật toán K - Mean ................................................................ 7 Hình 2.8: Minh họa thành phần Matplotlib figure [10] .................................... 9 Hình 3.1: Biểu đồ cột biểu diễn điểm toàn khóa Sinh Viên ........................... 20 Hình 3.2: Biểu đồ dạng đường biểu diễn điểm Sinh viên Cơ khí động lực .... 20 Hình 3.3: Biểu đồ dạng đường biểu diễn điểm Sinh viên Cơ khí chế tạo ...... 21 Hình 3.4: Biểu đồ dạng đường biểu diễn điểm Sinh viên Khoa Điện ............ 21 Hình 3.5: Biểu đồ dạng đường biểu diễn điểm Sinh viên toàn khóa .............. 22 Hình 3.6: Biểu đồ đường so sánh biểu diễn điểm Sinh viên Cơ khí động lực 22 Hình 3.7: Biểu đồ đường so sánh biểu diễn điểm Sinh viên Cơ khí chế tạo .. 23 Hình 3.8: Biểu đồ đường so sánh biểu diễn điểm Sinh viên Khoa Điện ........ 23 Hình 3.9: Biểu đồ đường so sánh biểu diễn điểm Sinh viên toàn khóa .......... 24 Hình 3.10: Biểu đồ đường điểm biểu diễn điểm SV Cơ khí động lực............ 24 Hình 3.11: Biểu đồ đường điểm biểu diễn điểm SV Cơ chế tạo .................... 25 Hình 3.12: Biểu đồ đường điểm biểu diễn điểm SV Khoa Điện .................... 25 Hình 3.13: Biểu đồ đường điểm biểu diễn điểm Sinh viên toàn khóa ............ 26 Hình 3.14: Biểu diễn điểm chuyên ngành và điểm tốt nghiệp SV.................. 26 Hình 3.15: Biểu diễn điểm chuyên ngành, tốt nghiệp SV .............................. 27 Hình 3.16: Điểm trung bình tốt nghiệp SV ..................................................... 27 Hình 3.17: Biểu diễn điểm SV có việc và chưa có việc ................................. 28 Hình 3.18: Biểu diễn điểm SV có việc và chưa có việc ................................. 28 Hình 3.19: Biểu diễn 3 chiều điểm SV năm 1 ................................................ 29 Hình 3.10: Biểu diễn 3 chiều điểm SV năm 2 ................................................ 29 Hình 3.21: Biểu diễn 3 chiều điểm SV năm 3 ................................................ 30 Hình 3.22: Biểu diễn 3 chiều điểm SV chuyên ngành .................................... 31 Hình 3.23: Biểu diễn 3 chiều điểm tốt nghiệp SV .......................................... 31
  8. vi Hình 3.24: Biểu diễn điểm SV khoa cơ khí động lực ..................................... 32 Hình 3.25: Biểu diễn 3 chiều điểm SV cơ khí chế tạo .................................... 32 Hình 3.26: Biểu diễn 3 chiều điểm SV khoa điện........................................... 32 Hình 3.27: Nhận file dữ liệu Excel ................................................................. 41 Hình 3.28: Phân cụm với K =3 ....................................................................... 41 Hình 3.29: Phâm cụm với K = 5 ..................................................................... 42 Hình 3.30: Phân cụm K = 10........................................................................... 42 Hình 3.31: Kết quả phân cụm theo K.............................................................. 43 Hình 3.32: Phân cụm với K = 5 ...................................................................... 43 Hình 3.33: Phâm cụm điểm Ycn và Ytn SV với K = 5 .................................. 44 Hình 3.34: Kết quả phân cụm điểm Ycn, Ytn của SV với K = 10 ................. 45 Hình 4.1: Biểu đồ điểm toàn khóa học SV ..................................................... 46 Hình 4.2: Điểm chuyên ngành và tốt nghiệp SV ............................................ 47 Hình 4.3: Biểu đồ 3D điểm SV Y1, Y2, Y3, Ycn, Ytn................................... 48 Hình 4.4: Điểm năm 1, 2, 3 với K =10 ........................................................... 48 Hình 4.5: Điểm chuyên ngành Ycn, Ytn của SV với K = 10 ......................... 49
  9. vii MỤC LỤC LỜI CAM KẾT .................................................................................................. i LỜI CẢM ƠN ................................................................................................... ii DANH MỤC CHỮ VIẾT TẮT ....................................................................... iii DANH MỤC CÁC BẢNG BIỂU .................................................................... iv DANH SÁCH CÁC HÌNH ............................................................................... v MỤC LỤC ....................................................................................................... vii CHƯƠNG 1: GIỚI THIỆU ............................................................................... 1 1.1 Đặt vấn đề ............................................................................................. 1 1.2 Mục tiêu nghiên cứu ............................................................................. 1 1.3 Đối tượng và phạm vi nghiên cứu ........................................................ 1 1.4 Phương pháp nghiên cứu ...................................................................... 1 CHƯƠNG 2: TỔNG QUAN TÀI LIỆU NGHIÊN CỨU................................. 3 2.1 Lý thuyết về trực quan hoá ................................................................... 3 2.2 Lý thuyết về phân cụm dữ liệu theo thuật toán K-Means .................... 6 2.3 Các tài liệu nghiên cứu phương pháp trực quan ...................................... 8 2.4 Trực quan hoá điểm tốt nghiệp sinh viên hiện thực hóa Python ............. 9 2.4.1 Thư viện Matplotlib ........................................................................... 9 2.4.2 Thư viện Pandas ............................................................................... 10 2.4.3 Thư viện numpy ............................................................................... 10 2.4.4 Thư viện Scikit – learn..................................................................... 10 2.5 Khảo sát dữ liệu điểm sinh viên ............................................................. 11 CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU ............................................ 12 3.1 Xác định các biến và mô tả biểu đồ biểu diễn dữ liệu ........................... 12 3.1.1 Danh sách các biến .......................................................................... 12 3.1.2 Mô tả các biến .................................................................................. 12
  10. viii 3.1.3 Xây dựng hàm toán học cho các biến .............................................. 14 3.2 Xây dựng biểu đồ trực quan hóa các biến dữ liệu điểm sinh viên......... 14 3.2.1 Xây dựng bản dữ liệu điểm sinh viên .............................................. 14 3.2.2 Xây dựng biểu đồ 2D ....................................................................... 19 3.2.3 Xây dựng biểu đồ trực quan 3D ................................................... 29 3.3 Phương pháp chuyên gia phân cụm dữ liệu theo thuật toán K - Means 33 3.3.1 Xây dựng dữ liệu phân cụm dữ liệu theo thuật toán K - Means...... 33 3.3.2 Xây dựng ứng dụng phân cụm K -Means bằng Python .................. 40 CHƯƠNG 4: XÂY DỰNG TẬP CÂU HỎI PHÂN TÍCH ............................ 46 4.1 Xây dựng tập dữ liệu câu hỏi phân tích và trả lời ........................... 46 4.2 Xây dựng tập câu hỏi và trả lời theo K – Means............................. 48 CHƯƠNG 5: KẾT LUẬN .............................................................................. 50 TÀI LIỆU THAM KHẢO ............................................................................... 51 PHỤ LỤC CODE ............................................................................................ 53
  11. 1 CHƯƠNG 1: GIỚI THIỆU 1.1 Đặt vấn đề Xu hướng hiện nay là các trường đại học, cao đẳng phải tiến tới tự chủ. Nhưng sau khi tự chủ để phát triển lâu dài và thu hút sinh viên thì còn nhiều việc phải giải quyết các vấn đề đặt ra như: Cơ sở vật chất thế nào, chất lượng đào tạo ra sao, sinh viên được đào tạo ra có đáp ứng và phù hợp với nhu cầu doanh nghiệp hay không, tỉ lệ sinh viên sau khi tốt nghiệp có việc làm là bao nhiêu? Làm đúng chuyên ngành sinh viên đã được trường đào tạo hay có việc làm ở một chuyên ngành khác… Để giải quyết những vấn đề này các nhà quản lý trường cần phải có những chính sách phù hợp cho từng vấn đề cụ thể trong đào tạo và tuyển sinh cũng như nhu cầu tuyển dụng của các nhà tuyển dụng. Đối với một trường cao đẳng như Trường Cao đẳng Giao thông Vận tải Trung ương III, chất lượng đào tạo là một yếu tố quan trọng chi phối toàn bộ hoạt động của trường. Phân tích dữ liệu liên quan đến sinh viên tốt nghiệp bằng phương pháp trực quan là một tiếp cận được chọn để khảo sát tình trạng và kết quả giảng dạy của trường. Đề tài “Phân tích dữ liệu sinh viên tốt nghiệp bằng phương pháp trực quan” được đặt ra nhằm tìm kiếm thông tin hữu ích liên quan đến việc hình thành hoặc bổ sung các thông tin hỗ trợ nâng cao chất lượng đào tạo của Trường. 1.2 Mục tiêu nghiên cứu Phân tích dữ liệu liên quan sinh viên đã tốt nghiệp bằng phương pháp trực quan để hỗ trợ quyết định các chính sách nâng cao chất lượng đào tạo. 1.3 Đối tượng và phạm vi nghiên cứu Dựa vào bảng điểm tốt nghiệp của sinh viên tại trường Trường Cao đẳng Giao thông Vận tải Trung ương III qua dữ liệu thu thập từ các năm của các khoa trong trường. 1.4 Phương pháp nghiên cứu Phương pháp thống kê. Phương pháp thống kê áp dụng trong luận văn để thu thập, tổng hợp, trình bày dữ liệu sinh viên đã tốt nghiệp dưới dạng excel.
  12. 2 Phương pháp đồ họa. Phương pháp đồ họa được áp dụng trong luận văn để biểu diễn dữ liệu dưới dạng các biểu đồ khác nhau. Phương pháp phân tích. Phương pháp phân tích được áp dụng trong luận văn để phân tích dữ liệu liên quan sinh viên đã tốt nghiệp. Ứng dụng Python vào vẽ các biểu đồ ở dạng 2D và 3D để mô tả trực quan hóa các biến và tương quan giữa các biến. Từ đó rút ra các thông tin hữu ích để hỗ trợ quyết định các chính sách nâng cao chất lượng đào tạo.
  13. 3 CHƯƠNG 2: TỔNG QUAN TÀI LIỆU NGHIÊN CỨU 2.1 Lý thuyết về trực quan hoá - Trực quan hóa (Visualization) là kỹ thuật tạo ra những hình ảnh, biểu đồ diễn tả các thông điệp, thông tin đến người dùng và minh họa dữ liệu sao cho dễ hiểu, phản ánh trung thực với số liệu. - Biểu diễn trực quan hóa dữ liệu (Data Visualizations) là việc dùng những công cụ xử lý và phân tích dữ liệu để trả lời làm rõ những mục tiêu, chỉ ra tiềm năng đang có thông qua một hình thức trình bày dễ tiếp thu nhất bằng phương pháp thị giác, khối không gian và thời gian [1]. Hình 2.1 Biểu đồ minh họa cho quá trình trực quan hóa dữ liệu. Hình 2.1: Biểu đồ minh họa trực quan
  14. 4 Các dạng biểu đồ tham khảo theo tài liệu [2] - Biểu đồ cột đứng/ cột ngang: Là loại biểu đồ đơn giản nhất và trực quan nhất, người xem sẽ thấy nhanh giá trị lớn nhất, bé nhất, so sánh dễ dàng các yếu tố liên quan. Hình 2.2: Biểu đồ cột đứng - Biểu đồ Pareto chart: biểu đồ cột mà các cột được sắp xếp từ thấp đến cao theo tần số, còn các giá trị chỉ tần suất tích lũy được biểu diễn bằng đường thẳng. Hình 2.3: Biểu đồ Pareto Chart
  15. 5 - Biểu đồ Area: giống biểu đồ đường thể hiện sự biến động đối tượng dữ liệu theo xu hướng thời gian. Hình 2.4: Biểu đồ Area - Biểu đồ Line: là biểu đồ biểu diễn các giá trị dưới dạng những đường dùng để mô tả xu hướng biến động của dữ liệu phân tích và so sánh các yếu tố theo mốc thời gian
  16. 6 Hình 2.5: Biểu đồ Line - Biểu đồ Line và Point kết hợp: là biểu đồ biểu diễn các giá trị dưới dạng những đường và các điểm. Hình 2.6: Biểu đồ Line Point 2.2 Lý thuyết về phân cụm dữ liệu theo thuật toán K-Means - Phân cụm dữ liệu hay phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu thường ứng dụng thuật toán Data Clustering là một loại của nhóm thuật toán Unsupervised Learning. Các thuật toán trong khai phá và phân tích dữ liệu thuật toán Clustering là K-Nearest neighbors (KNN) hay thuật toán K- Mean. Có rất nhiều định nghĩa khác nhau về kỹ thuật khai phá dữ liệu, nhưng về bản chất ta có thể hiểu phân cụm là các qui trình nhóm các đối tượng đã cho vào một cụm, sao cho các đối tượng giống nhau vào 1 cụm [3-4]. K-Mean là thuật toán dùng để giải quyết bài toán như vậy. - Thuật toán K-Mean: Đầu vào dữ liệu: Số cụm k và các trọng tâm cụm {mj}kj=1 Đầu ra: Các cụm Ci (i = 1, k) và hàm tiêu chuẩn E đạt giá trị tối thiểu. Mô tả thuật toán Bắt đầu Bước 1: Khởi tạo Chọn k trọng tâm {mj}kj=1 ban đầu trong không gian Rd (d là số chiều dài của dữ liệu). Việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm.
  17. 7 Bước 2: Tính toán khoảng cách Mỗi điểm Xi (1
  18. 8 2.3 Các tài liệu nghiên cứu phương pháp trực quan - Liên quan đến đề tài nghiên cứu có các công trình nghiên cứu của các nghiên cứu như sau: ➢ Tiếp cận nhận thức thị giác của con người để thiết kế hình ảnh, đồ thị trong trực quan hóa dữ liệu (Approaching human vision perception to designing visual graph in data visualization) – Trần Vĩnh Phước, Lê Xuân Trường: Biểu đồ cấu trúc biểu diễn mối quan hệ đa biến và nhận thức của con người, tích hợp thêm các biến võng mạc để cải thiện khách quan và phản hồi chủ quan thị giác của con người [1]. ➢ Tích hợp các biến võng mạc vào biểu đồ hình ảnh hóa đa biến để tăng các tính năng trực quan (Integrating Retinal Variables into Graph Visualizing Multivariate Data to Increase Visual Features) – Hong Nguyen Thi, Cam Ngoc Thi Huynh, Thuan My Thi Pham, Anh Van Tran Thi, Pham Van Dang, Phuoc Vinh Tran: Bản đồ biểu diễn trực quan các biến dữ liệu theo không gian và thời gian trên bản đồ và biểu diễn đồ thị phân lớp để biểu diễn bệnh tay chân miệng [5]. ➢ Trực quan hóa dữ liệu đa biến bằng cách tiếp cận hai gian đoạn phân loại các khối dữ liệu đa chiều (Two – Stage Approach to Classifying Multidimensional Cubes for Visualization of Multivariate Data, November 2018) - Hong Thi Nguyen, Thuan My Thi Pham, Tuyet Anh Thi Nguyen, Anh Van Thi Tran, Phuoc Vinh Tran and DangVan Pham: Trực quan hóa dữ liệu khối không gian và thời gian, khối dữ liệu đa chiều theo không gian và thời gian theo hai giai đoạn bao gồm lập bảng đồ trực quan và hiển thị trực quan với việc nhận thức từ võng mạc của người dùng[6-7]. ➢ Visualization có quan trọng không? Vai trò của trực quan hóa dữ liệu tương tác để có ý nghĩa của thông tin [8]. ➢ Cải tiến thuật toán K -means và ứng dụng hỗ trợ sinh viên chọn chuyên ngành theo học chế tín chỉ - Nguyễn Văn Lễ, Mạnh Thiên Lý, Nguyễn Thị Định, Nguyễn Thị Thanh Thủy (2018), tác giả phân loại điểm sinh viên theo chuyên ngành dựa vào các môn học sử dụng thuật toán K – Mean và xây dựng phần mềm ứng dụng để phân cụm theo ngành học [9].
  19. 9 2.4 Trực quan hoá điểm tốt nghiệp sinh viên hiện thực hóa Python 2.4.1 Thư viện Matplotlib - Matplotlib là một thư viện cho người dùng để vẽ đồ thị trong Python và Numpy. Matplotlib có thể được sử dụng để tạo ra những figures đủ chất lượng cho một loạt các định dạng cố định và môi trường tương tác trên nền tảng ứng dụng. - Thư viện Matplotlib figure được phân loại thành các thành phần như hình 2.8: Hình 2.8: Minh họa thành phần Matplotlib figure [10] Figure: nơi chứa tất cả những hình vẽ.
  20. 10 Axes: thành phần chính của một figure là các axes (có các khung nhỏ hơn để vẽ hình lên đó). Một figure có thể chứa một hoặc nhiều axes. Nói cách khác, figure chỉ là khung chứa, chính các axes mới là nơi các hình vẽ được vẽ lên. Axis: là dòng số giống như các đối tượng, tạo giới hạn biểu đồ. Artist: có thể nhìn thấy trên figure là một artist như Text object, collection objects, line2D objects. - Các dạng biểu đồ: Biểu đồ tròn, biểu đồ thanh, biểu đồ Histogram, sơ đồ phân tán và hệ tọa độ 3 chiều [10]. 2.4.2 Thư viện Pandas - Pandas là một thư viện phần mềm viết cho ngôn ngữ lập trình Python được sử dụng cho thao tác và phân tích dữ liệu, cung cấp cấu trúc dữ liệu đặc biệt cho các thao tác của các bảng số liệu và chuỗi thời gian. Pandas có ba cấu trúc dữ liệu và nó được xây dựng dựa trên thư viện Numpy vậy nên chúng hoạt động rất nhanh và hiệu quả: Series, DataFrame, Panel [11]. 2.4.3 Thư viện numpy - Thư viện Numpy là một thư viện toán học hỗ trợ mạnh trong Python, cho phép làm việc hiệu quả với ma trận, mảng, tốc độ xử lý nhanh với dữ liệu lớn. Sở hữu kiểu dữ liệu lớn là Numpy Array và các hàm hỗ trợ xử lý dữ liệu. Thư viện này được phát triển để thao tác xử lý dữ liệu nhanh hơn, tiêu hao ít bộ nhớ [12]. 2.4.4 Thư viện Scikit – learn - Thư viện Scikit – learn là thư viện (Sklearn) là thư viện mạnh mẽ hỗ trợ toán hoặc trong Python. Cài đặt Scikit – learn trước tiên phải cài thư viện SciPy (Scientific Python) gồm các thành phần: Numpy, Scipy, Matplotlib, IPython, SymPy, Pandas [13].
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2