intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Lập trình Python cho máy học: Bài 6 - TS. Nguyễn Vinh Tiệp

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:39

3
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Lập trình Python cho máy học: Bài 6 - Advanced Feature Engineering" bao gồm tạo đặc trưng tương tác, biến đổi phi tuyến, rút trích đặc trưng từ dữ liệu thời gian, văn bản và danh mục; cùng các chiến lược xử lý đặc trưng có phân bố không chuẩn hoặc chênh lệch tỷ lệ. Sinh viên sẽ được thực hành với Python và các thư viện hỗ trợ như Scikit-learn, Feature-engine hoặc custom transformer trong pipeline để xây dựng hệ thống xử lý dữ liệu linh hoạt và hiệu quả.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Lập trình Python cho máy học: Bài 6 - TS. Nguyễn Vinh Tiệp

  1. ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CS116 – LẬP TRÌNH PYTHON CHO MÁY HỌC Bài 06 Advanced Feature Engineering TS. Nguyễn Vinh Tiệp Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 1
  2. NỘI DUNG ❏ Polars ❏ Rapid ❏ Tại sao phải lựa chọn đặc trưng ❏ Kỹ thuật lựa chọn đặc trưng ❏ Công cụ lựa chọn đặc trưng June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 2
  3. NỘI DUNG ❏ Polars ❏ Rapid ❏ Tại sao phải lựa chọn đặc trưng ❏ Kỹ thuật lựa chọn đặc trưng ❏ Công cụ lựa chọn đặc trưng June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 3
  4. Polars ❏ Tại sao chọn Polar ❏ Cách sử dụng Polars ❏ So sánh Polars và Pandas June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 4
  5. Tại sao chọn Polars? June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 5
  6. Tại sao chọn Polars? Polars được thiết kế để tận dụng đa luồng và SIMD (Single Instruction, Multiple Data) → Hỗ trợ song song: Tổng hợp, lọc, chuyển đổi Hỗ trợ hoạt động song song Pandas cần thư viện bên ngoài như Dask → Yêu cầu thiết lập bổ sung Tại sao Polars ? Polars sử dụng Apache Arrow để phân tích cột trong bộ nhớ→ Tăng tốc thời gian tải dữ liệu, giảm bộ nhớ, tăng tốc tính toán Biểu diễn dữ liệu cột Pandas Sử dụng biểu diễn dựa trên hàng có thể dẫn đến nhiều lần bỏ lỡ bộ nhớ cache hơn và thực thi chậm hơn cho một số thao tác nhất định. June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 6
  7. Tại sao chọn Polars? Polars sử dụng các kỹ thuật tối ưu hóa bộ nhớ khác nhau. Hỗ trợ đánh giá eager và lazy Tối ưu hóa bộ nhớ Pandas chỉ hỗ trợ đánh giá eager Tại sao Polars ? Các cực thực hiện các thuật toán hiệu quả cho các hoạt động phổ biến: nối, tổng hợp Các thuật toán theo nhóm, sắp xếp,.. được tối ưu hóa Các thuật toán được thiết kế để tận dụng định dạng dữ liệu cột và xử lý song song nhanh hơn Pandas trong thời gian thực thi June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 7
  8. Tại sao chọn Lazy API Polars? ❏ Với Lazy API, Polars không chạy từng dòng truy vấn mà thay vào đó xử lý truy vấn đầy đủ từ đầu đến cuối Cho phép Polars áp dụng Cho phép bạn làm việc với Tối ưu hóa Truy vấn Tự Có thể bắt lỗi lược đồ trước tập dữ liệu lớn hơn bộ nhớ động với trình tối ưu hóa khi xử lý dữ liệu bằng cách phát trực tuyến truy vấn June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 8
  9. Mục tiêu của Polars Tối ưu hóa các truy vấn để giảm phân Sử dụng tất cả các lõi có Giảm thiểu tranh bổ công việc / bộ Xử lý dữ liệu theo sẵn trên máy của bạn chấp song song nhớ không cần khối thiết June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 9
  10. Polars ❏ Tại sao chọn Polar ❏ Cách sử dụng Polars ❏ So sánh Polars và Pandas June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 10
  11. Biểu diễn dữ liệu cột ❏ Cách tiếp cận đa luồng trong hoạt động tổng hợp theo nhóm June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 11
  12. Polars Cheat Sheet Polars Cheat Sheet Pandas Cheat Sheet June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 12
  13. Toán tử cơ bản Polars user guide Numerical Logical June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 13
  14. Hàm Count unique values Column Selection Conditionals June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 14
  15. Basic Aggregations June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 15
  16. Filtering June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 16
  17. Sorting June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 17
  18. Missing data June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 18
  19. Hàm do người dùng xác định: map ❏ Không bao giờ sử dụng map trong bối cảnh nhóm, trừ khi bạn biết bạn cần nó và biết bạn đang làm gì June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 19
  20. Hàm do người dùng xác định: apply June 9, 2023 Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2