Xử lý dữ liệu thiếu trong các chuyến bay chặng Hà Nội - TPHCM của Vietnam Airlines
lượt xem 4
download
Bài viết Xử lý dữ liệu thiếu trong các chuyến bay chặng Hà Nội - TPHCM của Vietnam Airlinestrình bày việc sử dụng một số phương pháp học máy thống kê để điền dữ liệu thiếu cho chặng bay Hà Nội - TPHCM.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Xử lý dữ liệu thiếu trong các chuyến bay chặng Hà Nội - TPHCM của Vietnam Airlines
- Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3 XỬ LÝ DỮ LIỆU THIẾU TRONG CÁC CHUYẾN BAY CHẶNG HÀ NỘI - TPHCM CỦA VIETNAM AIRLINES Tạ Anh Tuấn1 , Nguyễn Thanh Tùng2 1 Lớp Cao học 24CNTT - Trường Đại học Thủy lợi, e-mail: tuanta@tlu.edu.vn 2 Khoa Công nghệ thông tin - Trường Đại học Thủy lợi, e-mail: tungnt@tlu.edu.vn 1. GIỚI THIỆU CHUNG trong nhiều nhiệm vụ quản lý. Vì vậy, nâng cao chất lượng dữ liệu để có một bảng dữ Hãng hàng không Quốc gia Việt Nam (tên liệu FIMS sạch và đầy đủ là cơ sở của nhiều giao dịch tiếng Anh là Vietnam Airlines, viết quyết định về các chuyến bay. Trong bài báo tắt là VNA). VNA là hãng hàng không quốc ngắn này, chúng tôi sử dụng một số phương gia của nước Cộng hòa xã hội chủ nghĩa Việt pháp học máy thống kê để điền dữ liệu thiếu Nam, là thành phần nòng cốt của Tổng công cho chặng bay Hà Nội - TPHCM. ty Hàng không Việt Nam. VNA có các đường bay đến khu vực Đông Nam Á, Đông 2. PHƯƠNG PHÁP VÀ KẾT QUẢ Á, châu Âu và châu Đại Dương, hiện đang NGHIÊN CỨU khai thác nhiều đường bay thường lệ tới nhiều điểm nội địa và nhiều điểm đến quốc tế Vấn đề đặt ra ở đây là điền giá trị thiếu của với trên 400 chuyến bay mỗi ngày (khoảng một biến số trong một bảng có rất nhiều biến 14000 chuyến bay mỗi năm) với gần 100 số khác. Nguyên lý chung của giải pháp này máy bay các loại Boeing và Airbus. là lời giải sẽ dựa vào việc xác định quy luật FIMS của VNA chứa cơ sở dữ liệu của biến số ta quan tâm (như xác định phân (CSDL) tổng hợp các thông tin liên quan bố xác suất) trong mối liên quan của biến số đến các hoạt động bay của VNA và do vậy này với ngữ cảnh (các biến số khác). Ý tưởng là một CSDL cơ bản và thiết yếu của VNA. cơ bản của chúng tôi về giải pháp như sau. Đại thể, mỗi chuyến bay của VNA được mô Về bản chất đây là bài toán dự đoán giá trị tả trên một dòng của CSDL FIMS với của một biến liên tục. Ý tưởng cơ bản là khai khoảng 300 biến số (thuộc tính), mô tả thông thác tối đa sự tương tự của các chuyến bay tin về máy bay, chuyến bay, tổ lái, sân bay, đối với chuyến bay có giá trị thiếu và tính giá thời tiết, cất cánh, hạ cánh, lượng nhiên liệu theo yêu cầu của phi công (FUEL_ORDER), trị dự đoán dựa vào các kỹ thuật thích hợp. - Phân chia các chuyến bay thành các lượng nhiên liệu do hệ thống dề xuất nhóm theo các thuộc tính: kiểu máy bay, (FUEL_BLOCK), v.v. Một trong các vấn đề của FIMS là làm thế tuyến bay (các điểm đi điểm đến cụ thể theo nào để điền dữ liệu thiếu cho các chặng bay. các tuyến trong và ngoài nước), thời tiết, v.v. Đây cũng là bài toán quan trọng được VNA (gọi tắt là nhóm bay). Việc dự đoán giá trị đề cập đến. Do nhiều nguyên nhân, từ máy thiếu của một chuyến bay về cơ bản dựa theo móc đến con người, dữ liệu của FIMS được nhóm bay của chuyến bay đó. Các kỹ thuật biết chưa hoàn toàn chính xác, có nhiễu và dự đoán sau được áp dụng, và kết quả cuối có còn nhiều ô của CSDL chưa có dữ liệu thêm tổ hợp của các dự đoán. (missing values). Việc điền dữ liệu thiếu là - Dự đoán 1: Theo giá trị trung bình của thiết yếu để có thông tin FIMS đáng tin cậy biến số trong nhóm bay. 190
- Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3 - Dự đoán 2: Theo giá trị xuất hiện nhiều Trong Hình 3 và Hình 4, ta thấy tỷ lệ diễn nhất của biến số trong nhóm bay. giải của mô hình hồi quy RF trên tập dữ liệu - Dự đoán 3: Theo kết quả của phương VNA392_HANSGN_2016 dùng phương pháp random forest regression. pháp 2 điền missing value có kết quả tốt hơn - Dự đoán 4: Theo quan hệ của biến đang (95.81%, MSE=48570.17 lít dầu) so với xét với các biến liên quan (nếu tồn tại các phương pháp 1 dùng mean (90.76, quan hệ này). MSE=106361.9 lít dầu). Trong khuôn khổ của bài báo ngắn này, chúng tôi sử dụng gói MICE [3] kết hợp với randomForest trên môi trường R [1, 2]. Dữ liệu thực nghiệm gồm 59 bản ghi với 15 biến ghi lại các quan sát chặng bay Hà Nội - TPHCM năm 2016 của tàu bay VNA390 (VNA392_HANSGN_2016). Trong Hình 1, nửa trái thể hiện tần xuất của toàn bộ dữ liệu trống trong tập dữ liệu huấn luyện, nửa bên phải hiển thị vị trí các giá trị trống của các biến. Hình 2 hiển trị trực quan vị trí các bản ghi của các biến chứa giá trị trống (các dòng màu đỏ). Ta có thể hình dung được tỷ lệ và vị trí dữ liệu Hình 3. Lỗi training của thuật toán RF trống trong bảng dữ liệu của chặng bay năm trên tập VNA392_HANSGN_2016 2016 của tàu VNA392. khi điền giá trị trống (Na) bằng mean Type of random forest: regression Number of trees: 1000 No. of variables tried at each split: 2 Mean of squared residuals: 106361.9 % Var explained: 90.76 Hình 1. Tỷ lệ các số liệu trống trong dữ liệu chặng bay Hà Nội - TPHCM Hình 4. Lỗi training của thuật toán RF trên tập VNA392_HANSGN_2016 khi điền giá trị trống (Na) sử dụng RF và MICE Hình 2. Tỷ lệ các số liệu trống Mean of squared residuals: 48570.17 của các thuộc tính % Var explained: 95.81 191
- Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3 3. KẾT LUẬN 4. TÀI LIỆU THAM KHẢO Trong bài báo ngắn này, chúng tôi đã trình [1] L. Breiman, “Random forests ,” Machine bày bài toán điền số liệu trống vào CSDL learning, vol. 45, no. 1, pp. 5–32, 2001. FIMS của VNA. Chúng tôi thử nghiệm cách [2] A. Liaw and M. Wiener. randomForest 4.6- điền thông thường bằng giá trị trung bình, 7. R package, 2012. cách kết hợp MICE và RF. Kết quả thực [3] Buuren, S. van, and Karin Groothuis- nghiệm cho thấy các phương pháp tiên tiến Oudshoorn. "mice: Multivariate imputation by chained equations in R." Journal of như RF cho kết quả tốt hơn góp phần nâng statistical software (2010): 1-68. cao chất lượng CSDL, phục vụ công tác thống kê, dự báo của VNA tốt hơn. 192
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tổng quan Cấu trúc dữ liệu và giải thuật - Gv.Trương Phước Hải
15 p | 152 | 41
-
Bài giảng Lập trình Web ASP.NET: Chương 4 - ĐH Lạc Hồng
70 p | 133 | 26
-
Xử lý tương tác người dùng trong các trò chơi HTML5 dựa trên Canvas
17 p | 123 | 16
-
Bài giảng Xử lý dữ liệu trong sinh học với phần mềm Excel - Bài 1: Xử lý số liệu trong Excel
6 p | 129 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Tin ứng dụng trong kinh doanh: Chương 1 - Phạm Mạnh Cương
58 p | 117 | 12
-
Bài giảng Lập trình web ASP.NET: Chương 4 - TS. Vũ Đức Lung, KS. Phan Hữu Tiếp
72 p | 50 | 10
-
Bài giảng Quản lý và xử lý dữ liệu cơ bản: Chương 2 Tạo lập cơ sở dữ liệu với Access - CĐ CNTT Hữu nghị Việt Nhật
64 p | 147 | 10
-
Bài giảng Tin học ứng dụng: Chương 3 - Lê Hữu Hùng
151 p | 83 | 9
-
Ứng dụng khai phá dữ liệu để phân tích dữ liệu tuyển sinh dựa vào xét điểm học bạ tại trường Đại học Phú Yên trong năm học 2018 – 2019
8 p | 57 | 7
-
Bài giảng môn Quản lý và xử lý dữ liệu cơ bản: Chương 3 truy vấn query - CĐ CNTT Hữu nghị Việt Nhật
28 p | 127 | 6
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 61 | 4
-
Xử lý dữ liệu thiếu trong khai phá dữ liệu
6 p | 77 | 4
-
Đánh giá biến động lớp phủ thực vật dựa trên phân tích chuỗi thời gian với Apache Spark và RasterFrames
11 p | 44 | 3
-
So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều
10 p | 76 | 3
-
Tối ưu hóa Join đệ quy trên tập dữ liệu lớn trong môi trường Spark
14 p | 30 | 2
-
Tạo lưới hiển thị và xử lý dữ liệu của các bảng dữ liệu trong Java
6 p | 94 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn