intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng học máy trong dự báo đường cong sonic cho giếng X

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

10
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày việc đánh giá tương quan, lựa chọn các biến đầu vào dựa trên phân tích khai phá dữ liệu, từ đó chuẩn bị dữ liệu cho bước xây dựng mô hình; So sánh các thuật toán dựa trên việc loại bỏ hiện tượng overfitting “quá khớp” từ đó giảm tính thiên kiến của mô hình.

Chủ đề:
Lưu

Nội dung Text: Ứng dụng học máy trong dự báo đường cong sonic cho giếng X

  1. . 723 ỨNG DỤNG HỌC MÁY TRONG DỰ BÁO ĐƢỜNG CONG SONIC CHO GIẾNG X Lƣơng Hải Linh*, Đồng Nhật Thiên, Huỳnh T. Thảo Vi, Thiệu Kiều Anh, Bùi Tử An Trường Đại học Dầu khí Việt Nam *Tác giả chịu trách nhiệm: linhlh@pvu.edu.vn Tóm tắt Việc xây dựng mô hình dự đoán theo hướng tiếp cận khoa học dữ liệu có khả năng tái tạo lại giá trị đường cong sonic cho giếng không có dữ liệu thông qua việc học từ những giếng lân cận khác trên phạm vi mỏ là rất cần thiết nhằm tiết kiệm chi phí trong việc thực hiện đo giá trị đường log này. Nghiên cứu này thiết lập mô hình sự đoán sóng nén dựa trên quy trình làm việc của phương pháp tiếp cận dữ liệu, bao gồm phân tích khám phá dữ liệu, chuẩn hóa và loại bỏ các giá trị ngoại lai. Sáu mô hình hồi quy học có giám sát được so sánh trên tập dữ liệu huấn luyện bằng cách sử dụng 2 giếng làm dữ liệu huấn luyện để thực hiện dự đoán và được xác thực với giá trị thực của giếng còn lại. Mô hình cuối cùng được điều chỉnh siêu tham số trước khi đưa ra dự đoán cuối cùng cho các giếng mù. Kết quả cho thấy thuật toán Gradient Boosting cho độ chính xác tốt nhất đối với bộ dữ liệu sử dụng trong nghiên cứu này. Căn bậc hai sai số toàn phương trung bình (RMSE) đạt giá trị 0.23 khi mô hình được huấn luyện và thử nghiệm trên toàn bộ bộ dữ liệu đào tạo 3 giếng và trung bình 0.28 khi mô hình được đào tạo trên 2 giếng và thử nghiệm tương ứng trên giếng còn lại. Từ khóa: Mô hình học máy; thời gian truyền sóng âm; đường cong sonic; phân tích dữ liệu. 1. Đặt vấn đề Trong ngành Dầu khí những năm gần đây, những công trình nghiên cứu về ứng dụng các mô hình Machine Learning và Deep Learning đang gia tăng, hứa hẹn một xu hướng khả thi để giải quyết vấn đề kỹ thuật. Ứng dụng trí tuệ nhân tạo trong phạm trù đánh giá thành hệ được áp dụng thông qua các lớp thuật toán có giám sát “Supervised-Learning” và không có giám sát “Unsupervised - Learning” nhằm tự động minh giải dữ liệu địa vật lý giếng khoan và phân loại thạch học, từ đó loại bỏ yếu tố thiên kiến của người minh giải (Shi and Zhang, 2021), (Kumar and Seelam, 2022). Các đường cong sonic là công cụ đầu tiên để xác định độ rỗng thành hệ khi chưa có thông tin về độ bão hòa chất lưu (Raymer et al., 1980); giá trị đường cong sonic được sử dụng để xác định độ rỗng, phân loại thạch học, biểu thị độ bão hòa lưu chất, biểu thị độ cứng thành hệ, biểu thị sự tồn tại hydrocarbon. Sự đa dạng này là do thời gian lan truyền sóng âm bị ảnh hưởng bởi các đặc tính của vỉa bao gồm: độ nén ép, độ rỗng, tính dị hướng, mật độ, tính chất thạch học, độ xi măng hóa, lực cố kết, ứng suất theo phương thẳng đứng “overburden stress” và áp suất lỗ rỗng (Khazanehdari, 2005). Các đường cong sonic là cơ sở quan trọng để xác định các thông số địa cơ học, trong đó có tính chất đàn hồi của đá thành hệ, xây dựng mô hình địa cơ học nhằm xác định áp suất lỗ rỗng. Trong quá trình khoan, dữ liệu đường cong sonic được sử dụng để cải thiện hiệu suất khoan, giảm thiểu biên độ lệch và từ đó tối ưu hoàn thiện giếng (Alford et al., 2012). Tổng quan các công trình nghiên cứu ứng dụng trí tuệ nhân tạo, mô hình học máy để giải quyết các thông số địa cơ học và thành hệ giếng khoan; ứng dụng dự báo đường cong sonic cho các giếng dầu khí được nhóm tác giả thống kê ở bảng 1.
  2. 724 Bảng 1. Thống kê các công trình áp dụng hướng tiếp cận khoa học dữ liệu cho dự báo đường cong âm học (liệt kê các thuật toán tiêu biểu và hiệu quả mô hình) Tác giả Nội dung Hiệu quả thuật toán So sánh mô hình ANN với các phương trình ANN (10 lớp ẩn) K. Ramcharitar(2016) thực nghiệm cho dự đoán đường cong sonic cho Sai số tuyệt đối trung bình 3 giếng onshore South-Western Trinidad (AAE 3 - 6%) Dự đoán các thông số địa cơ học (DT, DTS, Z. Tariq (2017) ANN (10 lớp ẩn) Young‟s modules, Poisson‟s ratio) Dựa trên các đường log cơ bản (GR, ROHB, Support Vector Machine W. Ni (2017) NPHI,…) cho dự đoán sóng nén. (độ chính xác 97,5%) Dựa trên các đường log cơ bản (GR, ROHB, Random Forest (Hệ số xác X. Zou (2019) NPHI,…) cho dự đoán sóng sonic. Huấn luyện định R-square 0.85) 10,000 điểm - dự đoán 1500 điểm T. Gan, M. A. Kumar, Dữ liệu mudlogging, logging dữ đoán đường ANN (10 lớp ẩn) NRMSE C. B. Ehiwario (2019) cong âm học (vịnh Mexico) 4,8 % (DT) Huấn luyện và kiểm tra trên cùng một giếng cho Gaussian Process (hệ số D. Onalo (2020) giá trị đường cong sóng nén xác định R-square 0.99) Từ bảng 1 có nhận xét sau: (1) Điểm chung của các công trình nêu trên đều tận dụng sức mạnh của các thuật toán học máy và học sâu để giải quyết bài toán chưa có lời giải cụ thể. Điểm khác nhau của các công trình là các tác giả sử dụng các thuật toán khác nhau và sử dụng các loại biến đầu vào khác nhau. Việc thực hiện kiểm tra mô hình trên dữ liệu mù được thực hiện trên giếng riêng biệt hoặc lấy dữ liệu tại một đoạn giếng trên cùng giếng có dữ liệu được huấn luyện. (2) Tính đa dạng của việc áp dụng các thuật toán khác nhau sẽ phù hợp với dữ liệu đầu vào khác nhau cho từng dự án cụ thể. Việc kết luận “dựa trên bộ dữ liệu trong dự án X, thuật toán ANN gồm 10 lớp ẩn, hay thuật toán Random Forest là phù hợp nhất” là chưa có căn cứ nếu chưa so sánh một tập hợp các thuật toán khác nhau. (3) Những công trình trên thường tập trung vào các thuật toán mà lại chưa nêu ra quy trình khai phá và xử lý dữ liệu bao gồm: phân tích tương quan các biến, hiệu chuẩn, lọc nhiễu. (4) Việc đo độ chính xác của mô hình thông qua thực hiện đánh giá trên dữ liệu kiểm tra tại một giếng riêng biệt. Mô hình sẽ thiên kiến do hiện tượng overfitting “học quá khớp” nếu được học và kiểm tra trên cùng một dữ liệu. Từ các nhận xét trên, nhóm tác giả đưa ra một quy trình để xây dựng mô hình dự đoán giá trị thời gian truyền sóng nén (sóng P, ký hiệu DT) tổng quát hơn theo sát các bước thực hiện một dự án khoa học dữ liệu bao gồm các yếu tố: (1) Thực hiện đánh giá tương quan, lựa chọn các biến đầu vào dựa trên phân tích khai phá dữ liệu, từ đó chuẩn bị dữ liệu cho bước xây dựng mô hình. (2) So sánh các thuật toán dựa trên việc loại bỏ hiện tượng overfitting “quá khớp” từ đó giảm tính thiên kiến của mô hình. 2. Cơ sở lý thuyết và phƣơng pháp nghiên cứu 2.1. Tiến trình thực hiện Một quy trình áp dụng học máy có thể được chia thành 3 bước chính: thu thập dữ liệu, mô hình hóa và triển khai dữ liệu. Tất cả các bước này đều tương quan lẫn nhau. Quá trình mô hình hóa được thể hiện ở hình 1. Với phân tách dữ liệu, trong thực tế, tập dữ liệu gốc sẽ được tách thành 3 tập con (tập huấn luyện, tập xác nhận và tập kiểm tra). Tỷ lệ của các tập hợp này được tùy chọn teo tỷ lệ: 70% dữ liệu huấn luyện, 15% xác thực, 15% kiểm tra hoặc 80% huấn luyện, 20% kiểm tra. Điều quan trọng trước khi xây dựng mô hình là xác định được các biến sẽ sử dụng. Thông thường sẽ có rất nhiều biến trong tập dữ liệu. Phần lớn các tính chất/biến được tìm thấy trong tập dữ liệu có thể không hữu ích trong việc xây dựng mô hình học máy để đưa ra dự đoán cần thiết. Nhiều tập dữ liệu khổng lồ có kích thước cao thường chứa nhiều biến dư thừa, ta cần xác định các biến này thông qua phân tích tương quan “correlation analysis” giữa các biến (Avrim et al., 1997).
  3. . 725 Hình 1. Biểu đồ minh họa quá trình mô hình hóa dữ liệu (Lau, 2019). Tương quan giữa các biến có thể được chia thành ba trường hợp: tương quan mạnh, tương quan yếu và không tương quan. Một biến đầu vào tốt sẽ có tương quan cao với biến mục tiêu, và không có tương quan với các biến đầu vào khác. Công thức xác định tương quan tuyến tính được phát biểu (Jinie and Hongmei, 2012). ∑ (1) Trong đó: x, y - hai biến được xét (biến đầu vào và biến phụ thuộc); xavr và yavr - trung bình số học xét trên các điểm dữ liệu thu thập x và y tương ứng. Khi xử lý dữ liệu thô cần biến đổi dữ liệu với mục tiêu đưa dữ liệu về một phân phối chuẩn “normal (Gaussian) distribution”, ví dụ như “bell curve”. Dữ liệu phân phối chuẩn giúp mô hình học được tốt hơn và đưa ra dự đoán chính xác hơn (Cao Minh Hiếu, 2021). 2.2. Phƣơng pháp thực hiện Để minh họa cho việc áp dụng cách tiếp cận khoa học dữ liệu trong việc tái tạo giá trị thời gian truyền sóng nén, dữ liệu được thu thập bao gồm 5 giếng tại mỏ Y có vị trí địa lý gần nhau và cấu tạo thành hệ tương đối tương đồng (hình 2). Trong đó 6 biến (NPHI, RHOB, GR, RT, PEF, CALI) được sử dụng là biến đầu vào để dự đoán đường cong DT. Năm giếng được mã hóa với tên gọi lần lượt Well 1, Well 2, Well 3, Well 4, Well 5. Dữ liệu huấn luyện gồm 3 giếng (Well 1, 3, 4) với tổng số 24,403 điểm dữ liệu; dữ liệu đánh giá gồm 1 giếng (Well 2) với 15,401 điểm dữ liệu; dữ liệu kiểm tra (Well 5) với 9501 điểm dữ liệu. Để xây dựng mô hình dự đoán giá trị thời gian truyền sóng nén cho đối tượng giếng tại mỏ Y, được dựa theo các bước chính trong một dự án khoa học dữ liệu điển hình gồm ba bước cơ bản sau: Hình 2. Bản đồ mô tả vị trí tương quan giữa các giếng.
  4. 726 Thu thập dữ liệu: dữ liệu thô được lấy từ 5 giếng thuộc mỏ Y (3 giếng sẽ được sử dụng để huấn luyện, 1 giếng được dùng cho đánh giá “validation”, và 1 giếng dùng cho kiểm tra mù “blind test”. Tiến trình thực hiện khám phá dữ liệu sẽ được thực hiện trên tập huấn luyện. Chuẩn bị dữ liệu: tạo sự biến đổi trên dữ liệu đầu vào. Quy trình xử lý dữ liệu trong dự án này bao gồm: phân tích tương quan giữa các biến - lựa chọn biến đầu vào, hiệu chuẩn biến đầu vào “normalization” - giúp các biến có dạng phân bố chuẩn hơn, lựa chọn phương pháp lọc nhiễu/dữ liệu ngoại lai. Mô hình hóa: các mô hình học máy có giám sát “supervised learning” được lựa chọn và huấn luyện. Đầu tiên toàn bộ dữ liệu từ 3 giếng được lấy để huấn luyện mô hình. Sau đó sẽ thực hiện huấn luyện 2/3 giếng và kiểm tra chéo cho giếng còn lại. Hai bước trên được sử dụng để tìm ra mô hình phù hợp nhất. Tiếp theo huấn luyện trên cả 3 giếng với thuật toán đã chọn và đánh giá cho giếng “validation” - từ đó thực hiện hiệu chỉnh mô hình để tìm ra tham số phù hợp nhất “hyperparameters tunning”. Mô hình cuối cùng được sử dụng để dự đoán giá trị thời gian truyền sóng nén cho giếng mù bị mất dữ liệu “blind test”. 2.3. Phân tích - chuẩn bị dữ liệu Sau khi dữ liệu được thu thập, toàn bộ 5 giếng sẽ được xem xét để chọn ra những khoảng độ sâu còn toàn vẹn dữ liệu. Cụ thể: Well 1: 2,600 - 3,720 m; Well 2: 3,200 - 4,740 m; Well 3: 2,620 - 3,640 m; Well 4: 3,100 - 3,400 m; Well 5: 3,100 - 4,050 m. Ba giếng (Well 1, 3, 4) sẽ được hợp thành bộ dữ liệu huấn luyện. Từ đây, dữ liệu huấn luyện sẽ trải qua các bước sau trước khi được dùng để huấn luyện mô hình: Phân tích khai phá dữ liệu. Ma trận biểu đồ phân tán và tần suất được vẽ cho toàn bộ biến của tập dữ liệu huấn luyện. Biểu đồ phân tán (scatter plot) nhằm phát hiện xu hướng phụ thuộc của từng cặp biến. Biểu đồ tần suất (histogram) thống kê mật độ xuất hiện của từng thang giá trị giúp xác định phân bố và giá trị ngoại lai của từng biến. Nhóm tác giả nhận thấy phân bố của từng biến không theo phân phối chuẩn, ngoại trừ biến CALI, RHOB và DT. Các biến còn lại có phân bố rất lệch về bên phải, cần lựa chọn hàm để hiệu chuẩn các biến nêu trên. Với GR và RT, có khả năng tồn tại các điểm dữ liệu ngoại lai, nên xem xét việc sử dụng các công cụ lọc nhiễu. Đồng thời, có xu hướng tuyến tính khá mạnh giữa các cặp biến DT và NPHI, DT và RHOB, vì vậy có thể dự đoán rằng NPHI và RHOB có trọng số lớn trong việc dự đoán DT. Phân tích tương quan. Ma trận hệ số tương quan được xác định cho từng cặp biến có giá trị từ -1 tới 1 đo lường mức độ mạnh yếu tương quan tuyến tính giữa hai biến số. Hệ số tương quan âm cho thấy hai biến có mối quan hệ nghịch biến, giá trị dương thể hiện mối quan hệ đồng biến. Càng gần giá trị 0 cho thấy hai biến độc lập với nhau. Từ hình 3 cho thấy NPHI và RHOB có mức độ tương quan tuyến tính mạnh nhất lần lượt là 0.95 và -0.78 với DT, trong khi CALI hầu như không thể hiện tương quan với DT, loại bỏ CALI trong bước xây dựng mô hình. Hình 3. Mức độ tương quan tuyến tính giữa các cặp biến trên tập huấn luyện.
  5. . 727 Hiệu chuẩn. Nhóm tác giả thực hiện 2 phương pháp hiệu chuẩn: biến đổi log cho biến RT và biến đổi hàm mũ Yeo-Johnson cho 6 biến còn lại. Sau khi hiệu chuẩn cho thấy thang giá trị của các biến đều được quy chuẩn về một khoảng duy nhất, phân bố của các biến được kéo về chính giữa. Lọc nhiễu. Nhóm tác giả thực hiện so sánh 5 phương pháp lọc nhiễu gồm: 3.5 STD, Isolation Forest, Min. Covariance, Outlier Factor, One-class SVM. Phân tích chi tiết cho thấy số lượng điểm dữ liệu sau khi lọc giảm (trước khi lọc 24,403 điểm), ứng với từng phương pháp: 24,101 điểm với 3.5 STD; 12,202 điểm với Isolation Forest; 21,962 điểm với Min. Covariance; 17,082 điểm với Outlier Factor và 21,964 điểm với One-class SVM. Nhóm tác giả nhận thấy One-class SVM cho kết quả ít điểm nhiễu nhất và số điểm còn lại tương đối lớn. Do đó, tác giả chọn One-class SVM để lọc nhiễu. Sau khi thực hiện các bước phân tích dữ liệu trên. Từ 24,403 điểm dữ liệu, ta còn lại 21,964 điểm dữ liệu đã được làm sạch và hiệu chuẩn, từ đó sẵn sàng cho bước mô hình hóa. 3. Kết quả và thảo luận Tập dữ liệu huấn luyện sẽ được học thông qua tổ hợp 6 mô hình học máy bao gồm: Multiple Linear Regression, Decision Tree Regression; Random Forest Regression; Gradient Boosting Regression; Support Vector Regression; K-Nearest Neighbors Regression. Tiêu chí đánh giá mô hình sẽ dựa trên 3 thông số: Hệ số xác định (R-squared); Căn bậc hai sai số toàn phương trung bình (RMSE); Sai số phần trăm tuyệt đối trung bình (MAPE). Quá trình mô hình hóa sẽ gồm 2 thử nghiệm. Thử nghiệm 1: Lựa chọn mô hình phù hợp với tập dữ liệu Bước 1: Toàn bộ dữ liệu (21,964 điểm của 3 giếng Well 1, 3, 4) sẽ được dùng để huấn luyện 6 thuật toán hồi quy đã nêu, mô hình đầu ra sẽ dự báo lại trên từng giếng đã được dùng để huấn luyện. Bước 2: Quá trình huấn luyện các thuật toán được lặp lại. Thay vì sử dụng toàn bộ dữ liệu trên 3 giếng, tiến trình sẽ thực hiện huấn luyện chéo - nghĩa là huấn luyện Well 1, 3 và thử nghiệm Well 4 - huấn luyện Well 1, 4 và thử nghiệm Well 3 - huấn luyện Well 3, 4 và thử nghiệm Well 1. Hình 4. Kết quả dự đoán sử dụng Gradient Boosting khi huấn luyện theo cặp cho 3 giếng dựa trên hệ số xác định R-squared.
  6. 728 Hai bước trên được tiến hành để loại ra những thuật toán bị quá khớp “overfitting” hoặc chưa khớp “underfitting”. Kết quả cho thấy mặc dù Random Forest cho kết quả huấn luyện tốt nhất tại bước 1 (R-squared và RMSE lần lượt 0.9734 và 0.1420), tuy nhiên thuật toán bị phát hiện đã quá khớp “overfitting” khi thực hiện kiểm tra trên dữ liệu chưa được nhìn thấy tại bước 2 (R-squared và RMSE lần lượt 0.8851 và 0.3017). Điều tương tự cũng được quan sát cho Decision Tree, K-Nearest Neighbors, những thuật toán này học quá tốt và dẫn đến thiên kiến khi thực hiện dự đoán cho dữ liệu mới. Multiple Linear Regression là một thuật toán quá đơn giản, do đó chưa có kết quả tốt/chưa khớp “underfitting” khi được huấn luyện trên bộ dữ liệu hiện tại. Thuật toán Support Vector Machine cho kết quả tốt hơn với kết quả trung bình RMSE tương ứng ở bước 1 và bước 2 là 0.2320 và 0.3014. Cuối cùng, hồi quy Gradient Boosting cho thấy kết quả khả quan nhất khi so sánh giá trị trung bình tại bước 1 và bước 2 - tốt hơn khi so sánh mức độ “overfitting” đối với Support Vector Regression, R-squared và RMSE có độ biến động thấp nhất (R-squared từ 0.9304 giảm còn 0.8984) và (RMSE tăng từ 0.2336 đến 0.2845). Gradient Boosting sẽ được chọn làm thuật toán chính cho thử nghiệm 2. Kết quả dự đoán cho 3 giếng Well 1, Well3, Well 4 sử dụng thuật toán Gradient Boosting (huấn luyện toàn bộ dữ liệu tại bước 1 thể hiện trên hình 6 và khi huấn luyện chéo tại bước 2 thể hiện trên hình 4. Thử nghiệm 2: Lựa chọn siêu tham số cho mô hình Bước 1: Toàn bộ dữ liệu (21,964 điểm của 3 giếng Well 1, 3, 4) sẽ được dùng làm dẫn xuất thông qua quá trình thực hiện “cross validation” để tìm siêu tham số phù hợp nhất của thuật toán dựa trên tổng quan dữ liệu. Bước 2: Sau khi chọn được siêu tham số phù hợp cho thuật toán Gradient Boosting, thực hiện đánh giá cho “Well 2” với 15,401 điểm dữ liệu. Kết quả khi thực hiện đánh giá trên “Well 2” cho tập hợp thông số (R-squared: 0.85, MAPE: 3%) điều này tương đồng với sai số trung bình khi thực hiện kiểm tra chéo cho 3 giếng huấn luyện tại Thử nghiệm 1, bước 2. Từ đây mô hình này sẽ được dùng để tái tạo giá trị thời gian truyền sóng nén cho giếng bị mất dữ liệu (kiểm tra mù cho “Well 5” - 9501 điểm dữ liệu, hình 5). 4. Kết luận Thông qua việc phân tích dữ liệu, tương quan giữa các biến, lựa chọn mô hình lọc nhiễu và hiệu chuẩn, mô hình dự đoán có độ chính xác cao hơn. Đây là bước quan trọng không thể thiếu để lựa chọn thuật toán cho mô hình. Kết quả phân tích tương quan tuyến tính, cho thấy biến CALI không có tương quan nổi trội trong việc dự đoán đường cong sóng nén (DT), các biến còn lại đều có ảnh hưởng lớn tới DT, đặc biệt là NPHI và RHOB. Do đó khi thu thập dữ liệu cần chú ý tới tính xác thực của các thông số này. Thuật toán Gradient Boosting cho độ chính xác tốt nhất đối với bộ dữ liệu sử dụng trong nghiên cứu này. Điều này được chứng minh thông qua thử nghiệm 1 tại bước mô hình hóa, với sai số phần trăm tuyệt đối trung bình lần lượt khi thực hiện huấn luyện toàn bộ dữ liệu (MAPE: 1,13%, 1,23%, 5,47%) và thực hiện huấn luyện theo cặp (MAPE: 1,26%, 1,90%, 9,89%), mặc dù vẫn còn dấu hiệu học “quá khớp”. Sau khi lựa chọn siêu tham số, thuật toán Gradient Boosting cho kết quả ấn tượng với sai số MAPE 3,08% khi đánh giá cho giếng thử nghiệm. Với kết quả trên, việc thực hiện phương pháp tiếp cận khoa học dữ liệu để dự đoán giá trị thời gian truyền sóng nén là hoàn toàn khả thi cho các giếng còn lại. Mặc dù vậy, độ chính xác của phương pháp trên hoàn toàn phụ thuộc vào khoảng cách giữa các giếng trong khu vực cũng như các hoạt động kiến tạo địa chất. Phương pháp trên sẽ có độ tin cậy cao hơn khi thực hiện dự đoán cho các giếng trong phạm vi nội mỏ và có mức độ tương đồng cao về thành tạo địa chất, do đó việc áp dụng cho các giếng không thuộc hai kiểu hình trên cần được nghiên cứu thử nghiệm thêm. Phần lớn các thuật toán dùng trong nghiên cứu đều cho dấu hiệu học “quá khớp”. Điều đó dẫn tới khó chứng minh khả năng của mô hình khi gặp những bộ dữ liệu chưa nhìn thấy. Hướng
  7. . 729 nghiên cứu tiếp theo có thể sử dụng các thuật toán học sâu “Deep Learning” tiêu biểu là các thuật toán ANN, hay Convolutional Neural Network - CNN linh hoạt hơn trong việc kiểm soát hiện tượng “học quá khớp” này. Hình 5. Kết quả dự đoán thời gian truyền sóng nén (đường cong màu xanh) cho giếng mù với thông số đầu vào là các đường log NPHI, RHOB, GR, RT, PEF, CALI. Tài liệu tham khảo Alford J, et al., 2012. Sonic logging while drilling-shear answers. Oilf Rev 24:4-15. Avrim L. Blum and Pat. Langley, 1997. Selection of relevant features and examples in machine learning. Proceedings of the AI Fall Symposium on Relevance. Cao Minh Hieu, 2021. Scaling and Normalization. VIBLO Learning, Sun* AI Research Team. D.Onalo, S.Adedigba, O.Olaleruntobi., 2020. Data-driven model for shear wave transit time prediction for formation evaluation. Journal of Exploration Engineering. Jinjie Huang, Hongmei Xu, 2012. A method for feature selection based on the correlation analysis. International Conference on Measurement, MIC. Khazanehdari J, Mccann, 2005. Acoustic and petrophysical relationships in low-shale sandstone reservoir rocks. Geophysical Prospecting 53(4):447-461. Kumar T., N.K. Seelam, G.S. Rao, 2022. Lithology prediction from well log data using machine learning techniques: A case study from Talcher coalfield, Eastern India. Journal of Applied Geophysics, Elsevier. K. Ramcharitar and R. Hosein, 2016. Rock mechanical properties of shallow unconsolidated sandstone formations. Proceedings of the SPE Trinidad and Tobago Section Energy Resources Conference, Port of Spain, Trinidad and Tobago. Richard M. Bateman, 2012. Openhole Log Analysis and Formation Evaluation. SPE, Second Edition. Raymer LLL, Hunt ERR, Gardner JS, 1980. An improved sonic transit time to porosity-to-porosity transform. 21st SPWLA logging symp. trans, pp 1-13. Shi, L. and J. Zhang, 2021. Prediction of shear wave velocity using machine learning technique, multiple regression and well logs. ARMA/DGS/SEG 2nd International Geomechanics Symposium. T. Gan, et al., 2019. Artificial intelligent logs for formation evaluation using case studies in gulf of Mexico and Trinidad & Tobago. Proceedings of the SPE Annual Technical Conference and Exhibition, Calgary, Alberta, Canada.
  8. 730 X. Zou, 2019. Application of machine learning in shear wave prediction of Jiaoshiba shale gas horizontal well. Jianghan Petroleum Science and Technology, vol. 29, no. 04, pp. 16-22. Z. Tariq, et al., 2017. Estimation of rock mechanical parameters using artificial intelligence tools. Proceedings of the 51st U.S. Rock Mechanics/Geomechanics Symposium, San Francisco, CA, USA. W. Ni, Qi Li, W. Guo et al., 2017. Prediction of shear wave velocity in shale reservoir based on support vector machine. Journal of Xi’an Shiyou University (Natural Science Edition), vol. 32, no. 4, pp. 46-49. Sonic logging prediction using machine learning for x well Linh H. Luong*, Thien N. Dong, Vi T. T. Huynh, Anh K. Thieu, An T. Bui, Truong H. Nguyen, Tai H. Pham Petrovietnam University *Corresponding author: linhlh@pvu.edu.vn Abstract It is necessary to build a predictive model with a data science approach that is able to reproduce the acoustic curve value for a well without data through learning from other neighboring wells on the field to save cost in performing log measurements. This paper establishes the compressive wave prediction model based on the workflow of data-driven approach, which includes data exploratory analysis, normalization, and removing outliers. Six supervised learning regression models are compared on the training dataset by using two wells (as training data) to make a prediction and validated with the true value of the remaining one well. The final model is undergone hyperparameter tunning before making the final prediction for the blind wells. Based on the step of training and validation, the results demonstrate that the model built with the Gradient Boosting algorithm outperforms other models as it shows the lowest level of overfitting. The RMSE - average of 0.23 is obtained when the model is trained and tested on the whole 3 wells training datasets, and the RMSE - average of 0.28 is obtained when the model is trained on 2 wells and tested on the remaining well respectively. Keywords: Machine learning model, Elastic wave travel time, Sonic log, Data analysis.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
18=>0