Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu tổng hợp các công cụ phát hiện lỗi phần mềm để giảm cảnh báo sai

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:52

Thêm vào BST

Báo xấu

30
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong luận văn sẽ phân tích kết quả của các công cụ đưa ra trên một số tiêu chí và từ đó đưa ra đánh giá công cụ nào hiện nay đáp ứng tốt nhất để có thể giải quyết được các vấn đề nêu trên của nhà phát triển. Mời các bạn tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu tổng hợp các công cụ phát hiện lỗi phần mềm để giảm cảnh báo sai

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THẾ HUY NGHIÊN CỨU TỔNG HỢP CÁC CÔNG CỤ PHÁT HIỆN LỖI PHẦN MỀM ĐỂ GIẢM CẢNH BÁO SAI Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 8480103.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. TRƯƠNG ANH HOÀNG Hà Nội - 2020
1 MỤC LỤC DANH MỤC HÌNH ẢNH .............................................................................................3 DANH MỤC BẢNG BIỂU ...........................................................................................4 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ..................................................5 LỜI CẢM ƠN ................................................................................................................6 LỜI CAM ĐOAN ..........................................................................................................7 Chương 1. GIỚI THIỆU ĐỀ TÀI VÀ CÁC CÔNG CỤ SỬ DỤNG PHÂN TÍCH MÃ NGUỒN ...................................................................................................................8 1.1. Giới thiệu đề tài ................................................................................................8 1.2. Các công cụ được sử dụng trong nghiên cứu ................................................8 1.2.1. Công cụ phân tích SonarQube ...............................................................8 1.2.2. Công cụ phân tích HuntBugs ...............................................................12 1.2.3. Công cụ phân tích PMD [6] .................................................................12 1.2.4. Công cụ phân tích IntelliJ IDE ............................................................14 1.2.5. Công cụ phân tích VCG [11] ................................................................18 1.2.6. Công cụ phân tích SpotBugs [8] ..........................................................19 1.2.7. Công cụ phân tích Infer .......................................................................19 1.3. Đánh giá hiệu suất ..........................................................................................21 1.4. Bộ thử nghiệm (Test Suite)............................................................................21 1.5. Các lớp yếu điểm(CWE) ................................................................................22 Chương 2. PHƯƠNG PHÁP VÀ TIẾN HÀNH THỰC NGHIỆM .........................23 2.1. Phương pháp nghiên cứu ..............................................................................23 2.1.1. Chiến lược nghiên cứu .........................................................................23 2.1.2. Phương pháp tạo dữ liệu ......................................................................23 2.1.3. Phân tích dữ liệu ...................................................................................24 2.2. Tiến hành thử nghiệm ...................................................................................24 2.2.1. Bộ dữ liệu kiểm thử Juliet phiên bản 1.3 ............................................24
2 2.2.2. Quá trình chạy công cụ ........................................................................28 2.2.3. Tổng hợp dữ liệu ...................................................................................31 2.2.4. Viết công cụ phân tích dữ liệu .............................................................32 2.2.5. Thực hiện phân tích dữ liệu .................................................................33 Chương 3. KẾT QUẢ VÀ ĐÁNH GIÁ ......................................................................43 3.1. Kết quả ............................................................................................................43 3.1.1. Phân tích không theo tiêu chuẩn CWE ...............................................43 3.1.2. Phân tích theo từng danh mục chuẩn CWE .......................................43 3.1.3. Phân tích tổ hợp công cụ không theo chuẩn CWE .............................45 3.1.4. Phân tích tổ hợp theo chuẩn CWE ......................................................45 3.2. Đánh giá ..........................................................................................................48 3.2.1. Phân tích không theo chuẩn CWE ......................................................48 3.2.2. Phân tích theo chuẩn CWE ..................................................................49 Chương 4: KẾT LUẬN ...............................................................................................50 Tài liệu tham khảo .......................................................................................................51
3 DANH MỤC HÌNH ẢNH Hình 1.1: 4 thành phần chính của SonarQube [1] ...........................................................9 Hình 1.2: Các ngôn ngữ SonarQube hỗ trợ ...................................................................10 Hình 1.3: Cách thức hoạt động của SonarQube ............................................................11 Hình 1.4: Lỗi NullPointer trước khi sửa ........................................................................15 Hình 1.5: Lỗi NullPointer sau khi sửa ...........................................................................15 Hình 1.6: Mã nguồn không được sử dụng (mã “chết”) .................................................16 Hình 1.7: Mã nguồn trước khi xử lý chuỗi ....................................................................16 Hình 1.8: Mã nguồn sau khi xử lý chuỗi .......................................................................16 Hình 1.9: Lỗi đặt vi pham quy tắc đặt tên biến .............................................................17 Hình 1.10: Vi phạm đặc điểm kỹ thuật EJB ..................................................................17 Hình 1.11: Sau khi đã sửa vi phạm kỹ thuật EJB ..........................................................18 Hình 2.1: Cấu trúc mã nguồn ........................................................................................25 Hình 2.2: Phương thức bad() .........................................................................................26 Hình 2.3: Lỗi SQL Ịnjection ..........................................................................................26 Hình 2.4: Phương thức goodG2B() ...............................................................................27 Hình 2.5: Phương thức goodB2G() ...............................................................................27 Hình 2.6: Các tiêu chí của SonarQube ..........................................................................28 Hình 2.7: Các tiêu chí của HuntBugs ............................................................................29 Hình 2.8: Các tiêu chí của PMD ....................................................................................29 Hình 2.9: Các tiêu chí của IntelliJ IDE..........................................................................30 Hình 2.10: Các tiêu chí của VCG ..................................................................................30 Hình 2.11: Các tiêu chí của SpotBugs ...........................................................................31 Hình 2.12: Các tiêu chí của Infer...................................................................................31 Hình 2.13: Chuẩn hóa dữ liệu đầu vào ..........................................................................32
4 Hình 2.14: Cú pháp lệnh trong Java. .............................................................................32 Hình 2.15: Tệp dữ liệu đầu vào của công cụ SonarQube ..............................................33 Hình 2.16: Ví dụ xác thực và kiểm soát truy cập ..........................................................34 Hình 2.17: Ví dụ chất lượng mã nguồn .........................................................................35 Hình 2.18: Ví dụ quản lý luồng kiểm soát.....................................................................35 Hình 2.19: Ví dụ mã nguồn có lỗi không mã hóa thông tin mật khẩu ..........................36 Hình 2.20: Ví dụ mã hóa và tính ngẫu nhiên .................................................................36 Hình 2.21: Ví dụ xử lý lỗi..............................................................................................37 Hình 2.22: Ví dụ xử lý tệp tin ........................................................................................37 Hình 2.23: Ví dụ lỗi rò rỉ thông tin ................................................................................38 Hình 2.24: Ví dụ khởi tạo và đóng tài nguyên ..............................................................38 Hình 2.25: Ví dụ Injection .............................................................................................39 Hình 2.26: Ví dụ phần mềm độc hại..............................................................................40 Hình 2.27: Ví dụ phần mềm độc hại..............................................................................40 Hình 2.28: Mã nguồn gây ra lỗi NullPointer .................................................................41 Hình 2.29: Ví dụ xử lý con trỏ và tham chiếu ...............................................................41 Hình 2.30: Ví dụ trùng bản ghi của SonarQube ............................................................42 Hình 2.31: Ví dụ trùng bản ghi của HuntBugs ..............................................................42 DANH MỤC BẢNG BIỂU Bảng 2.1: Bảng mẫu dữ liệu chuẩn hóa .........................................................................23 Bảng 3.1: Bảng dữ liệu phân tích đơn công cụ .............................................................43 Bảng 3.2: Bảng phân tích đơn công cụ theo chuẩn CWE .............................................43 Bảng 3.3: So sánh phân tích đơn công cụ và phân tích tổ hợp công cụ ........................49
5 Biểu đồ 3.1: Biểu đồ tính hiệu suất của từng công cụ ...................................................43 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Thuật ngữ tiếng anh Thuật ngữ tiếng việt API Application Programming Interface Giao diện lập trình ứng dụng DFA Data Flow Analysis Phân tích luồng dữ liệu CWE Common Weakness Enumeration Liệt kê điểm yếu chung OWASP Open Web Application Security Là tổ chức phi lợi nhuận và Project đưa ra chuẩn OWASP phục vụ cho công việc pentest hiệu quả và chi tiết MISRA Motor Industry Software Reliability Hiệp hội Độ tin cậy Phần Association mềm Công nghiệp Động cơ AST Abstract Syntax Tree Cây cú pháp trừu tượng
6 LỜI CẢM ƠN Trước tiên học viên xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, PGS. TS. Trương Anh Hoàng và PGS. TS. Nguyễn Đức Anh – Hai thầy đã hướng dẫn, chỉ bảo nhiệt tình và tạo điều kiện tốt nhất từ khi bắt đầu thực hiện đến khi kết thúc công việc của mình. Học viên xin dành lời cảm ơn chân thành đến các thầy cô khoa công nghệ thông tin, trường Đại học Công Nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp cho các kiến thức vô cùng quý và bổ ích trong suốt thời gian hai năm học tại trường. Các thầy cô luôn đồng hành và tạo điều kiện cho tất cả học viên được nghiên cứu và học hỏi theo nguyên vọng của bản thân. Đồng thời học viên cũng dành lời cảm ơn chân thành đến gia đình, bạn bè, đồng nghiệp luôn động viên và bên cạnh trong suốt thời gian qua.
7 LỜI CAM ĐOAN Học viên xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Nghiên cứu tổng hợp công cụ phát hiện lỗi phần mềm để giảm cảnh báo sai” là công trình nghiên cứu riêng của bản thân không sao chép của người khác. Trong toàn bộ nội dung của luận văn, những điều đã trình bày hoặc là của chính cá nhân học viên hoặc là tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp. Học viên xin chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này. Hà Nội, ngày ……tháng…..năm 2020 Học viên thực hiện Lê Thế Huy
8 Chương 1. GIỚI THIỆU ĐỀ TÀI VÀ CÁC CÔNG CỤ SỬ DỤNG PHÂN TÍCH MÃ NGUỒN 1.1. Giới thiệu đề tài Hiện nay, chất lượng sản phẩm công nghệ ngày càng được yêu cầu cao cả đối với nhà phát triển và người sử dụng. Đối với người sử dụng họ muốn một sản phẩm trơn tru hạn chế lỗi hết mức có thể và đặc biệt phải thật sự bảo mật để đảm bảo an toàn thông tin của người sử dụng. Còn đối với nhà phát triển, họ quan tâm đến sản phẩm của mình làm ra đã thực sự tốt chưa, đã kiểm soát được các vấn đề phát sinh như bảo mật, hiệu suất,… Bên cạnh đó là sản phẩm đó có dễ dàng bảo trì và phát triển thêm module có dễ dàng không? Để có thể trả lời cho các vấn đề trên thì nhà phát triển đã đưa vào phân tích mã nguồn tĩnh trong từng giai đoạn để có thể nắm được các phát sinh. Vậy họ phân tích mã nguồn tĩnh như nào để biết rằng trong các mã nguồn của mình có các sơ hở về bảo mật, mã nguồn của mình đã đảm bảo tăng hiệu suất xử lý chưa, mã nguồn đã đạt các chuẩn theo quy ước để dễ dàng bảo trì cho sau này chưa? Hiện nay có rất nhiều công cụ hỗ trợ phân tích mã nguồn tĩnh để giúp các nhà phát triển có câu trả lời cho những vấn đề trên. Trong phạm vi nghiên cứu luận văn có đề cập đến một số công cụ phổ biến sau: SonarQube, SpotBugs, PMD, IntelliJ IDE, VCG, HuntBugs, Infer. Trong luận văn sẽ phân tích kết quả của các công cụ đưa ra trên một số tiêu chí và từ đó đưa ra đánh giá công cụ nào hiện nay đáp ứng tốt nhất để có thể giải quyết được các vấn đề nêu trên của nhà phát triển. Khi sử dụng các công cụ độc lập thì sẽ đưa ra kết quả như nào và khi kết hợp các công cụ lại thì chất lượng kiểm tra sẽ có cải thiện nhiều hơn không? Trong phạm vi nghiên cứu các câu hỏi trên sẽ được trả lời và sẽ đưa ra những gợi ý cho những người phát triển khi xây dựng một phần mềm. 1.2. Các công cụ được sử dụng trong nghiên cứu Trong nghiên cứu 7 công cụ sau được lựa chọn: SonarQube, HuntBugs, PMD, IntelliJ IDE, VCG, Spotbugs, Infer là các công cụ mã nguồn mở dùng để phân tích mã nguồn tĩnh – Tức là phân tích mã nguồn đang ở trạng thái không hoạt động để từ đó đưa ra các lỗi để khắc phục trước khi đưa ứng dụng vào chạy thực tế. Các công cụ này ngoài việc sử dụng các chức năng được cung cấp người dùng có thể tích hợp các plugin do chính mình phát triển để cải thiện hiệu suất phát hiện lỗi và phù hợp với từng dự án thực tế. Các công cụ trên đều đang được sử dụng bởi các doanh nghiệp hoặc là những công cụ đã đã có những thành tích nhất định trong sự phát triển phần mềm của các doanh nghiệp từ các năm trước đây. Sau đây luận văn sẽ giới thiệu và đi vào chi tiết từng công cụ. 1.2.1. Công cụ phân tích SonarQube SonarQube (trước đây là Sonar) là một nền tảng nguồn mở được phát triển bởi SonarSource để kiểm tra chất lượng mã nguồn đó thực hiện các đánh giá một cách tự động. SonarQube sử dụng phương pháp phân tích tĩnh (static analysis of code) để phát hiện lỗi, mã nguồn thừa không có tác dụng và lỗ hổng bảo mật trên 20 ngôn ngữ lập
9 trình. Là một nền tảng mã nguồn mở giúp nhà phát triển có thể kiểm tra chất lượng mã nguồn của dự án. SonarQube được viết bằng java nhưng hỗ trợ các ngôn ngữ khác nhau: PHP, Ruby, Java (bao gồm cả Android), C#, JavaScript, TypeScript, C/C++, Kotlin, Go, COBOL, PL/SQL, PL/I, ABAP, VB.NET, VB6, Python, RPG, Flex, Objective-C, Swift, CSS, HTML, và XML và hỗ trợ các cơ sở dữ liệu để lưu trữ kết quả: MySql, Postgresql. SonarQube hỗ trợ trong dự án việc đánh giá mã nguồn theo các tiêu chuẩn của từng ngôn ngữ có trong dự án. Bên cạnh đó có thể thực hiện những việc sau: • Phát hiện lỗi: phát hiện mã nguồn không dùng đến, các mã nguồn bị trùng lặp. • Tính toán độ bao phủ của mã nguồn theo kiểm thử đơn vị (Unit test - Unit- test coverage) – Đó là cách tính toán trong kiểm thử hộp trắng đảm bảo rằng tất cả các trường hợp trong mã nguồn đều được đảm bảo chạy qua khi chạy thực tế. • Tính toán trong việc các mã nguồn được sử dụng mang tính tạm thời không được tối ưu để sử dụng lại và dễ bảo trì mã nguồn của hệ thống (Technical Debt) – Nghĩa là giải quyết vấn đề một cách nhanh chóng không theo quy chuẩn chỉ quan tâm đến kết quả. Giả sử đúng ra một giá trị phải khai báo là hằng số để sử dụng chung cho các trường hợp khác nhưng khi sử dụng lại dùng luôn giá trị chứ không khai báo biến hằng số. Ví dụ đoạn mã nguồn như sau: if (message == “Nhập thiếu thông tin”) {} thay vào đó có thể khai báo một biến là hằng số trong một lớp java như là Constant.java: public static final String MESSAGE = “Nhập thiếu thông tin”; Như vậy ở bất kỳ đâu cần sử dụng biến MESSAGE đều có thể sử dụng và khi thay đổi giá trị chỉ cần thay đổi ở một chỗ thay vì phải vào nhiều đoạn mã để thay đổi. • So sánh chất lượng mã nguồn so với các lần kiểm tra trước. • Phát hiện lỗ hổng bảo mật. • Kiểm tra độ phức tạp của mã nguồn. Sonar gồm 4 thành phần [1]: Hình 1.1: 4 thành phần chính của SonarQube [1] ➢ Một máy chủ SonarQube bắt đầu với 3 tiến trình chính: • Máy chủ web cung cấp giao diện người dùng sử dụng và quản lý các phiên bản phân tích mã nguồn.
10 • Máy chủ tìm kiếm dựa trên Elasticsearch để sao lưu các tìm kiếm từ giao diện người dùng. • Máy chủ phụ trách xử lý các báo cáo phân tích mã nguồn và lưu chúng vào cơ sở dữ liệu của SonarQube. ➢ Một cơ sở dữ liệu để lưu trữ: • Cấu hình của SonarQube (bảo mật, cài đặt plugin,...). • Ảnh chụp nhanh chất lượng của dự án, chế độ xem,... ➢ Nhiều plugin SonarQube được cài đặt trên máy chủ, có thể bao gồm ngôn ngữ, SCM, tích hợp xác thực và quản trị. ➢ Một hoặc nhiều SonarScanners chạy trên máy chủ tích hợp liên tục và xây dựng để phân tích dự án. SonarQube Scanners là các plugin sẽ được chạy ở phía người dùng. Giúp thu thập thông tin từ dự án, sinh các “thuộc tính" cho việc phân tích. Sau đó nó sẽ chạy bộ phân tích SonarQube dựa trên các “thuộc tính” này. Tương ứng với mỗi công cụ quản lý dựng (build management), sẽ có một Scanner tương ứng. SonarQube Plugins bao gồm các plugin về ngôn ngữ lập trình, quản lý phiên bản mã nguồn hoặc thậm chí là các plugin cho các công cụ phân tích mã nguồn khác như PMD, FindBugs, jDepend, Android Lint, CheckStyle, WebDriver, ... Xem thêm tại đây: https://docs.sonarqube.org/display/PLUG/Plugin+Library. SonarQube hiện tại hỗ trợ cho 26 ngôn ngữ lập trình, do vậy sẽ có 26 plugin tương ứng để phân tích mã nguồn cho loại ngôn ngữ đấy. Sau đây là hình ảnh minh họa – hình 1.2: Hình 1.2: Các ngôn ngữ SonarQube hỗ trợ Một số kỹ thuật phân tích mã nguồn tĩnh bậc cao được sử dụng như: khớp mẫu (pattern matching), phân tích luồng dữ liệu, thực thi tượng trưng. SonarQube công bố các luật (rules) cho các ngôn ngữ này dựa theo các chuẩn nổi tiếng như CWE, SANS, OWASP, MISRA, CERT. Các luật cho từng ngôn ngữ được định nghĩa ở trang https://rules.sonarsource.com.
11 Cách thức hoạt động của SonarQube: Hình 1.3: Cách thức hoạt động của SonarQube • Sau khi các thông tin dự án được quét, thu thập, xử lý ở máy khách (client). • SonarQube Scanner sẽ gửi những thông tin này ở dạng tệp nén lên máy chủ (server) thông qua các API mà máy chủ cung cấp. Ngay khi máy chủ nhận được yêu cầu xử lý này, việc đầu tiên là SonarQube sẽ nạp toàn bộ mã nguồn và các tệp đi kèm nhờ plugin ngôn ngữ. Sau mã nguồn được nạp xong, các bộ phân tích sẽ lần lượt quét qua mã nguồn và tạo ra chỉ số đo lường hoặc phát hiện các vấn đề. Các bộ phân tích được chia làm hai loại là sensor và decorator. Sensor là các bộ phân tích có thể tự tạo ra và cập nhật các chỉ số từ mã nguồn. Decorator là các bộ phân tích sử dụng chỉ số từ các sensor để phân tích sinh ra các chỉ số ở mức cao hơn. • Trong toàn bộ quá trình, dữ liệu phân tích sẽ được lưu vào cơ sở dữ liệu ở các bước: sau khi nhập bởi plugin ngôn ngữ, sau khi sensor phân tích, sau khi decorator phân tích. Lúc này người dùng có thể kiểm tra kết quả phân tích trên giao diện web. Thay vì sử dụng trực tiếp các mã lỗi từ đã được định nghĩa sẵn từ các nguồn mở như CWE, OWASP,... SonarQube đã tạo ra những mã lỗi của riêng mình bằng cách tự tổng hợp lại từ nhiều nguồn khác nhau. Sau đó, các bộ lọc, bộ kiểm tra (luật) sẽ được viết ra dựa trên các mã lỗi riêng như vậy. Các luật của Java được triển khai tại org.sonar.java.checks. Để kiểm tra các lỗi có trong một tệp dữ liệu, SonarQube sẽ có hai phương pháp để thực hiện điều này [5]: • Sử dụng cú pháp cây và API cơ bản (Using syntax trees and API basics): Trước khi chạy bất kỳ quy tắc nào, SonarQube Java Analyzer phân tích tệp
12 Java đã cho và tạo ra cấu trúc dữ liệu tương đương: cú pháp cây (Syntax Tree). Mỗi cấu trúc của ngôn ngữ Java có thể được biểu diễn bằng một thành phần cụ thể cú pháp cây (Syntax Tree), chi tiết từng đặc điểm của nó. Mỗi cấu trúc này được liên kết với một giao diện riêng mô tả rõ ràng tất cả các đặc tính của nó. Khi tạo ra một luật, lớp IssuableSubscriptionVisitor sẽ được thực thi, nó cung cấp các phương thức hữu ích để làm rõ các vấn đề cũng như xác định chiến lược sẽ sử dụng khi phân tích một tệp. Nó dựa trên cơ chế đăng ký (subscription mechanism), cho phép chỉ định loại cây mà luật này sẽ phản ứng với. Các nút mà cần đảm bảo sẽ được duyệt được chỉ định bởi một phương thức là nodesToVisit(). Từ đó SonarQube sẽ có được các thông tin để bắt đầu xác định các lỗi có trong mã nguồn hay thực thi các luật. • Sử dụng API (Using semantic API): Ngoài việc thực thi các luật dựa vào dữ liệu được cung cấp bởi cú pháp cây (syntax tree), thì SonarQube cung cấp càng nhiều thông tin hơn liên quan đến mã nguồn thông qua một mô hình ngữ nghĩa của mã. Tuy nhiên mô hình này hiện chỉ hoạt động với mã nguồn Java. Mô hình ngữ nghĩa này cung cấp thông tin liên quan đến từng ký hiệu được thao tác. Ví dụ, đối với một phương thức, API ngữ nghĩa sẽ cung cấp dữ liệu hữu ích như chủ sở hữu của phương thức, công dụng của nó, các loại tham số và loại trả về của nó, ngoại lệ mà nó có thể ném,... 1.2.2. Công cụ phân tích HuntBugs Công cụ phân tích mã Java bytecode dựa trên công cụ Procyon Compiler với mục đích để thay thế FindBugs. Công cụ có thể chạy với maven, ant, gradle hoặc là một plugin của Eclipse. Phiên bản mới nhất hiện nay là 0.0.11. Hiện tại dự án đã bị hủy và không được hỗ trợ trong tương lai. HuntBugs có một điểm yếu lớn là nó không thể quét được các lỗi mã nguồn trong khi phát triển, chúng ta phải dựng hoặc đóng gói thì mới có thể quét được. Việc tích hợp HuntBugs rất nhanh và dễ hiểu, việc quét các tệp lỗi và xuất ra tệp báo cáo cũng rất nhanh, có thể xem kết quả ngay trên IDE tích hợp HuntBugs. HuntBugs không như các công cụ khác và có hạn chế khi chỉ hỗ trợ quét lỗi dự án thực hiện bằng ngôn ngữ Java. Việc chạy công cụ HuntBugs giúp phát hiện một vài lỗi trong hệ thống nhưng vẫn còn rất nhiều lỗi không bị phát hiện. Ngoài ra do hiện nay công cụ HuntBugs đã không được hỗ trợ trong tương lai nên rất khó phát triển thêm. 1.2.3. Công cụ phân tích PMD [6] PMD (Programming Mistake Detector) là một công cụ mã nguồn mở phân tích mã nguồn tĩnh để tìm ra các vấn đề trong mã nguồn giúp cải thiện chất lượng mã nguồn. PMD hỗ trợ các ngôn ngữ sau JavaScript, PLSQL, Apex, Python, Java. PMD có thể phát hiện một số lỗi sau trong mã nguồn: • Thân rỗng trong các khối lệnh try/catch/finally/switch và if/while. • Mã nguồn không được sử dụng với các biến toàn cục, tham số, các hàm mang tính chất đóng gói (private methods).
13 • Các biểu thức quá phức tạp, không cần thiết cho các câu lệnh điều kiện (if), vòng lặp for và while. • Tối ưu việc sử dụng String/String Buffer. • Trùng lặp mã nguồn. PMD plugins cho một số IDE sau: eclipse, NetBeans, IntelliJ, Maven, JDeveloper, JBuilder, SonarQube. PMD plugins mới nhất có version 6.17.0. Cách thức hoạt động: 1. Khi bắt đầu thực hiện chạy phân tích mã nguồn của dự án sẽ chạy vào lớp chính (class main): net.sourceforge.pmd.PMD. 2. Truyền tham số cho dòng lệnh net.sourceforge.pmd.cli.PMDParameters. Đồng thời tải tập tin bộ nhớ đệm (cache) để tăng cường việc phân tích. 3. Tải các bộ luật đã được định nghĩa sẵn hoặc do mình định nghĩa lại. 4. Xác định ngôn ngữ mình thực hiện phân tích. (Mỗi ngôn ngữ được hỗ trợ một số bộ luật riêng hoặc giữa các ngôn ngữ có nhưng bộ luật trùng nhau). 5. Xác định các tệp (sử dụng thư mục nguồn đã cho, lọc theo phần mở rộng tệp ngôn ngữ). 6. Chuẩn bị cho quá trình kết xuất kết quả. 7. Sắp xếp các tệp tin (file) theo tên. 8. Kiểm tra xem có thể sử dụng bộ nhớ đệm (cache) để thực việc phân tích (nếu các quy tắc thay đổi thì việc làm trên sẽ không hợp lệ). 9. Chuẩn bị SourceCodeProcessor dựa trên cấu hình. 10. Phân tích các tệp tin (đơn luồng hoặc đa luồng) thực hiện trong net.sourceforge.pmd.Processor.PMDRunnable: Tạo luồng đầu vào Gọi bộ xử lý mã nguồn net.sourceforge.pmd.SourceCodeProcessor: • Xác định ngôn ngữ. • Kiểm tra bộ nhớ đệm (cache) tệp đã được phân tích hay có sẵn. • Phân tích mã nguồn. Kết quả là nút AST gốc. • Luôn luôn chạy khách truy cập SymbolFacade. Nó xây dựng phạm vi, tìm khai báo và tập quán. • Chạy DFA (phân tích luồng dữ liệu – nếu có ít nhất một quy tắc yêu cầu) để xây dựng biểu đồ luồng điều khiển và các nút luồng dữ liệu. • Chạy TypeResolution (nếu có ít nhất một quy tắc yêu cầu). • Chạy phân tích đa biến (nếu ít nhất một quy tắc yêu cầu). • Thực hiện quy tắc luật: ✓ Trước tiên hãy chạy các quy tắc đã chọn cho cơ chế chuỗi quy tắc. ✓ Chạy tất cả các quy tắc khác và để chúng đi qua AST. Các quy tắc có thể sử dụng bảng ký hiệu, thông tin độ phân giải và các nút DFA. ✓ Các quy tắc sẽ báo cáo các vấn đề được tìm thấy như vi phạm quy tắc (Rule Violations).
14 11. Kết xuất các vi phạm được tìm thấy thành định dạng mong muốn (XML, văn bản, HTML). 12. Phân tích bộ nhớ đệm lưu trữ. 13. Tùy thuộc vào số lượng vi phạm được tìm thấy, thoát với mã 0 hoặc 4. 1.2.4. Công cụ phân tích IntelliJ IDE IntelliJ IDEA là công cụ nhằm tạo ra những dự án lập trình cho điện thoại hoặc cho với khả năng mã hóa sâu sắc và điều hướng nhanh phần mềm còn cung cấp cho người dùng một danh sách các biểu tượng và ký hiệu phục vụ trong công việc lập trình của người dùng. IntelliJ IDEA thực hiện phân tích dòng dữ liệu đầu vào của người dùng, phần mềm phân tích lưu lượng dữ liệu để đoán biểu tượng thể loại thời gian phần mềm thực hiện phân tích kịch bản được đưa vào của người dùng với các để xuất khác nhau tự động thêm các lớp phôi để phù hợp với chương trình mà bạn đang làm việc. IntelliJ IDEA là một IDE Java để phát triển các phần mềm máy tính. Công cụ được phát triển bởi JetBrains (trước đây gọi là IntelliJ), nó được cấp phép Apache 2 cho phiên bản cộng đồng, và một phiên bản thương mại độc quyền. Cả hai có thể được sử dụng cho phát triển thương mại. Những tính năng chính: • Lập trình các dự án cho điện thoại, java,… • So sánh tìm kiếm các đoạn mã trùng nhau. • Phân tích dữ liệu. • Tìm kiếm nhanh chóng. • Ứng dụng rộng rãi. Ở vai trò là một công cụ phân tích mã nguồn tĩnh thì IntelliJ IDE có rất nhiều ưu điểm vượt trội đáng chú ý. IntelliJ IDE cung cấp cho người sử dụng bản sửa lỗi nhanh và thông minh. Vì vậy chất lượng mã nguồn luôn được đảm bảo ngay từ đầu mà không làm gián đoạn quá trình viết mã nguồn theo yêu cầu của hệ thống. Từ đó giúp cho các lập trình viên làm việc hiệu quả và tiết kiệm thời gian. Với hơn 600 mã nguồn kiểm tra tự động giúp người dùng dễ dàng phát hiện các điểm mâu thuẫn khác nhau. IntelliJ IDE chia các lỗi mã nguồn thành các nhóm lỗi để có thể xử lý tùy theo mục đích của các dự án khác nhau. Sau đây học viên sẽ giới thiệu các nhóm lỗi mà IntelliJ IDE đang chia ra [9]: • Tìm lỗi có thể xảy ra: IntelliJ IDE phân tích mã người dùng đang nhập và có khả năng tìm và sửa các lỗi có thể xảy ra không phải là “lỗi biên dịch” ngay tức thì. Đây là một ví dụ về tình huống như vậy:
15 Hình 1.4: Lỗi NullPointer trước khi sửa Ở đây, điều kiện if đầu tiên có thể dẫn đến ngoại lệ NullPointer được ném vào if thứ hai, vì không phải tất cả các tình huống đều được ở trạng thái tốt nhất. Tại thời điểm này, thêm một xác nhận để tránh NullPointer bị ném trong thời gian chạy ứng dụng. Hình 1.5: Lỗi NullPointer sau khi sửa • Định vị, xác định mã nguồn không được sử dụng: IntelliJ IDEA làm nổi bật trong phần biên tập của cái gọi là mã “chết”. Đây là mã không bao giờ được thực thi trong thời gian chạy ứng dụng. Có lẽ, bạn thậm chí không cần phần mã này trong dự án của mình. Tùy thuộc vào tình huống, mã như vậy có thể được coi là một lỗi hoặc như một phần thừa. Dù sao nó cũng làm giảm hiệu suất ứng dụng và làm phức tạp quá trình bảo trì. Đây là một ví dụ. Cái gọi là “điều kiện không đổi” - ví dụ như điều kiện không bao giờ được đáp
16 ứng hoặc luôn luôn là “đúng”. Trong trường hợp này, mã chịu trách nhiệm không thể truy cập được và thực sự là mã không được sử dụng (mã “chết”). Hình 1.6: Mã nguồn không được sử dụng (mã “chết”) • Phát hiện các vấn đề hiệu suất: IntelliJ IDE gợi ý cho người dùng một cách dễ dàng để giải quyết các vấn đề liên quan đến hiệu suất trong toàn bộ dự án. IntelliJ IDE biết rất nhiều tình huống trong đó có một số mẫu được biết là được thực hiện nhanh hơn bất kỳ mẫu nào khác. Vì vậy, nó có thể đề xuất các giải pháp để tăng hiệu suất. Sau đây là một ví dụ về hoạt động của chuỗi: Hình 1.7: Mã nguồn trước khi xử lý chuỗi IntelliJ IDE gợi ý một số hành động để cải thiện hiệu suất của hoạt động chuỗi này. Cách xử lý thứ 2 được chọn vì nó được biết là hoạt động nhanh hơn. Hình 1.8: Mã nguồn sau khi xử lý chuỗi • Cải thiện cấu trúc mã và khả năng bảo trì: IntelliJ IDE thực hiện phân tích nhanh các phụ thuộc thông qua một dự án, module hoặc gói, phát hiện chúng
17 và giúp bạn kiểm soát các phụ thuộc thông qua việc chia nhỏ mã của bạn thành các module, sử dụng các phụ thuộc theo chu kỳ tạm thời, đánh dấu lỗi. IntelliJ IDE cũng tìm kiếm các bản sao cấu trúc, ngay cả các bản sao “mờ”. • Tuân thủ các hướng dẫn và tiêu chuẩn mã hóa: IntelliJ IDE cho phép tìm ra các điểm mâu thuẫn khác nhau liên quan đến nhiều hướng dẫn và tiêu chuẩn mã hóa, từ các tiêu chuẩn Java phổ biến đến bất kỳ tiêu chuẩn cụ thể nào của công ty. Tất cả những nơi, ví dụ, tìm thấy sự không nhất quán của Javadoc, đều được đánh dấu trong trình chỉnh sửa khi đang di chuyển. Sau đây là ví dụ: Hình 1.9: Lỗi đặt vi pham quy tắc đặt tên biến Trong trường hợp này, dự án đã xác định rằng tất cả các hằng số trong dự án phải bắt đầu bằng ký hiệu “_”. Bóng đèn màu vàng báo động rằng hằng số không phù hợp với tiêu chuẩn riêng mà dự án đặt cho các tên như vậy. IntelliJ IDE có thể giúp giải quyết vấn đề. Chỉ cần nhấn Alt + Enter và chọn để đổi tên biểu tượng. Tất cả các cách sử dụng của biểu tượng này trong mã cũng sẽ được đổi tên. • Tuân theo thông số kỹ thuật: IntelliJ IDE nêu bật tất cả các vi phạm đặc điểm kỹ thuật, như EJB, JSP, JSF,…. Không giống như sự mâu thuẫn về nguyên tắc, vi phạm thông số kỹ thuật dẫn đến việc không thể triển khai ứng dụng trên máy chủ. Đó là lý do tại sao điều quan trọng là phải tìm những địa điểm mã như vậy ngay lập tức. Đây là một ví dụ: Hình 1.10: Vi phạm đặc điểm kỹ thuật EJB Theo đặc điểm kỹ thuật của EJB, phương thức “create” sẽ đưa ra ngoại lệ tương ứng. IntelliJ IDE nêu rõ vi phạm này và đề xuất cách khắc phục nhanh chóng. Nếu chúng tôi không khắc phục, ứng dụng sẽ không thể triển khai ở phía máy chủ.
18 Hình 1.11: Sau khi đã sửa vi phạm kỹ thuật EJB 1.2.5. Công cụ phân tích VCG [11] VCG là một công cụ đánh giá bảo mật tự động sử dụng với các ngôn ngữ C/C++, Java, C#, VB và PL/SQL. VCG có một vài tính năng hy vọng sẽ hữu ích cho bất kỳ ai tiến hành đánh giá bảo mật. Ngoài việc thực hiện một số kiểm tra phức tạp hơn, nó còn có một tệp cấu hình cho mỗi ngôn ngữ về cơ bản cho phép bạn thêm bất kỳ chức năng xấu nào (hoặc văn bản khác) mà bạn muốn tìm kiếm, chẳng hạn như trong danh sách chức năng bị cấm của Microsoft, các hàm Java xử lý đầu vào của người dùng thực hiện ngay lập tức (Execute Immediate) trong PL/SQL. Bản thân ứng dụng xử lý các nội dung phức tạp (tràn bộ đệm, so sánh có dấu hoặc chứa ký tự,...) vì vậy các tệp cấu hình được đề cập ở trên về cơ bản cung cấp thêm một lớp kiểm tra bổ sung mà người dùng có thể muốn hoặc không và có thể sửa đổi cho phù hợp. Kết quả được xếp hạng theo mức độ nghiêm trọng để hỗ trợ người dùng trong quá trình đánh giá. Quá trình quét mã lỗi được thực hiện theo ba cách: • Chỉ nhận xét - VCG cố gắng xác định bất kỳ nhận xét nào cho biết mã hỏng hoặc chưa hoàn thành dựa trên danh sách khoảng 16 cụm từ thường xuất hiện trong các nhận xét đó. • Chỉ mã nguồn - VCG quét và báo cáo về các vấn đề bảo mật mã tiềm ẩn và bất kỳ chức năng nguy hiểm nào,... từ tệp cấu hình nằm trong mã. • Chỉ các chức năng nguy hiểm - VCG chỉ quét và báo cáo về bất kỳ chức năng nguy hiểm nào,... từ tệp cấu hình được tìm thấy trong mã. • Mã, chức năng nguy hiểm và nhận xét - Còn được gọi là quét toàn bộ trong danh sách quét, đây là một quá trình quét kết hợp cả mã và chú thích bao gồm tất cả những điều trên. Tệp cấu hình tồn tại cho từng ngôn ngữ trong số sáu ngôn ngữ mà VCG quét. Chúng cung cấp một lớp quét bổ sung để bổ sung cho các bản quét phức tạp được tích hợp sẵn cho mỗi ngôn ngữ. Phân tích mã trực quan sẽ được hiển thị khi quá trình quét kết thúc. Kết quả được ghi vào ngăn kết quả theo thứ tự chúng đã được định vị. Kết quả có định dạng sau: • SEVERITY: Vấn đề về mã. • Số dòng - Tên tệp. • Mô tả.
19 1.2.6. Công cụ phân tích SpotBugs [8] SpotBugs là một chương trình sử dụng phân tích tĩnh để tìm lỗi trong mã Java. Nó tìm kiếm các trường hợp “mẫu lỗi” - các trường hợp mã có khả năng bị lỗi. Nó cũng là người kế thừa tinh thần của FindBugs, tiếp tục phát triển từ thời điểm mà nó đã khởi nghiệp với sự hỗ trợ của cộng đồng. Để sử dụng SpotBugs, bạn cần có môi trường thời gian chạy tương thích với Java phiên bản 1.8 trở lên. SpotBugs là nền tảng độc lập và được biết là chạy trên nền tảng GNU/Linux, Windows và MacOS X. Phải có ít nhất 512 MB bộ nhớ để sử dụng SpotBugs. Để phân tích các dự án rất lớn, nhiều bộ nhớ hơn có thể cần thiết. SpotBugs được xây dựng bởi JDK8 và chạy trên JRE8 và các phiên bản mới hơn. SpotBugs có thể quét mã bytecode (tệp lớp) được tạo bởi JDK 8 và các phiên bản mới hơn. Tuy nhiên, hỗ trợ cho Java 11 và mới hơn vẫn đang thử nghiệm. Truy cập trình theo dõi sự cố để tìm các sự cố đã biết. SpotBugs không hỗ trợ bytecode (tệp lớp) được tạo bởi JDK lỗi thời như 10, 9, 7 và các phiên bản cũ hơn. Một số lỗi mà SpotBugs tìm ra: • BAD_PRACTICE: Vi phạm thực hành mã hóa được khuyến nghị và cần thiết. Ví dụ bao gồm mã băm và các vấn đề bằng thành ngữ có thể sao chép, ngoại lệ bị loại bỏ, các vấn đề có thể sắp xếp thứ tự và sử dụng sai finalize. • Quốc tế hóa (I18N): Các lỗi mã liên quan đến quốc tế hóa và ngôn ngữ. • MALICIOUS_CODE: Dễ bị tấn công từ các phần mềm độc hại. Được cài cắm từ các sơ hở của phần mềm. • Hiệu suất hoạt động (PERFORMANCE): phát hiện các mã lỗi làm cho chương trình giảm hiệu suất: như thừa mã, mã trùng lặp, sử dụng các cấu trúc dữ liệu làm tăng hiệu suất chương trình,… đều được phát hiện và cảnh bảo cho người dùng. 1.2.7. Công cụ phân tích Infer Infer là một công cụ mã nguồn mở được sử dụng bởi Amazon, Facebook, Uber,… Chương trình có khả năng bắt lỗi trong mã nguồn thuộc ngôn ngữ Java/C++/Objective-C. Infer có thể bắt được một số lỗi: • Gọi các con trỏ giá trị null. • Lỗi sử dụng đối tượng giá trị null trong danh sách thuộc loại đầu vào là các đối tượng (C++/Objective-C). • Rò rỉ tài nguyên và bộ nhớ. • Vòng lặp trả lại (A -> B và B -> A dẫn đến đối tượng không bị xóa kể cả khi tất cả con trỏ ở bên ngoài đã bị hủy). • An toàn luồng. • Các biến khởi tạo nhưng không được sử dụng (Dead variable). • Nhiều luồng đợi khóa ngược nhau dẫn đến treo (Deadlock).