Luận văn Thạc sĩ Công nghệ thông tin: Khai phá dữ liệu trên nền Oracle và ứng dụng
lượt xem 5
download
Mục tiêu nghiên cứu của đề tài là nghiên cứu lý thuyết về khai phá dữ liệu. Nghiên cứu giải pháp phân lớp các ngân hàng thương mại. Tìm hiểu công nghệ khai phá dữ liệu trên nền Oracle. Thực nghiệm khai phá dữ liệu sử dụng công cụ khai phá dữ liệu của Oracle.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Khai phá dữ liệu trên nền Oracle và ứng dụng
- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ MINH LÝ KHAI PHÁ DỮ LIỆU TRÊN NỀN ORACLE VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014
- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ MINH LÝ KHAI PHÁ DỮ LIỆU TRÊN NỀN ORACLE VÀ ỨNG DỤNG Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: GS.TS. VŨ ĐỨC THI HÀ NỘI - 2014
- LỜI CẢM ƠN Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới GS.TS. Vũ Đức Thi, Viện Công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam. Thầy đã dành nhiều thời gian tận tình hướng dẫn, giúp đỡ tôi trong đ nh hướng và th c hiện n i dung luận v n. Tôi xin chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi trong suốt quá trình tôi học tập tại trường Đại học Công nghệ. Tôi xin chân thành cảm ơn lãnh đạo cơ quan, bạn bè đồng nghiệp đã cung cấp tài liệu và cho tôi những lời khuyên quý báu để th c hiện luận v n. Tôi gửi lời cảm ơn tới các bạn trong lớp K16HTTT2 đã ủng h , khích lệ, giúp đỡ và luôn sát cánh bên tôi trong suốt quá trình học tập, rèn luyện tại trường. Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn bè đã ở bên tôi những lúc khó kh n nhất, luôn đ ng viên tôi, khuyến khích tôi trong cu c sống cũng như học tập, công việc. Tôi xin chân thành cảm ơn! Hà Nội, tháng 6 năm 2014 Học viên Nguyễn Th Minh Lý
- LỜI CAM ĐOAN Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, th c hiện dưới s hướng dẫn của GS.TS. Vũ Đức Thi. Các kết quả khai phá của đề tài đều được tiến hành khai phá và chưa từng được ai công bố trong bất cứ công trình nào khác. Hà Nội, tháng 6 năm 2014 Học viên Nguyễn Th Minh Lý
- MỤC LỤC DANH SÁCH CÁC HÌNH VẼ DANH SÁCH CÁC BẢNG BẢNG CÁC KÝ HIỆU VIẾT TẮT LỜI MỞ ĐẦU ................................................................................................................1 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ...........................................3 1.1. Khái niệm ..............................................................................................................3 1.2. Ứng dụng của khai phá dữ liệu .............................................................................4 1.3. Ưu thế khai phá dữ liệu.........................................................................................5 1.4. Các kỹ thuật khai phá dữ liệu ...............................................................................6 1.5. Tổng kết chương 1 ................................................................................................7 CHƢƠNG 2: NGÂN HÀNG THƢƠNG MẠI VÀ GIẢI PHÁP PHÂN LỚP CÁC NGÂN HÀNG THƢƠNG MẠI ....................................................................................8 2.1. Ngân hàng thương mại và xếp loại ngân hàng thương mại ..................................8 2.1.1. Khái niệm ngân hàng thương mại ..................................................................8 2.1.2. Hệ thống ch tiêu và xếp loại đối với ngân hàng thương mại ........................9 2.2. Nghiên cứu giải pháp phân lớp các ngân hàng thương mại ...............................14 2.2.1. Bài toán phân lớp và m t số thuật toán phân lớp điển hình .........................14 2.2.1.1 Thuật toán phân lớp Bayes .....................................................................15 2.2.1.2 Thuật toán phân lớp SVM ......................................................................20 2.2.1.3 Thuật toán phân lớp cây quyết đ nh .......................................................24 2.2.2. Đánh giá hiệu quả phân lớp .........................................................................26 2.3. Đề xuất mô hình phân lớp các ngân hàng thương mại .......................................28 2.3.1. Phát biểu bài toán phân lớp các ngân hàng thương mại ..............................28 2.3.2. Đề xuất mô hình phân lớp các ngân hàng thương mại.................................28 2.4. Tổng kết chương 2 ..............................................................................................35 CHƢƠNG 3: CÔNG NGHỆ KHAI PHÁ DỮ LIỆU ORACLE .............................36 3.1. Lý do sử dụng công nghệ khai phá dữ liệu của Oracle ......................................36 3.2. Quy trình khai phá dữ liệu sử dụng Oracle Data Miner .....................................37 3.3. Tổng kết chương 3 ..............................................................................................47
- CHƢƠNG 4: THỰC NGHIỆM PHÂN LỚP CÁC NGÂN HÀNG THƢƠNG MẠI...48 4.1. Môi trường th c nghiệm .....................................................................................48 4.1.1 Cấu hình phần cứng, hệ điều hành ................................................................48 4.1.2 Công cụ phần mềm........................................................................................48 4.1.3 Cài đặt và kết nối phần mềm .........................................................................48 4.2. Dữ liệu th c nghiệm ...........................................................................................49 4.3. Kết quả th c nghiệm ...........................................................................................52 4.3.1 Kết quả th c nghiệm đối với thuật toán phân lớp Naive Bayes ...................52 4.3.2 Kết quả th c nghiệm đối với thuật toán phân lớp SVM ...............................53 4.3.3 Kết quả th c nghiệm đối với thuật toán phân lớp cây quyết đ nh ................54 4.4. Đánh giá kết quả đạt được ..................................................................................55 4.5. Tổng kết chương 4 ..............................................................................................55 KẾT LUẬN ...................................................................................................................56 TÀI LIỆU THAM KHẢO
- DANH SÁCH CÁC HÌNH VẼ Hình 1.1. Quá trình khám phá tri thức trong cơ sở dữ liệu ............................................4 Hình 2.1. Biểu diễn của mặt phẳng siêu phẳng của SVM ............................................21 Hình 2.2. Mô hình phân lớp đề xuất ..............................................................................28 Hình 2.3. Bảng chỉ tiêu của ngân hàng thương mại .....................................................29 Hình 2.4. Bảng các chỉ tiêu của ngân hàng thương mại đã trích chọn ........................29 Hình 2.5. Bảng chỉ tiêu sử dụng để phân lớp các ngân hàng thương mại ....................30 Hình 3.1. Màn hình ODM - chọn chức năng xây dựng mô hình khai phá dữ liệu ........38 Hình 3.2. Màn hình ODM - chọn chức năng, giải thuật khai phá dữ liệu ....................38 Hình 3.3. Màn hình ODM - chọn bảng dữ liệu học cho khai phá dữ liệu ....................39 Hình 3.4. Màn hình ODM - chọn thuộc tính đích trong bảng dữ liệu học ...................39 Hình 3.5. Màn hình ODM - nhập tên cho mô hình khai phá dữ liệu ............................40 Hình 3.6. Màn hình ODM – kết quả xây dựng mô hình khai phá dữ liệu .....................40 Hình 3.7. Màn hình ODM – chọn chức năng kiểm thử mô hình khai phá dữ liệu .......41 Hình 3.8. Màn hình ODM – chọn mô hình khai phá dữ liệu cần kiểm thử ...................41 Hình 3.9. Màn hình ODM – chọn bảng dữ liệu kiểm thử ..............................................42 Hình 3.10. Màn hình ODM – kết quả kiểm thử .............................................................42 Hình 3.11. Màn hình ODM – độ tin cậy của mô hình khai phá dữ liệu ........................43 Hình 3.12. Màn hình ODM – độ chính xác của mô hình khai phá dữ liệu ...................43 Hình 3.13. Màn hình ODM – chọn chức năng áp dụng mô hình khai phá dữ liệu .......44 Hình 3.14. Màn hình ODM – chọn mô hình khai phá dữ liệu cần áp dụng ..................44 Hình 3.15. Màn hình ODM – chọn bảng dữ liệu cần khai phá .....................................45 Hình 3.16. Màn hình ODM – chọn thuộc tính đầu vào cho khai phá ...........................45 Hình 3.17. Màn hình ODM – nhập tên cho hoạt động khai phá ...................................46 Hình 3.18. Màn hình ODM – kết quả áp dụng mô hình khai phá dữ liệu .....................46 Hình 3.19. Màn hình ODM – kết quả khai phá dữ liệu .................................................47 Hình 4.1. Định nghĩa một kết nối Oracle Data Miner với cơ sở dữ liệu ......................49
- DANH SÁCH CÁC BẢNG Bảng 2. 1. Chỉ tiêu giám sát khả năng về vốn .................................................................9 Bảng 2.2. Chỉ tiêu giám sát chất lượng tài sản có ........................................................10 Bảng 2.3. Chỉ tiêu giám sát khả năng sinh lời ..............................................................11 Bảng 2.4. Chỉ tiêu giám sát khả năng thanh khoản ......................................................12 Bảng 2.5. Chỉ tiêu giám sát rủi ro khác ........................................................................13 Bảng 2.6. Xếp loại các ngân hàng thương mại .............................................................13 Bảng 2.7. Ví dụ dữ liệu chỉ tiêu giám sát ......................................................................17 Bảng 2.8. Ví dụ dữ liệu chỉ tiêu giám sát quy đổi .........................................................18 Bảng 2.9. Ví dụ tính xác suất các thuộc tính .................................................................19 Bảng 2.10. Bảng ký hiệu ................................................................................................26 Bảng 2.11. Ví dụ tập vectơ đặc trưng thứ nhất .............................................................31 Bảng 2.12. Ví dụ tập vectơ đặc trưng thứ hai ...............................................................32 Bảng 2.13. Ví dụ dữ liệu gốc cần phân lớp ...................................................................33 Bảng 2.14. Ví dụ kết quả phân lớp với dữ liệu gốc .......................................................33 Bảng 2.15. Ví dụ dữ liệu quy đổi cần phân lớp .............................................................34 Bảng 2.16. Ví dụ kết quả phân lớp với dữ liệu quy đổi .................................................34 Bảng 3.1. Các chức năng khai phá dữ liệu dự đoán trong Oracle ...............................36 Bảng 3.2. Các chức năng khai phá dữ liệu mô tả trong Oracle ...................................37 Bảng 4.1. Cấu hình phần cứng, hệ điều hành ...............................................................48 Bảng 4.2. Danh sách các phần mềm sử dụng................................................................48 Bảng 4.3. Các chỉ tiêu xếp loại ngân hàng thương mại ................................................49 Bảng 4.4. Tiêu chí quy đổi điểm ....................................................................................50 Bảng 4.5. Phân bố dữ liệu huấn luyện ..........................................................................51 Bảng 4.6. Phân bố dữ liệu kiểm thử ..............................................................................51 Bảng 4.7. Kết quả thực nghiệm phân lớp Naive Bayes với dữ liệu gốc ........................52 Bảng 4.8. Kết quả thực nghiệm phân lớp Naive Bayes với dữ liệu quy đổi ..................52 Bảng 4.9. Kết quả thực nghiệm phân lớp SVM với dữ liệu gốc ....................................53 Bảng 4.10. Kết quả thực nghiệm phân lớp SVM với dữ liệu quy đổi ............................53 Bảng 4.11. Kết quả thực nghiệm phân lớp cây quyết định với dữ liệu gốc...................54 Bảng 4.12. Kết quả thực nghiệm phân lớp cây quyết định với dữ liệu quy đổi ............54
- BẢNG CÁC KÝ HIỆU VIẾT TẮT Từ hoặc cụm từ Kí hiệu viết tắt Oracle data miner ODM One-against-Rest OAR One-against-One OAO Support vector machine SVM
- 1 LỜI MỞ ĐẦU Ngày nay, tại các đơn v , tổ chức có áp dụng công nghệ thông tin vào quản lý, các ứng dụng mới dừng lại ở mức đ là ứng dụng tác nghiệp thông thường với chức n ng hỗ trợ đưa thông tin vào và kết xuất ra các báo cáo đầu ra. Những ứng dụng hỗ trợ cao cho phân tích, hỗ trợ ra quyết đ nh chưa nhiều. Tuy nhiên với xu hướng phát triển hiện tại, chắc chắn sẽ rất cần đến những ứng dụng khai phá tri thức tiềm ẩn trong cơ sở dữ liệu. Bảo hiểm tiền gửi Việt Nam là tổ chức tài chính Nhà nước với nhiệm vụ bảo vệ quyền và lợi ích hợp pháp của người gửi tiền, góp phần duy trì s ổn đ nh của các tổ chức tham gia Bảo hiểm tiền gửi và s phát triển an toàn lành mạnh hoạt đ ng ngân hàng. Với nhiệm vụ được giao, m t trong những công tác chính của Bảo hiểm tiền gửi Việt Nam là giám sát các tổ chức tham gia Bảo hiểm tiền gửi (đánh giá rủi ro, xếp loại tổ chức tham gia Bảo hiểm tiền gửi,…). Áp dụng công nghệ tin học vào công tác giám sát các tổ chức tham gia Bảo hiểm tiền gửi ngay từ những n m đầu thành lập Bảo hiểm Tiền gửi Việt Nam, đến nay Bảo hiểm tiền gửi Việt Nam đã xây d ng được hệ thống công nghệ thông tin đáp ứng được nhiệm vụ giám sát các tổ chức tham gia Bảo hiểm tiền gửi. Tuy nhiên, cơ sở dữ liệu Bảo hiểm tiền gửi Việt Nam mới ch được sử dụng để phục vụ các tác nghiệp hằng ngày, các báo cáo, thống kê. Tại Bảo hiểm tiền gửi Việt Nam, các ứng dụng hiện tại mới dừng ở mức đưa ra báo cáo liệt kê các ch tiêu của tổ chức tham gia Bảo hiểm tiền gửi và cán b giám sát của Bảo hiểm tiền gửi c n cứ vào các báo cáo đó để phân tích, đánh giá các tổ chức tham gia Bảo hiểm tiền gửi (phân tích các ch tiêu m t cách riêng lẻ). Với số lượng tổ chức tham gia Bảo hiểm tiền gửi ngày càng t ng, việc xem xét từng trường hợp, từng số liệu cụ thể của mỗi tổ chức tham gia Bảo hiểm tiền gửi trở nên khó kh n và như vậy rất cần công cụ hỗ trợ. Mong muốn của cán b giám sát là có được ứng dụng t đ ng phân tích d a trên nhiều ch tiêu và khi đưa số liệu về các ch tiêu của m t tổ chức tham gia Bảo hiểm tiền gửi vào sẽ có câu trả lời về xếp loại của tổ chức này. Hiện tại, Bảo hiểm tiền gửi Việt Nam đang th c hiện đấu thầu để triển khai d án hệ thống thông tin quản lý và hiện đại hóa ngân hàng - Hợp phần Bảo hiểm tiền gửi Việt Nam. M t trong những yêu cầu trong phân hệ Giám sát rủi ro của hệ thống này là hệ thống phải cho phép tiến hành khai thác dữ liệu, hệ thống phải cung cấp các công cụ hỗ trợ các hoạt đ ng: đánh giá rủi ro, xếp loại tổ chức tham gia Bảo hiểm tiền gửi. Với những tìm hiểu trên, cho thấy có thể áp dụng khai phá dữ liệu với cơ sở dữ liệu của Bảo hiểm tiền gửi Việt Nam để đáp ứng những mong muốn của cán b giám sát, từ đó nâng cao hiệu quả của công tác giám sát, đánh giá, xếp loại các tổ chức tham gia Bảo hiểm tiền gửi.
- 2 Xuất phát từ th c tế trên, học viên chọn đề tài “Khai phá dữ liệu trên nền ORACLE và ứng dụng” để làm đề tài cho luận v n tốt nghiệp, cùng với mong muốn góp phần trợ giúp công tác giám sát các tổ chức tham gia Bảo hiểm tiền gửi của Bảo hiểm tiền gửi Việt Nam. Trong khuôn khổ của luận v n, ch tập trung khai phá dữ liệu giám sát các ngân hàng thương mại của Bảo hiểm tiền gửi Việt Nam. Cụ thể, luận v n hướng vào nghiên cứu những mục tiêu chính sau: - Thứ nhất, nghiên cứu lý thuyết về khai phá dữ liệu. - Thứ hai, nghiên cứu giải pháp phân lớp các ngân hàng thương mại. - Thứ ba, tìm hiểu công nghệ khai phá dữ liệu trên nền Oracle. - Thứ tư, th c nghiệm khai phá dữ liệu sử dụng công cụ khai phá dữ liệu của Oracle.
- 3 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Khái niệm Khai phá dữ liệu được đ nh nghĩa là: quá trình trích xuất các thông tin có giá tr tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng m t số thuật ngữ khác có ý nghĩa tương t như: khai phá tri thức từ cơ sở dữ liệu (knowlegde mining from databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging). Nhiều người coi khai phá dữ liệu và m t thuật ngữ thông dụng khác là khám phá tri thức trong cơ sở dữ liệu (Knowlegde Discovery in Databases) là như nhau. Tuy nhiên trên th c tế, khai phá dữ liệu ch là m t bước thiết yếu trong quá trình khám phá tri thức trong cơ sở dữ liệu. Quá trình này bao gồm các bước sau: - Bước 1) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu không thích hợp; - Bước 2) Tích hợp dữ liệu (data integration): tích hợp dữ liệu từ các nguồn khác nhau như: Cơ sở dữ liệu, Kho dữ liệu, file text...; - Bước 3) Chọn dữ liệu (data selection): ở bước này, những dữ liệu liên quan tr c tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu; - Bước 4) Chuyển đổi dữ liệu (data transformation): trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách th c hiện các thao tác nhóm hoặc tập hợp; - Bước 5) Khai phá dữ liệu (data mining): là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu; - Bước 6) Đánh giá mẫu (pattern evaluation): đánh giá s hữu ích của các mẫu biểu diễn tri thức d a vào m t số phép đo; - Bước 7) Trình diễn dữ liệu (knowlegde presentation): sử dụng các kĩ thuật trình diễn và tr c quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng.
- 4 Hình 1.1. Quá trình khám phá tri thức trong cơ sở dữ liệu Khai phá dữ liệu và phát hiện tri thức trong các cơ sở dữ liệu đã cuốn hút các phương pháp, thuật toán và kỹ thuật từ nhiều chuyên ngành nghiên cứu khác nhau như học máy, thu nhận mẫu, cơ sở dữ liệu, thống kê, trí tuệ nhân tạo, thu nhận tri thức trong hệ chuyên gia…cùng hướng tới mục tiêu thống nhất là trích lọc ra được các tri thức từ dữ liệu trong các cơ sở dữ liệu khổng lồ. Song so với các phương pháp khác, khai phá dữ liệu có m t số ưu thế rõ rệt [5]. 1.2. Ứng dụng của khai phá dữ liệu Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh v c: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song và tốc đ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu... Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh v c thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật ... Khai phá dữ liệu có nhiều ứng dụng trong th c tế, ví dụ như: + Bảo hiểm, tài chính và th trường chứng khoán: phân tích tình hình tài chính và d báo giá của các loại cổ phiếu trong th trường chứng khoán. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, ... + Thống kê, phân tích dữ liệu và hỗ trợ ra quyết đ nh. + Điều tr y học và ch m sóc y tế: m t số thông tin về chuẩn đoán bệnh lưu trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán và phương pháp điều tr (chế đ dinh dưỡng, thuốc, ...) + Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý s cố.
- 5 + Text mining và Web mining: Phân lớp v n bản và các trang Web, tóm tắt v n bản,... + Lĩnh v c khoa học: Quan sát thiên v n, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và m t số bệnh di truyền, ... + Mạng viễn thông: Phân tích các cu c gọi điện thoại và hệ thống giám sát lỗi, s cố, chất lượng d ch vụ, ...[5]. 1.3. Ƣu thế khai phá dữ liệu Khai phá dữ liệu có nhiều ứng dụng và m t số ưu thế rõ rệt được xem xét dưới đây: + So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các cơ sở dữ liệu chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục. Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các cơ sở dữ liệu đầy đủ, ít biến đ ng và tập dữ liệu không quá lớn; + Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn nhiều so với các dữ liệu trong cơ sở dữ liệu, và chúng thường ch bao hàm được các trường hợp quan trọng. Hơn nữa các chuyên gia sẽ xác nhận giá tr và tính hữu ích của các mẫu phát hiện được; + Phương pháp thống kê là m t trong những nền tảng lí thuyết của Khai phá dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống kê còn tồn tại m t số điểm yếu mà Khai phá dữ liệu đã khắc phục được: - Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều cơ sở dữ liệu; - Các phương pháp thống kê hoạt đ ng hoàn toàn theo dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh v c; - Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được; - Phương pháp thống kê cần có s hướng dẫn của người dùng để xác đ nh phân tích dữ liệu như thế nào và ở đâu. Với những ưu điểm đó, khai phá dữ liệu đang được áp dụng khai phá dữ liệu của nhiều lĩnh v c để đáp ứng tính thường xuyên thay đổi, t ng trưởng của dữ liệu. Tìm kiếm những thông tin tiềm ẩn trong dữ liệu mà bằng phương pháp khác không phát hiện được [5].
- 6 1.4. Các kỹ thuật khai phá dữ liệu Các kĩ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính: - Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có. Các kĩ thuật này có thể liệt kê: phân cụm (clustering), tóm tắt (summerization), tr c quan hóa (visualization), phân tích s phá hiện biến đổi và đ lệch, phân tích luật kết hợp (association rules)...; - Kĩ thuật khai phá dữ liệu d đoán: có nhiệm vụ đưa ra các d đoán d a vào các suy diễn trên dữ liệu hiện thời. Các kĩ thuật này gồm có: phân lớp (classification), hồi quy (regression)...; Ba phương pháp thông dụng nhất trong khai phá dữ liệu là: phân cụm dữ liệu, phân lớp dữ liệu và khai phá luật kết hợp. Phân cụm dữ liệu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương t nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thu c cùng m t lớp là tương đồng còn các đối tượng thu c các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là m t ví dụ của phương pháp học không có thầy. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải đ nh nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là m t cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example). Trong phương pháp này bạn sẽ không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình. Vì vậy, thông thường cần có m t chuyên gia về lĩnh v c đó để đánh giá các cụm thu được. Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn th trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như m t bước tiền xử lí cho các thuật toán khai phá dữ liệu khác. Khai phá luật kết hợp: Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá tr dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được. Chẳng hạn: phân tích cơ sở dữ liệu bán hàng nhận được thông tin về những khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau: “Máy tính => Phần mềm quản lý tài chính” [Đ hỗ trợ: 2%, đ tin cậy: 60%] Đ hỗ trợ và đ tin cậy là hai đ đo của s đáng quan tâm của luật. Chúng tương ứng phản ánh s hữu ích và s chắc chắn của luật đã khám phá. Đ hỗ trợ 2% có nghĩa là 2% của tất cả các tác vụ đã phân tích ch ra rằng máy tính và phần mềm quản lý tài chính là đã được mua cùng nhau. Còn đ tin cậy 60% có nghĩa là 60% các khách hàng mua máy tính cũng mua phần mềm. Khai phá luật kết hợp được th c hiện qua 2 bước: • Bước 1: tìm tất cả các tập mục phổ biến, m t tập mục phổ biến được xác đ nh
- 7 qua tính đ hỗ trợ và thỏa mãn đ hỗ trợ c c tiểu. • Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn đ hỗ trợ c c tiểu và đ tin cậy c c tiểu. Phương pháp này được sử dụng rất hiệu quả trong các lĩnh v c như marketing có chủ đích, phân tích quyết đ nh, quản lí kinh doanh, phân tích giỏ th trường… Hồi quy: là học m t hàm ánh xạ dữ liệu nhằm xác đ nh giá tr th c của m t biến. Tình huống ứng dụng hồi quy rất đa dạng, chẳng hạn như d đoán số lượng sinh vật phát quang trong khu rừng nhờ đo vi sóng các cảm biến (senser) từ xa, hoặc ước lượng xác suất người bệnh có thể chết theo kết quả “test” triệu chứng, hoặc d báo nhu cầu người tiêu dùng đối với m t sản phẩm mới, hoặc d báo chuỗi thời gian mà các biến đầu vào được coi như bản trễ thời gian của biến d báo… Phân lớp dữ liệu: Mục tiêu của phương pháp phân lớp dữ liệu là d đoán nhãn lớp cho các mẫu dữ liệu. Quá trình phân lớp dữ liệu thường gồm 2 bước: xây d ng mô hình và sử dụng mô hình để phân lớp dữ liệu. • Bước 1: m t mô hình sẽ được xây d ng d a trên việc phân tích các mẫu dữ liệu sẵn có. Mỗi mẫu tương ứng với m t lớp, được quyết đ nh bởi m t thu c tính gọi là thu c tính lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện (training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác đ nh trước khi xây d ng mô hình, vì vậy phương pháp này còn được gọi là học có thầy (supervised learning) khác với phân cụm dữ liệu là học không có thầy (unsupervised learning). • Bước 2: sử dụng mô hình để phân lớp dữ liệu. Trước hết chúng ta phải tính đ chính xác của mô hình. Nếu đ chính xác là chấp nhận được, mô hình sẽ được sử dụng để d đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai. Phương pháp hồi qui khác với phân lớp dữ liệu ở chỗ, hồi qui dùng để d đoán về các giá tr liên tục còn phân lớp dữ liệu thì ch dùng để d đoán về các giá tr rời rạc [2]. 1.5. Tổng kết chƣơng 1 Chương này tập trung trình bày kiến thức chung nhất về khai phá dữ liệu, với mục đích ch đưa ra các n i dung cơ bản làm nền tảng cho các chương tiếp theo. Các n i dung được trình bày bao gồm khái niệm về khai phá dữ liệu, ưu thế khai phá dữ liệu, các kỹ thuật khai phá dữ liệu.
- 8 CHƢƠNG 2: NGÂN HÀNG THƢƠNG MẠI VÀ GIẢI PHÁP PHÂN LỚP CÁC NGÂN HÀNG THƢƠNG MẠI 2.1. Ngân hàng thƣơng mại và xếp loại ngân hàng thƣơng mại 2.1.1. Khái niệm ngân hàng thƣơng mại Ngân hàng là m t đ nh chế tài chính trung gian, với chức n ng huy đ ng vốn nhàn rỗi trong xã h i và dùng tiền huy đ ng được cho các cá nhân và tổ chức vay lại. Ngân hàng thương mại là ngân hàng được th c hiện toàn b hoạt đ ng ngân hàng và các hoạt đ ng kinh doanh khác có liên quan vì mục tiêu lợi nhuận theo quy đ nh của Luật Các tổ chức tín dụng và các quy đ nh khác của pháp luật. (Ngh đ nh số 59/2009/NĐ-CP của Chính phủ về tổ chức và hoạt đ ng của NHTM). Hệ thống ngân hàng thương mại Việt Nam bao gồm: - Ngân hàng thương mại Nhà nước là ngân hàng thương mại trong đó Nhà nước sở hữu trên 50% vốn điều lệ. Ngân hàng thương mại Nhà nước bao gồm ngân hàng thương mại do Nhà nước sở hữu 100% vốn điều lệ và ngân hàng thương mại cổ phần do Nhà nước sở hữu trên 50% vốn điều lệ. Hiện tại Việt Nam có 5 ngân hàng thương mại nhà nước bao gồm: Ngân hàng đầu tư và phát triển Việt Nam, Ngân hàng ngoại thương Việt Nam, Ngân hàng công thương Việt Nam, Ngân hàng nông nghiệp và phát triển nông thôn Việt Nam và Ngân hàng phát triển nhà Đồng bằng Sông Cửu Long. - Ngân hàng thương mại cổ phần là ngân hàng thương mại được tổ chức dưới hình thức công ty cổ phần. Hiện tại Việt Nam có 37 ngân hàng thương mại cổ phần đô th và 4 ngân hàng thương mại cổ phần nông thôn. - Ngân hàng thương mại 100% vốn nước ngoài là ngân hàng thương mại được thành lập tại Việt Nam với 100% vốn điều lệ thu c sở hữu nước ngoài; trong đó phải có m t ngân hàng nước ngoài sở hữu trên 50% vốn điều lệ (ngân hàng mẹ). Ngân hàng thương mại 100% vốn nước ngoài được thành lập dưới hình thức công ty trách nhiệm hữu hạn m t thành viên hoặc từ hai thành viên trở lên, là pháp nhân Việt Nam, có trụ sở chính tại Việt Nam. Hiện tại có 5 ngân hàng nước ngoài hoạt đ ng trên lãnh thổ Việt Nam. - Chi nhánh ngân hàng nước ngoài là ngân hàng thương mại được thành lập theo pháp luật của nước ngoài, được phép mở chi nhánh tại Việt Nam, hoạt đ ng theo pháp luật Việt Nam. Hiện tại có 46 chi nhánh ngân hàng nước ngoài hoạt đ ng trên lãnh thổ Việt Nam. - Ngân hàng thương mại liên doanh là ngân hàng thương mại được thành lập tại Việt Nam, bằng vốn góp của Bên Việt Nam (gồm m t hoặc nhiều ngân hàng Việt Nam) và Bên nước ngoài (gồm m t hoặc nhiều ngân hàng nước ngoài) trên cơ sở hợp đồng liên doanh. Ngân hàng thương mại liên doanh được thành lập dưới hình thức công
- 9 ty trách nhiệm hữu hạn từ hai thành viên trở lên, là pháp nhân Việt Nam, có trụ sở chính tại Việt Nam. Hiện tại có 5 ngân hàng liên doanh hoạt đ ng trên lãnh thổ Việt Nam. 2.1.2. Hệ thống chỉ tiêu và xếp loại đối với ngân hàng thƣơng mại Hiện nay, tại Bảo hiểm Tiền gửi Việt Nam, hàng tháng, cán b giám sát th c hiện giám sát các ngân hàng thương mại thông qua hệ thống các ch tiêu ứng với từng ngân hàng thương mại. 2.1.2.1. Hệ thống các chỉ tiêu giám sát Hệ thống ch tiêu giám sát gồm 32 ch tiêu, được phân nhóm như sau: 1) Nhóm chỉ tiêu khả năng về vốn (11 ch tiêu) Bảng 2. 1. Chỉ tiêu giám sát khả năng về vốn Mã chỉ Chỉ tiêu Ý nghĩa tiêu M98 Vốn t có / Tổng tài Để đảm bảo an toàn vốn mỗi ngân hàng phải duy trì sản có rủi ro. tỷ lệ này ≥ 8%. M99 Vốn cấp 1 / Tổng tài Để đảm bảo an toàn vốn mỗi ngân hàng phải duy trì sản có rủi ro tỷ lệ này ≥ 4%. M100 Tổng tài sản có / Đây là hệ số đòn bẩy tài chính nhằm đánh giá quy Vốn t có mô của vốn t có trong cơ cấu tài sản có để xác đ nh khả n ng chống đỡ rủi ro của vốn. M101 Tổng tài sản có / Vốn cấp 1 M102 Nguồn vốn huy Tỷ lệ này nhằm phản ánh quy mô của vốn huy đ ng đ ng / Tổng nguồn trong tổng nguồn vốn để đánh giá khả n ng huy vốn đ ng vốn của mỗi ngân hàng. Thông thường tỷ lệ này > 60%. M103 Vốn huy đ ng th Tỷ lệ này cho biết khả n ng huy đ ng vốn của mỗi trường I / Nguồn ngân hàng trên th trường dân cư và các tổ chức kinh vốn huy đ ng tế. Thông thường tỷ lệ này càng cao hơn so với vốn huy đ ng th trường II thì càng tốt vì chi phí cho huy đ ng vốn trên th trường I thấp hơn th trường II. M104 Vốn huy đ ng th Ch tiêu này phản ánh mức đ phụ thu c của mỗi trường II / Nguồn ngân hàng trên th trường liên ngân hàng. Tỷ lệ này vốn huy đ ng càng cao thì mức đ phụ thu c càng lớn. Thông thường tỷ lệ này < 40% là cơ cấu về vốn huy đ ng tương đối ổn đ nh.
- 10 Mã chỉ Chỉ tiêu Ý nghĩa tiêu M105 Tiền gửi tiết kiệm Tỷ lệ này phản ánh th phần của mỗi ngân hàng trên bằng VND / Nguồn th trường dân cư. Tỷ lệ này thường cao ở những vốn huy đ ng NHTM Việt Nam. M106 Tốc đ t ng trưởng Tỷ lệ này phản ánh khả n ng huy đ ng vốn của mỗi nguồn vốn huy đ ng ngân hàng so với các kỳ giám sát trước đó. M107 Tỷ lệ đầu tư mua Để đảm bảo nguyên tắc an toàn và phát triển vốn mỗi sắm tài sản cố đ nh ngân hàng cần duy trì tỷ lệ này ≤ 50%. M108 Giới hạn góp vốn Để đảm bảo an toàn trong hoạt đ ng mỗi ngân hàng mua cổ phần cần duy trì tỷ lệ này ≤ 40%. 2) Nhóm chỉ tiêu chất lƣợng tài sản có (6 ch tiêu) Bảng 2.2. Chỉ tiêu giám sát chất lượng tài sản có Mã Chỉ tiêu Giải thích chỉ tiêu M111 Nợ xấu / Tổng Tỷ lệ này phản ánh chất lượng tín dụng của mỗi ngân dư nợ hàng. Để phòng tránh rủi ro tín dụng các ngân hàng cần đảm bảo tỷ lệ này < 3%. M112 Nợ quá hạn / Tỷ lệ này phản ánh chất lượng tín dụng của mỗi ngân Tổng dư nợ hàng. Để phòng tránh rủi ro tín dụng các ngân hàng cần đảm bảo tỷ lệ này < 10%. M113 Nợ quá hạn / Ch tiêu này phản ánh số nợ quá hạn th c tế so với khả (Vốn cấp 1 + D n ng bù đắp của Vốn cấp 1 và d phòng rủi ro. Thông phòng rủi ro) thường ch tiêu này càng thấp càng tốt. Nếu ch tiêu này > 100% cho thấy nguy cơ rủi ro tín dụng cao vì vốn không đủ bù đắp các khoản nợ khó đòi. M114 Tỷ lệ tài sản có Ch tiêu này phản ánh khả n ng của mỗi ngân hàng sinh lời / Tổng trong việc sử dụng tài sản vào sinh lời. Nếu ch tiêu này tài sản có giảm thì có ảnh hưởng giảm lợi nhuận của ngân hàng. M115 Tốc đ t ng Ch tiêu này phản ánh khả n ng mở r ng tín dụng của trưởng tín dụng mỗi ngân hàng. Ch tiêu này phải đảm bảo theo mức quy đ nh về t ng trưởng tín dụng của NHNN trong từng thời kỳ.
- 11 Mã Chỉ tiêu Giải thích chỉ tiêu M116 Dư nợ theo Ch tiêu này phản ánh cơ cấu tín dụng từng ngành nghề ngành kinh tế / đặc trưng cho hoạt đ ng của mỗi ngân hàng. Dư nợ tín Tổng dư nợ dụng tập trung quá lớn vào m t ngành nghề nếu ngành đó có xu thế biến đ ng xấu thì mức đ rủi ro sẽ rất lớn. 3) Nhóm chỉ tiêu khả năng sinh lời (8 ch tiêu) Bảng 2.3. Chỉ tiêu giám sát khả năng sinh lời Mã Chỉ tiêu Giải thích chỉ tiêu M136 ROA Ch tiêu này phản ánh khả n ng tạo ra lợi nhuận = Lợi nhuận sau thuế / ròng của tài sản, tức phản ánh số lợi nhuận ròng Tổng tài sản có bình được tạo ra là bao nhiêu trên 1 đơn v tài sản Có. quân Thông thường ch tiêu này càng cao càng tốt. Theo tỷ lệ thống kê bình quân ch tiêu này dao đ ng ở mức 2%. Ch tiêu này < 0 cho thấy ngân hàng có kết quả kinh doanh lỗ. M137 ROE Ch tiêu này phản ánh khả n ng sinh lời của vốn = Lợi nhuận sau thuế / chủ sở hữu. Thông thường ch tiêu này càng cao Vốn chủ sở hữu bình càng tốt. Theo tỷ lệ thống kê bình quân ch tiêu quân. này dao đ ng ở mức 17%. Ch tiêu này < 0 cho thấy ngân hàng có kết quả kinh doanh lỗ. M138 Chi phí ngoài lãi / Ch tiêu này phản ánh hiệu quả trong việc quản lý (Thu nhập thuần về lãi chi phí ngoài lãi so với thu nhập của ngân hàng. + Thu nhập ngoài lãi) Thông thường ch tiêu này càng nhỏ càng tốt. M139 Thu nhập ngoài lãi / Ch tiêu này phản ánh khả n ng phát triển sản Tổng thu nhập phẩm d ch vụ của ngân hàng. M141 Biến đ ng về thu nhập Ch tiêu này phản ánh thu nhập thuần của ngân và chi phí (so với cùng hàng như thế nào so với cùng kỳ n m trước. Ch kỳ n m trước) tiêu này t ng là tốt. M142 Chi phí / Thu nhập Ch tiêu này phản ánh tỷ trọng của chi phí so với thu nhập. Thông thường ch tiêu này càng thấp càng tốt. Nếu ch tiêu này > 100% cho thấy ngân hàng có kết quả kinh doanh lỗ.
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ công nghệ thông tin: Ứng dụng mạng Nơron trong bài toán xác định lộ trình cho Robot
88 p | 701 | 147
-
Luận văn thạc sĩ Công nghệ Sinh học: Nghiên cứu mối quan hệ di truyền của một số giống ngô (Zea maysL.) bằng chỉ thị RAPD
89 p | 294 | 73
-
Luận văn thạc sĩ Công nghệ Sinh học: Nghiên cứu ảnh hưởng bổ sung tế bào và hormone lên sự phát triển của phôi lợn thụ tinh ống nghiệm
67 p | 277 | 50
-
Luận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tán
75 p | 58 | 9
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
72 p | 61 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp quản trị rủi ro hướng mục tiêu và thử nghiệm ứng dụng trong xây dựng cổng thông tin điện tử Bộ GTVT
75 p | 49 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Phát triển hệ thống quảng cáo thông minh trên mạng xã hội
76 p | 61 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa
94 p | 34 | 6
-
Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng Gis phục vụ công tác quản lý cầu tại TP. Hồ Chí Minh
96 p | 46 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
69 p | 45 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác tập mục lợi ích cao bảo toàn tính riêng tư
65 p | 45 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu được cập nhật
60 p | 46 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác mẫu tuần tự nén
59 p | 30 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
70 p | 38 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
74 p | 39 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác Top-rank K cho tập đánh trọng trên cơ sở dữ liệu có trọng số
64 p | 46 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng hệ truy vấn ngữ nghĩa đa cơ sở dữ liệu trong một lĩnh vực
85 p | 33 | 3
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và ứng dụng Hadoop để khai thác tập phổ biến
114 p | 46 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn