Luận văn Thạc sĩ Công nghệ thông tin: Khai phá dữ liệu trên nền Oracle và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ MINH LÝ

KHAI PHÁ DỮ LIỆU

TRÊN NỀN ORACLE VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2014

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ MINH LÝ

KHAI PHÁ DỮ LIỆU

TRÊN NỀN ORACLE VÀ ỨNG DỤNG

Ngành: Công nghệ Thông tin

Chuyên ngành: Hệ thống Thông tin

Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: GS.TS. VŨ ĐỨC THI

HÀ NỘI - 2014

LỜI CẢM ƠN

Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới GS.TS. Vũ Đức Thi, Viện Công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam. Thầy đã dành nhiều thời gian tận tình hướng dẫn, giúp đỡ tôi trong đ nh hướng và th c hiện n i dung luận v n.

Tôi xin chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện

thuận lợi trong suốt quá trình tôi học tập tại trường Đại học Công nghệ.

Tôi xin chân thành cảm ơn lãnh đạo cơ quan, bạn bè đồng nghiệp đã cung

cấp tài liệu và cho tôi những lời khuyên quý báu để th c hiện luận v n.

Tôi gửi lời cảm ơn tới các bạn trong lớp K16HTTT2 đã ủng h , khích lệ, giúp đỡ và luôn sát cánh bên tôi trong suốt quá trình học tập, rèn luyện tại trường.

Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn bè đã ở bên tôi những lúc khó kh n nhất, luôn đ ng viên tôi, khuyến khích tôi trong cu c sống cũng như học tập, công việc.

Tôi xin chân thành cảm ơn!

Hà Nội, tháng 6 năm 2014

Học viên

Nguyễn Th Minh Lý

LỜI CAM ĐOAN

Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, th c hiện dưới s

hướng dẫn của GS.TS. Vũ Đức Thi.

Các kết quả khai phá của đề tài đều được tiến hành khai phá và chưa từng

được ai công bố trong bất cứ công trình nào khác.

Hà Nội, tháng 6 năm 2014

Học viên

Nguyễn Th Minh Lý

MỤC LỤC

DANH SÁCH CÁC HÌNH VẼ

DANH SÁCH CÁC BẢNG

BẢNG CÁC KÝ HIỆU VIẾT TẮT

LỜI MỞ ĐẦU ................................................................................................................ 1

CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ........................................... 3

1.1. Khái niệm .............................................................................................................. 3

1.2. Ứng dụng của khai phá dữ liệu ............................................................................. 4

1.3. Ưu thế khai phá dữ liệu ......................................................................................... 5

1.4. Các kỹ thuật khai phá dữ liệu ............................................................................... 6

1.5. Tổng kết chương 1 ................................................................................................ 7

CHƢƠNG 2: NGÂN HÀNG THƢƠNG MẠI VÀ GIẢI PHÁP PHÂN LỚP CÁC NGÂN HÀNG THƢƠNG MẠI .................................................................................... 8

2.1. Ngân hàng thương mại và xếp loại ngân hàng thương mại .................................. 8

2.1.1. Khái niệm ngân hàng thương mại .................................................................. 8

2.1.2. Hệ thống ch tiêu và xếp loại đối với ngân hàng thương mại ........................ 9

2.2. Nghiên cứu giải pháp phân lớp các ngân hàng thương mại ............................... 14

2.2.1. Bài toán phân lớp và m t số thuật toán phân lớp điển hình ......................... 14

2.2.1.1 Thuật toán phân lớp Bayes ..................................................................... 15

2.2.1.2 Thuật toán phân lớp SVM ...................................................................... 20

2.2.1.3 Thuật toán phân lớp cây quyết đ nh ....................................................... 24

2.2.2. Đánh giá hiệu quả phân lớp ......................................................................... 26

2.3. Đề xuất mô hình phân lớp các ngân hàng thương mại ....................................... 28

2.3.1. Phát biểu bài toán phân lớp các ngân hàng thương mại .............................. 28

2.3.2. Đề xuất mô hình phân lớp các ngân hàng thương mại................................. 28

2.4. Tổng kết chương 2 .............................................................................................. 35

CHƢƠNG 3: CÔNG NGHỆ KHAI PHÁ DỮ LIỆU ORACLE ............................. 36

3.1. Lý do sử dụng công nghệ khai phá dữ liệu của Oracle ...................................... 36

3.2. Quy trình khai phá dữ liệu sử dụng Oracle Data Miner ..................................... 37

3.3. Tổng kết chương 3 .............................................................................................. 47

CHƢƠNG 4: THỰC NGHIỆM PHÂN LỚP CÁC NGÂN HÀNG THƢƠNG MẠI ... 48

4.1. Môi trường th c nghiệm ..................................................................................... 48

4.1.1 Cấu hình phần cứng, hệ điều hành ................................................................ 48

4.1.2 Công cụ phần mềm........................................................................................ 48

4.1.3 Cài đặt và kết nối phần mềm ......................................................................... 48

4.2. Dữ liệu th c nghiệm ........................................................................................... 49

4.3. Kết quả th c nghiệm ........................................................................................... 52

4.3.1 Kết quả th c nghiệm đối với thuật toán phân lớp Naive Bayes ................... 52

4.3.2 Kết quả th c nghiệm đối với thuật toán phân lớp SVM ............................... 53

4.3.3 Kết quả th c nghiệm đối với thuật toán phân lớp cây quyết đ nh ................ 54

4.4. Đánh giá kết quả đạt được .................................................................................. 55

4.5. Tổng kết chương 4 .............................................................................................. 55

KẾT LUẬN ................................................................................................................... 56

TÀI LIỆU THAM KHẢO

DANH SÁCH CÁC HÌNH VẼ

Hình 1.1. Quá trình khám phá tri thức trong cơ sở dữ liệu ............................................ 4

Hình 2.1. Biểu diễn của mặt phẳng siêu phẳng của SVM ............................................ 21

Hình 2.2. Mô hình phân lớp đề xuất .............................................................................. 28

Hình 2.3. Bảng chỉ tiêu của ngân hàng thương mại ..................................................... 29

Hình 2.4. Bảng các chỉ tiêu của ngân hàng thương mại đã trích chọn ........................ 29

Hình 2.5. Bảng chỉ tiêu sử dụng để phân lớp các ngân hàng thương mại .................... 30

Hình 3.1. Màn hình ODM - chọn chức năng xây dựng mô hình khai phá dữ liệu ........ 38

Hình 3.2. Màn hình ODM - chọn chức năng, giải thuật khai phá dữ liệu .................... 38

Hình 3.3. Màn hình ODM - chọn bảng dữ liệu học cho khai phá dữ liệu .................... 39

Hình 3.4. Màn hình ODM - chọn thuộc tính đích trong bảng dữ liệu học ................... 39

Hình 3.5. Màn hình ODM - nhập tên cho mô hình khai phá dữ liệu ............................ 40

Hình 3.6. Màn hình ODM – kết quả xây dựng mô hình khai phá dữ liệu ..................... 40

Hình 3.7. Màn hình ODM – chọn chức năng kiểm thử mô hình khai phá dữ liệu ....... 41

Hình 3.8. Màn hình ODM – chọn mô hình khai phá dữ liệu cần kiểm thử ................... 41

Hình 3.9. Màn hình ODM – chọn bảng dữ liệu kiểm thử .............................................. 42

Hình 3.10. Màn hình ODM – kết quả kiểm thử ............................................................. 42

Hình 3.11. Màn hình ODM – độ tin cậy của mô hình khai phá dữ liệu ........................ 43

Hình 3.12. Màn hình ODM – độ chính xác của mô hình khai phá dữ liệu ................... 43

Hình 3.13. Màn hình ODM – chọn chức năng áp dụng mô hình khai phá dữ liệu ....... 44

Hình 3.14. Màn hình ODM – chọn mô hình khai phá dữ liệu cần áp dụng .................. 44

Hình 3.15. Màn hình ODM – chọn bảng dữ liệu cần khai phá ..................................... 45

Hình 3.16. Màn hình ODM – chọn thuộc tính đầu vào cho khai phá ........................... 45

Hình 3.17. Màn hình ODM – nhập tên cho hoạt động khai phá ................................... 46

Hình 3.18. Màn hình ODM – kết quả áp dụng mô hình khai phá dữ liệu ..................... 46

Hình 3.19. Màn hình ODM – kết quả khai phá dữ liệu ................................................. 47

Hình 4.1. Định nghĩa một kết nối Oracle Data Miner với cơ sở dữ liệu ...................... 49

DANH SÁCH CÁC BẢNG

Bảng 2. 1. Chỉ tiêu giám sát khả năng về vốn ................................................................. 9

Bảng 2.2. Chỉ tiêu giám sát chất lượng tài sản có ........................................................ 10

Bảng 2.3. Chỉ tiêu giám sát khả năng sinh lời .............................................................. 11

Bảng 2.4. Chỉ tiêu giám sát khả năng thanh khoản ...................................................... 12

Bảng 2.5. Chỉ tiêu giám sát rủi ro khác ........................................................................ 13

Bảng 2.6. Xếp loại các ngân hàng thương mại ............................................................. 13

Bảng 2.7. Ví dụ dữ liệu chỉ tiêu giám sát ...................................................................... 17

Bảng 2.8. Ví dụ dữ liệu chỉ tiêu giám sát quy đổi ......................................................... 18

Bảng 2.9. Ví dụ tính xác suất các thuộc tính ................................................................. 19

Bảng 2.10. Bảng ký hiệu ................................................................................................ 26

Bảng 2.11. Ví dụ tập vectơ đặc trưng thứ nhất ............................................................. 31

Bảng 2.12. Ví dụ tập vectơ đặc trưng thứ hai ............................................................... 32

Bảng 2.13. Ví dụ dữ liệu gốc cần phân lớp ................................................................... 33

Bảng 2.14. Ví dụ kết quả phân lớp với dữ liệu gốc ....................................................... 33

Bảng 2.15. Ví dụ dữ liệu quy đổi cần phân lớp ............................................................. 34

Bảng 2.16. Ví dụ kết quả phân lớp với dữ liệu quy đổi ................................................. 34

Bảng 3.1. Các chức năng khai phá dữ liệu dự đoán trong Oracle ............................... 36

Bảng 3.2. Các chức năng khai phá dữ liệu mô tả trong Oracle ................................... 37

Bảng 4.1. Cấu hình phần cứng, hệ điều hành ............................................................... 48

Bảng 4.2. Danh sách các phần mềm sử dụng................................................................ 48

Bảng 4.3. Các chỉ tiêu xếp loại ngân hàng thương mại ................................................ 49

Bảng 4.4. Tiêu chí quy đổi điểm .................................................................................... 50

Bảng 4.5. Phân bố dữ liệu huấn luyện .......................................................................... 51

Bảng 4.6. Phân bố dữ liệu kiểm thử .............................................................................. 51

Bảng 4.7. Kết quả thực nghiệm phân lớp Naive Bayes với dữ liệu gốc ........................ 52

Bảng 4.8. Kết quả thực nghiệm phân lớp Naive Bayes với dữ liệu quy đổi .................. 52

Bảng 4.9. Kết quả thực nghiệm phân lớp SVM với dữ liệu gốc .................................... 53

Bảng 4.10. Kết quả thực nghiệm phân lớp SVM với dữ liệu quy đổi ............................ 53

Bảng 4.11. Kết quả thực nghiệm phân lớp cây quyết định với dữ liệu gốc................... 54

Bảng 4.12. Kết quả thực nghiệm phân lớp cây quyết định với dữ liệu quy đổi ............ 54

BẢNG CÁC KÝ HIỆU VIẾT TẮT

Từ hoặc cụm từ Kí hiệu viết tắt

Oracle data miner ODM

One-against-Rest OAR

One-against-One OAO

Support vector machine SVM

LỜI MỞ ĐẦU

Ngày nay, tại các đơn v , tổ chức có áp dụng công nghệ thông tin vào quản lý, các ứng dụng mới dừng lại ở mức đ là ứng dụng tác nghiệp thông thường với chức n ng hỗ trợ đưa thông tin vào và kết xuất ra các báo cáo đầu ra. Những ứng dụng hỗ trợ cao cho phân tích, hỗ trợ ra quyết đ nh chưa nhiều. Tuy nhiên với xu hướng phát triển hiện tại, chắc chắn sẽ rất cần đến những ứng dụng khai phá tri thức tiềm ẩn trong cơ sở dữ liệu.

Bảo hiểm tiền gửi Việt Nam là tổ chức tài chính Nhà nước với nhiệm vụ bảo vệ quyền và lợi ích hợp pháp của người gửi tiền, góp phần duy trì s ổn đ nh của các tổ chức tham gia Bảo hiểm tiền gửi và s phát triển an toàn lành mạnh hoạt đ ng ngân hàng. Với nhiệm vụ được giao, m t trong những công tác chính của Bảo hiểm tiền gửi Việt Nam là giám sát các tổ chức tham gia Bảo hiểm tiền gửi (đánh giá rủi ro, xếp loại tổ chức tham gia Bảo hiểm tiền gửi,…).

Áp dụng công nghệ tin học vào công tác giám sát các tổ chức tham gia Bảo hiểm tiền gửi ngay từ những n m đầu thành lập Bảo hiểm Tiền gửi Việt Nam, đến nay Bảo hiểm tiền gửi Việt Nam đã xây d ng được hệ thống công nghệ thông tin đáp ứng được nhiệm vụ giám sát các tổ chức tham gia Bảo hiểm tiền gửi. Tuy nhiên, cơ sở dữ liệu Bảo hiểm tiền gửi Việt Nam mới ch được sử dụng để phục vụ các tác nghiệp hằng ngày, các báo cáo, thống kê.

Tại Bảo hiểm tiền gửi Việt Nam, các ứng dụng hiện tại mới dừng ở mức đưa ra báo cáo liệt kê các ch tiêu của tổ chức tham gia Bảo hiểm tiền gửi và cán b giám sát của Bảo hiểm tiền gửi c n cứ vào các báo cáo đó để phân tích, đánh giá các tổ chức tham gia Bảo hiểm tiền gửi (phân tích các ch tiêu m t cách riêng lẻ). Với số lượng tổ chức tham gia Bảo hiểm tiền gửi ngày càng t ng, việc xem xét từng trường hợp, từng số liệu cụ thể của mỗi tổ chức tham gia Bảo hiểm tiền gửi trở nên khó kh n và như vậy rất cần công cụ hỗ trợ. Mong muốn của cán b giám sát là có được ứng dụng t đ ng phân tích d a trên nhiều ch tiêu và khi đưa số liệu về các ch tiêu của m t tổ chức tham gia Bảo hiểm tiền gửi vào sẽ có câu trả lời về xếp loại của tổ chức này.

Hiện tại, Bảo hiểm tiền gửi Việt Nam đang th c hiện đấu thầu để triển khai d án hệ thống thông tin quản lý và hiện đại hóa ngân hàng - Hợp phần Bảo hiểm tiền gửi Việt Nam. M t trong những yêu cầu trong phân hệ Giám sát rủi ro của hệ thống này là hệ thống phải cho phép tiến hành khai thác dữ liệu, hệ thống phải cung cấp các công cụ hỗ trợ các hoạt đ ng: đánh giá rủi ro, xếp loại tổ chức tham gia Bảo hiểm tiền gửi.

Với những tìm hiểu trên, cho thấy có thể áp dụng khai phá dữ liệu với cơ sở dữ liệu của Bảo hiểm tiền gửi Việt Nam để đáp ứng những mong muốn của cán b giám sát, từ đó nâng cao hiệu quả của công tác giám sát, đánh giá, xếp loại các tổ chức tham gia Bảo hiểm tiền gửi.

Xuất phát từ th c tế trên, học viên chọn đề tài “Khai phá dữ liệu trên nền ORACLE và ứng dụng” để làm đề tài cho luận v n tốt nghiệp, cùng với mong muốn góp phần trợ giúp công tác giám sát các tổ chức tham gia Bảo hiểm tiền gửi của Bảo hiểm tiền gửi Việt Nam.

Trong khuôn khổ của luận v n, ch tập trung khai phá dữ liệu giám sát các

ngân hàng thương mại của Bảo hiểm tiền gửi Việt Nam.

Cụ thể, luận v n hướng vào nghiên cứu những mục tiêu chính sau:

- Thứ nhất, nghiên cứu lý thuyết về khai phá dữ liệu.

- Thứ hai, nghiên cứu giải pháp phân lớp các ngân hàng thương mại.

- Thứ ba, tìm hiểu công nghệ khai phá dữ liệu trên nền Oracle.

- Thứ tư, th c nghiệm khai phá dữ liệu sử dụng công cụ khai phá dữ liệu

của Oracle.

CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1. Khái niệm

Khai phá dữ liệu được đ nh nghĩa là: quá trình trích xuất các thông tin có giá tr tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng m t số thuật ngữ khác có ý nghĩa tương t như: khai phá tri thức từ cơ sở dữ liệu (knowlegde mining from databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging). Nhiều người coi khai phá dữ liệu và m t thuật ngữ thông dụng khác là khám phá tri thức trong cơ sở dữ liệu (Knowlegde Discovery in Databases) là như nhau. Tuy nhiên trên th c tế, khai phá dữ liệu ch là m t bước thiết yếu trong quá trình khám phá tri thức trong cơ sở dữ liệu. Quá trình này bao gồm các bước sau:

- Bước 1) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu

không thích hợp;

- Bước 2) Tích hợp dữ liệu (data integration): tích hợp dữ liệu từ các

nguồn khác nhau như: Cơ sở dữ liệu, Kho dữ liệu, file text...;

- Bước 3) Chọn dữ liệu (data selection): ở bước này, những dữ liệu liên quan

tr c tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu;

- Bước 4) Chuyển đổi dữ liệu (data transformation): trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách th c hiện các thao tác nhóm hoặc tập hợp;

- Bước 5) Khai phá dữ liệu (data mining): là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu;

- Bước 6) Đánh giá mẫu (pattern evaluation): đánh giá s hữu ích của các

mẫu biểu diễn tri thức d a vào m t số phép đo;

- Bước 7) Trình diễn dữ liệu (knowlegde presentation): sử dụng các kĩ thuật trình diễn và tr c quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng.

Hình 1.1. Quá trình khám phá tri thức trong cơ sở dữ liệu

Khai phá dữ liệu và phát hiện tri thức trong các cơ sở dữ liệu đã cuốn hút các phương pháp, thuật toán và kỹ thuật từ nhiều chuyên ngành nghiên cứu khác nhau như học máy, thu nhận mẫu, cơ sở dữ liệu, thống kê, trí tuệ nhân tạo, thu nhận tri thức trong hệ chuyên gia…cùng hướng tới mục tiêu thống nhất là trích lọc ra được các tri thức từ dữ liệu trong các cơ sở dữ liệu khổng lồ. Song so với các phương pháp khác, khai phá dữ liệu có m t số ưu thế rõ rệt [5].

1.2. Ứng dụng của khai phá dữ liệu

Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh v c: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song và tốc đ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu... Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh v c thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật ...

Khai phá dữ liệu có nhiều ứng dụng trong th c tế, ví dụ như:

+ Bảo hiểm, tài chính và th trường chứng khoán: phân tích tình hình tài chính và d báo giá của các loại cổ phiếu trong th trường chứng khoán. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, ...

+ Thống kê, phân tích dữ liệu và hỗ trợ ra quyết đ nh.

+ Điều tr y học và ch m sóc y tế: m t số thông tin về chuẩn đoán bệnh lưu trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán và phương pháp điều tr (chế đ dinh dưỡng, thuốc, ...)

+ Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý s cố.

+ Text mining và Web mining: Phân lớp v n bản và các trang Web, tóm tắt

v n bản,...

+ Lĩnh v c khoa học: Quan sát thiên v n, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và m t số bệnh di truyền, ...

+ Mạng viễn thông: Phân tích các cu c gọi điện thoại và hệ thống giám sát lỗi,

s cố, chất lượng d ch vụ, ...[5].

1.3. Ƣu thế khai phá dữ liệu

Khai phá dữ liệu có nhiều ứng dụng và m t số ưu thế rõ rệt được xem xét

dưới đây:

+ So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các cơ sở dữ liệu chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục. Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các cơ sở dữ liệu đầy đủ, ít biến đ ng và tập dữ liệu không quá lớn;

+ Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn nhiều so với các dữ liệu trong cơ sở dữ liệu, và chúng thường ch bao hàm được các trường hợp quan trọng. Hơn nữa các chuyên gia sẽ xác nhận giá tr và tính hữu ích của các mẫu phát hiện được;

+ Phương pháp thống kê là m t trong những nền tảng lí thuyết của Khai phá dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống kê còn tồn tại m t số điểm yếu mà Khai phá dữ liệu đã khắc phục được:

- Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có

cấu trúc trong rất nhiều cơ sở dữ liệu;

- Các phương pháp thống kê hoạt đ ng hoàn toàn theo dữ liệu, nó

không sử dụng tri thức sẵn có về lĩnh v c;

- Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ

được;

- Phương pháp thống kê cần có s hướng dẫn của người dùng để xác đ nh

phân tích dữ liệu như thế nào và ở đâu.

Với những ưu điểm đó, khai phá dữ liệu đang được áp dụng khai phá dữ liệu của nhiều lĩnh v c để đáp ứng tính thường xuyên thay đổi, t ng trưởng của dữ liệu. Tìm kiếm những thông tin tiềm ẩn trong dữ liệu mà bằng phương pháp khác không phát hiện được [5].

1.4. Các kỹ thuật khai phá dữ liệu

Các kĩ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:

- Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có. Các kĩ thuật này có thể liệt kê: phân cụm (clustering), tóm tắt (summerization), tr c quan hóa (visualization), phân tích s phá hiện biến đổi và đ lệch, phân tích luật kết hợp (association rules)...;

- Kĩ thuật khai phá dữ liệu d đoán: có nhiệm vụ đưa ra các d đoán d a vào các suy diễn trên dữ liệu hiện thời. Các kĩ thuật này gồm có: phân lớp (classification), hồi quy (regression)...;

Ba phương pháp thông dụng nhất trong khai phá dữ liệu là: phân cụm dữ liệu,

phân lớp dữ liệu và khai phá luật kết hợp.

Phân cụm dữ liệu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương t nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thu c cùng m t lớp là tương đồng còn các đối tượng thu c các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là m t ví dụ của phương pháp học không có thầy. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải đ nh nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là m t cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example). Trong phương pháp này bạn sẽ không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình. Vì vậy, thông thường cần có m t chuyên gia về lĩnh v c đó để đánh giá các cụm thu được. Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn th trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như m t bước tiền xử lí cho các thuật toán khai phá dữ liệu khác.

Khai phá luật kết hợp: Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá tr dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được. Chẳng hạn: phân tích cơ sở dữ liệu bán hàng nhận được thông tin về những khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau:

“Máy tính => Phần mềm quản lý tài chính”

[Đ hỗ trợ: 2%, đ tin cậy: 60%]

Đ hỗ trợ và đ tin cậy là hai đ đo của s đáng quan tâm của luật. Chúng tương ứng phản ánh s hữu ích và s chắc chắn của luật đã khám phá. Đ hỗ trợ 2% có nghĩa là 2% của tất cả các tác vụ đã phân tích ch ra rằng máy tính và phần mềm quản lý tài chính là đã được mua cùng nhau. Còn đ tin cậy 60% có nghĩa là 60% các khách hàng mua máy tính cũng mua phần mềm. Khai phá luật kết hợp được th c hiện qua 2 bước:

• Bước 1: tìm tất cả các tập mục phổ biến, m t tập mục phổ biến được xác đ nh

qua tính đ hỗ trợ và thỏa mãn đ hỗ trợ c c tiểu.

• Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa

mãn đ hỗ trợ c c tiểu và đ tin cậy c c tiểu.

Phương pháp này được sử dụng rất hiệu quả trong các lĩnh v c như marketing có chủ đích, phân tích quyết đ nh, quản lí kinh doanh, phân tích giỏ th trường…

Hồi quy: là học m t hàm ánh xạ dữ liệu nhằm xác đ nh giá tr th c của m t biến. Tình huống ứng dụng hồi quy rất đa dạng, chẳng hạn như d đoán số lượng sinh vật phát quang trong khu rừng nhờ đo vi sóng các cảm biến (senser) từ xa, hoặc ước lượng xác suất người bệnh có thể chết theo kết quả “test” triệu chứng, hoặc d báo nhu cầu người tiêu dùng đối với m t sản phẩm mới, hoặc d báo chuỗi thời gian mà các biến đầu vào được coi như bản trễ thời gian của biến d báo…

Phân lớp dữ liệu: Mục tiêu của phương pháp phân lớp dữ liệu là d đoán nhãn lớp cho các mẫu dữ liệu. Quá trình phân lớp dữ liệu thường gồm 2 bước: xây d ng mô hình và sử dụng mô hình để phân lớp dữ liệu.

• Bước 1: m t mô hình sẽ được xây d ng d a trên việc phân tích các mẫu dữ liệu sẵn có. Mỗi mẫu tương ứng với m t lớp, được quyết đ nh bởi m t thu c tính gọi là thu c tính lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện (training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác đ nh trước khi xây d ng mô hình, vì vậy phương pháp này còn được gọi là học có thầy (supervised learning) khác với phân cụm dữ liệu là học không có thầy (unsupervised learning).

• Bước 2: sử dụng mô hình để phân lớp dữ liệu. Trước hết chúng ta phải tính đ chính xác của mô hình. Nếu đ chính xác là chấp nhận được, mô hình sẽ được sử dụng để d đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai.

Phương pháp hồi qui khác với phân lớp dữ liệu ở chỗ, hồi qui dùng để d đoán về các giá tr liên tục còn phân lớp dữ liệu thì ch dùng để d đoán về các giá tr rời rạc [2].

1.5. Tổng kết chƣơng 1

Chương này tập trung trình bày kiến thức chung nhất về khai phá dữ liệu, với mục đích ch đưa ra các n i dung cơ bản làm nền tảng cho các chương tiếp theo. Các n i dung được trình bày bao gồm khái niệm về khai phá dữ liệu, ưu thế khai phá dữ liệu, các kỹ thuật khai phá dữ liệu.

CHƢƠNG 2: NGÂN HÀNG THƢƠNG MẠI VÀ GIẢI PHÁP PHÂN LỚP CÁC NGÂN HÀNG THƢƠNG MẠI

2.1. Ngân hàng thƣơng mại và xếp loại ngân hàng thƣơng mại

2.1.1. Khái niệm ngân hàng thƣơng mại

Ngân hàng là m t đ nh chế tài chính trung gian, với chức n ng huy đ ng vốn

nhàn rỗi trong xã h i và dùng tiền huy đ ng được cho các cá nhân và tổ chức vay lại.

Ngân hàng thương mại là ngân hàng được th c hiện toàn b hoạt đ ng ngân hàng và các hoạt đ ng kinh doanh khác có liên quan vì mục tiêu lợi nhuận theo quy đ nh của Luật Các tổ chức tín dụng và các quy đ nh khác của pháp luật. (Ngh đ nh số 59/2009/NĐ-CP của Chính phủ về tổ chức và hoạt đ ng của NHTM).

Hệ thống ngân hàng thương mại Việt Nam bao gồm:

- Ngân hàng thương mại Nhà nước là ngân hàng thương mại trong đó Nhà nước sở hữu trên 50% vốn điều lệ. Ngân hàng thương mại Nhà nước bao gồm ngân hàng thương mại do Nhà nước sở hữu 100% vốn điều lệ và ngân hàng thương mại cổ phần do Nhà nước sở hữu trên 50% vốn điều lệ. Hiện tại Việt Nam có 5 ngân hàng thương mại nhà nước bao gồm: Ngân hàng đầu tư và phát triển Việt Nam, Ngân hàng ngoại thương Việt Nam, Ngân hàng công thương Việt Nam, Ngân hàng nông nghiệp và phát triển nông thôn Việt Nam và Ngân hàng phát triển nhà Đồng bằng Sông Cửu Long.

- Ngân hàng thương mại cổ phần là ngân hàng thương mại được tổ chức dưới hình thức công ty cổ phần. Hiện tại Việt Nam có 37 ngân hàng thương mại cổ phần đô th và 4 ngân hàng thương mại cổ phần nông thôn.

- Ngân hàng thương mại 100% vốn nước ngoài là ngân hàng thương mại được thành lập tại Việt Nam với 100% vốn điều lệ thu c sở hữu nước ngoài; trong đó phải có m t ngân hàng nước ngoài sở hữu trên 50% vốn điều lệ (ngân hàng mẹ). Ngân hàng thương mại 100% vốn nước ngoài được thành lập dưới hình thức công ty trách nhiệm hữu hạn m t thành viên hoặc từ hai thành viên trở lên, là pháp nhân Việt Nam, có trụ sở chính tại Việt Nam. Hiện tại có 5 ngân hàng nước ngoài hoạt đ ng trên lãnh thổ Việt Nam.

- Chi nhánh ngân hàng nước ngoài là ngân hàng thương mại được thành lập theo pháp luật của nước ngoài, được phép mở chi nhánh tại Việt Nam, hoạt đ ng theo pháp luật Việt Nam. Hiện tại có 46 chi nhánh ngân hàng nước ngoài hoạt đ ng trên lãnh thổ Việt Nam.

- Ngân hàng thương mại liên doanh là ngân hàng thương mại được thành lập tại Việt Nam, bằng vốn góp của Bên Việt Nam (gồm m t hoặc nhiều ngân hàng Việt Nam) và Bên nước ngoài (gồm m t hoặc nhiều ngân hàng nước ngoài) trên cơ sở hợp đồng liên doanh. Ngân hàng thương mại liên doanh được thành lập dưới hình thức công

ty trách nhiệm hữu hạn từ hai thành viên trở lên, là pháp nhân Việt Nam, có trụ sở chính tại Việt Nam. Hiện tại có 5 ngân hàng liên doanh hoạt đ ng trên lãnh thổ Việt Nam.

2.1.2. Hệ thống chỉ tiêu và xếp loại đối với ngân hàng thƣơng mại

Hiện nay, tại Bảo hiểm Tiền gửi Việt Nam, hàng tháng, cán b giám sát th c hiện giám sát các ngân hàng thương mại thông qua hệ thống các ch tiêu ứng với từng ngân hàng thương mại.

2.1.2.1. Hệ thống các chỉ tiêu giám sát

Hệ thống ch tiêu giám sát gồm 32 ch tiêu, được phân nhóm như sau:

1) Nhóm chỉ tiêu khả năng về vốn (11 ch tiêu)

Bảng 2. 1. Chỉ tiêu giám sát khả năng về vốn

Chỉ tiêu Ý nghĩa

Mã chỉ tiêu

M98 Vốn t có / Tổng tài sản có rủi ro. Để đảm bảo an toàn vốn mỗi ngân hàng phải duy trì tỷ lệ này ≥ 8%.

M99 Vốn cấp 1 / Tổng tài sản có rủi ro Để đảm bảo an toàn vốn mỗi ngân hàng phải duy trì tỷ lệ này ≥ 4%.

M100 Tổng tài sản có /

Vốn t có

Đây là hệ số đòn bẩy tài chính nhằm đánh giá quy mô của vốn t có trong cơ cấu tài sản có để xác đ nh khả n ng chống đỡ rủi ro của vốn. M101 Tổng tài sản có /

Vốn cấp 1

M102 Nguồn vốn

huy đ ng / Tổng nguồn vốn

Tỷ lệ này nhằm phản ánh quy mô của vốn huy đ ng trong tổng nguồn vốn để đánh giá khả n ng huy đ ng vốn của mỗi ngân hàng. Thông thường tỷ lệ này > 60%.

M103 Vốn huy đ ng th / Nguồn

trường I vốn huy đ ng

Tỷ lệ này cho biết khả n ng huy đ ng vốn của mỗi ngân hàng trên th trường dân cư và các tổ chức kinh tế. Thông thường tỷ lệ này càng cao hơn so với vốn huy đ ng th trường II thì càng tốt vì chi phí cho huy đ ng vốn trên th trường I thấp hơn th trường II.

M104 Vốn huy đ ng th trường II / Nguồn vốn huy đ ng

Ch tiêu này phản ánh mức đ phụ thu c của mỗi ngân hàng trên th trường liên ngân hàng. Tỷ lệ này càng cao thì mức đ phụ thu c càng lớn. Thông thường tỷ lệ này < 40% là cơ cấu về vốn huy đ ng tương đối ổn đ nh.

Chỉ tiêu Ý nghĩa

Mã chỉ tiêu

M105 Tiền gửi tiết kiệm bằng VND / Nguồn vốn huy đ ng Tỷ lệ này phản ánh th phần của mỗi ngân hàng trên th trường dân cư. Tỷ lệ này thường cao ở những NHTM Việt Nam.

M106 Tốc đ t ng trưởng nguồn vốn huy đ ng Tỷ lệ này phản ánh khả n ng huy đ ng vốn của mỗi ngân hàng so với các kỳ giám sát trước đó.

M107 Tỷ lệ đầu tư mua

sắm tài sản cố đ nh Để đảm bảo nguyên tắc an toàn và phát triển vốn mỗi ngân hàng cần duy trì tỷ lệ này ≤ 50%.

M108 Giới hạn góp vốn mua cổ phần Để đảm bảo an toàn trong hoạt đ ng mỗi ngân hàng cần duy trì tỷ lệ này ≤ 40%.

2) Nhóm chỉ tiêu chất lƣợng tài sản có (6 ch tiêu)

Bảng 2.2. Chỉ tiêu giám sát chất lượng tài sản có

Chỉ tiêu Giải thích

Mã chỉ tiêu

M111 Nợ xấu / Tổng

dư nợ

Tỷ lệ này phản ánh chất lượng tín dụng của mỗi ngân hàng. Để phòng tránh rủi ro tín dụng các ngân hàng cần đảm bảo tỷ lệ này < 3%.

M112 Nợ quá hạn /

Tổng dư nợ

Tỷ lệ này phản ánh chất lượng tín dụng của mỗi ngân hàng. Để phòng tránh rủi ro tín dụng các ngân hàng cần đảm bảo tỷ lệ này < 10%.

M113 Nợ quá hạn

/ (Vốn cấp 1 + D phòng rủi ro)

Ch tiêu này phản ánh số nợ quá hạn th c tế so với khả n ng bù đắp của Vốn cấp 1 và d phòng rủi ro. Thông thường ch tiêu này càng thấp càng tốt. Nếu ch tiêu này > 100% cho thấy nguy cơ rủi ro tín dụng cao vì vốn không đủ bù đắp các khoản nợ khó đòi.

M114 Tỷ lệ tài sản có sinh lời / Tổng tài sản có Ch tiêu này phản ánh khả n ng của mỗi ngân hàng trong việc sử dụng tài sản vào sinh lời. Nếu ch tiêu này giảm thì có ảnh hưởng giảm lợi nhuận của ngân hàng.

M115 Tốc t ng

đ trưởng tín dụng

Ch tiêu này phản ánh khả n ng mở r ng tín dụng của mỗi ngân hàng. Ch tiêu này phải đảm bảo theo mức quy đ nh về t ng trưởng tín dụng của NHNN trong từng thời kỳ.

Chỉ tiêu Giải thích

Mã chỉ tiêu

M116 Dư

theo nợ ngành kinh tế / Tổng dư nợ

Ch tiêu này phản ánh cơ cấu tín dụng từng ngành nghề đặc trưng cho hoạt đ ng của mỗi ngân hàng. Dư nợ tín dụng tập trung quá lớn vào m t ngành nghề nếu ngành đó có xu thế biến đ ng xấu thì mức đ rủi ro sẽ rất lớn.

3) Nhóm chỉ tiêu khả năng sinh lời (8 ch tiêu)

Bảng 2.3. Chỉ tiêu giám sát khả năng sinh lời

Chỉ tiêu Giải thích

Mã chỉ tiêu

M136 ROA

= Lợi nhuận sau thuế / Tổng tài sản có bình quân

Ch tiêu này phản ánh khả n ng tạo ra lợi nhuận ròng của tài sản, tức phản ánh số lợi nhuận ròng được tạo ra là bao nhiêu trên 1 đơn v tài sản Có. Thông thường ch tiêu này càng cao càng tốt. Theo tỷ lệ thống kê bình quân ch tiêu này dao đ ng ở mức 2%. Ch tiêu này < 0 cho thấy ngân hàng có kết quả kinh doanh lỗ.

M137 ROE

= Lợi nhuận sau thuế / Vốn chủ sở hữu bình quân. Ch tiêu này phản ánh khả n ng sinh lời của vốn chủ sở hữu. Thông thường ch tiêu này càng cao càng tốt. Theo tỷ lệ thống kê bình quân ch tiêu này dao đ ng ở mức 17%. Ch tiêu này < 0 cho thấy ngân hàng có kết quả kinh doanh lỗ.

M138 Chi phí ngoài lãi / (Thu nhập thuần về lãi + Thu nhập ngoài lãi) Ch tiêu này phản ánh hiệu quả trong việc quản lý chi phí ngoài lãi so với thu nhập của ngân hàng. Thông thường ch tiêu này càng nhỏ càng tốt.

M139 Thu nhập ngoài lãi / Tổng thu nhập Ch tiêu này phản ánh khả n ng phát triển sản phẩm d ch vụ của ngân hàng.

M141 Biến đ ng về thu nhập và chi phí (so với cùng kỳ n m trước) Ch tiêu này phản ánh thu nhập thuần của ngân hàng như thế nào so với cùng kỳ n m trước. Ch tiêu này t ng là tốt.

M142 Chi phí / Thu nhập

Ch tiêu này phản ánh tỷ trọng của chi phí so với thu nhập. Thông thường ch tiêu này càng thấp càng tốt. Nếu ch tiêu này > 100% cho thấy ngân hàng có kết quả kinh doanh lỗ.

Chỉ tiêu Giải thích

Mã chỉ tiêu

M51 Chênh lệch thu nhập,

chi phí Nếu ch tiêu này < 0 cho thấy ngân hàng có kết quả kinh doanh lỗ.

M246 Lỗ lũy kế

Nếu ch tiêu này < 0 cho thấy ngân hàng có kết quả kinh doanh lỗ.

4) Nhóm chỉ tiêu khả năng thanh khoản (6 ch tiêu)

Bảng 2.4. Chỉ tiêu giám sát khả năng thanh khoản

Giải thích

Chỉ tiêu

Mã chỉ tiêu

M143 Vốn huy đ ng /

Dư nợ tín dụng

Ch tiêu này phản ánh khả n ng đáp ứng nhu cầu vay của khách hàng cũng như đáp ứng nhu cầu cho thanh khoản. Ngoài ra ch tiêu này còn phản ánh khả n ng mở r ng tín dụng và hiệu quả sử dụng vốn.

M144 Tiền gửi có kỳ hạn / Nguồn vốn huy đ ng

Ch tiêu này phản ánh khả n ng đáp ứng nhu cầu thanh khoản của ngân hàng do các loại tiền gửi có kỳ hạn thường ổn đ nh hơn tiền gửi không kỳ hạn và tiền gửi thanh toán.

M145 Tỷ lệ nguồn vốn ngắn hạn để cho vay trung và dài hạn Ch tiêu này phản ánh số vốn ngắn hạn của ngân hàng bỏ ra để đáp ứng nhu cầu vay trung, dài hạn của khách hàng. Để đảm bảo an toàn trong hoạt đ ng mỗi ngân hàng nên duy trì tỷ lệ này ≤ 30%.

tính

M146 Tổng tài sản Có, thanh có khoản cao / Tổng tài sản có

Ch tiêu này phản ánh khả n ng đáp ứng nhu cầu cho thanh toán của mỗi ngân hàng. Thông thường ch tiêu này cao hơn mức trung bình hệ thống, trung bình nhóm, kỳ giám sát trước cho thấy khả n ng thanh khoản của ngân hàng là tốt.

M147 Tổng dư nợ cho vay trung và dài hạn/ Tổng dư nợ

Ch tiêu này phản ánh khả n ng đáp ứng yêu cầu thanh khoản của mỗi ngân hàng. Tỷ lệ này càng cao cho thấy thời gian quay vòng vốn càng chậm, khả n ng thanh khoản giảm.

M148 Số lần vi phạm tỷ lệ khả n ng chi trả Số lần vi phạm càng lớn thì khả n ng thanh khoản càng thấp.

5) Nhóm chỉ tiêu rủi ro khác (1 ch tiêu)

Bảng 2.5. Chỉ tiêu giám sát rủi ro khác

Chỉ tiêu Giải thích

Mã chỉ tiêu

M149 Trạng thái ngoại hối / Vốn t có

Trạng thái ngoại hối: phản ánh việc mua, bán ngoại tệ kinh doanh và các cam kết giao d ch hối đoái. Để phòng tránh rủi ro trong hoạt đ ng kinh doanh ngoại tệ, tổng trạng thái ngoại tệ dương/âm so với vốn t có ≤ 30%.

2.1.2.2. Xếp loại ngân hàng thƣơng mại

D a trên hệ thống ch tiêu trên, các ngân hàng được xếp loại như sau:

Bảng 2.6. Xếp loại các ngân hàng thương mại

Loại Mô tả

- Đạt tiểu chuẩn rất cao về chất lượng quản lý;

- Là tổ chức rất mạnh về tài chính; A - Rất an toàn, mức đ quan tâm từ cơ quan giám sát là rất ít;

-> Chế đ giám sát bình thường.

- Phần lớn rủi ro được kiểm soát m t cách đầy đủ;

- Đáp ứng yêu cầu tối thiểu, nhưng khó có thể đạt mức cao hơn;

- Là tổ chức an toàn trung bình, mức đ quan tâm của cơ quan giám sát trung bình;

-> Cần quan tâm giám sát

- Mức đ kiểm soát rủi ro không đạt yêu cầu;

- Là tổ chức yếu, cần củng cố ngay; C - Không an toàn. Tổ chức nhận tiền gửi phải có kế hoạch t củng cố;

-> Chế đ giám sát chặt chẽ.

- Thiếu kiểm soát rủi ro m t cách trầm trọng;

- Là tổ chức rất yếu về tài chính, có nguy cơ mất khả n ng chi trả, mất khả n ng thanh toán; D

- Cần đặt và tình trạng kiểm soát đặc biệt hoặc rút giấy phép hoạt đ ng;

-> Chế đ giám sát rất chặt chẽ.

2.2. Nghiên cứu giải pháp phân lớp các ngân hàng thƣơng mại

2.2.1. Bài toán phân lớp và một số thuật toán phân lớp điển hình

Phân lớp là m t trong những mối quan tâm nhiều nhất của con người trong quá trình làm việc với m t tập hợp đối tượng. Điều này giúp con người có thể tiến hành việc sắp xếp, tìm kiếm các đối tượng m t cách thuận lợi. Khi biểu diễn đối tượng vào các hệ thống thông tin, tính chất lớp vốn có của đối tượng trong th c tế thường được biểu diễn tương ứng bằng m t thu c tính “lớp” riêng biệt [6].

Phân lớp dữ liệu là kĩ thuật sử dụng tập huấn luyện bao gồm dữ liệu với nhãn

lớp trong m t thu c tính phân lớp trong việc phân lớp dữ liệu mới.

M t số thuật toán được sử dụng trong phân lớp như:

- K người láng giềng gần nhất (K – Nearst neighbours);

- Naive Bayes;

- Support Vector Machines (SVM);

- Cây quyết đ nh (Decision Tree);

- Mạng Nơron;

- ...

Trong khuôn khổ luận v n, ch tập trung tìm hiểu 3 thuật toán dùng trong phân

lớp là: Naive Bayes, SVM và cây quyết đ nh.

Việc l a chọn thuật toán phân lớp Naive Bayes là do thuật toán này được đánh giá là cài đặt đơn giản, tốc đ th c hiện thuật toán nhanh, dễ dàng cập nhật dữ liệu huấn luyện mới và có tính đ c lập cao đối với tập huấn luyện. Ngoài ra, thuật toán phân lớp Bayes cũng là m t trong những thuật toán phân lớp điển hình nhất trong học máy và khai phá dữ liệu. Trong học máy, Bayes thường được coi như thuật toán học máy chuẩn để so sánh với các thuật toán khác.

Thuật toán SVM được l a chọn là do thuật toán này có m t nền tảng lý thuyết vững chắc bên cạnh đó có nhiều nghiên cứu chứng minh thuật toán này có hiệu suất cao.

Việc phân lớp các tổ chức tham gia Bảo hiểm tiền gửi nhằm đánh giá mức đ rủi ro của các tổ chức tham gia Bảo hiểm tiền gửi và xếp loại các tổ chức tham gia Bảo hiểm tiền gửi là cơ sở để đánh giá việc th c hiện các yêu cầu giám sát; cảnh báo sớm rủi ro, khủng hoảng để từ đó có biện pháp ứng phó thích hợp, đảm bảo cho s ổn đ nh của hệ thống tài chính, s an toàn và lành mạnh của các đ nh chế tài chính, bảo vệ người tiêu dùng và hiệu quả của hệ thống tài chính. Hiện nay, việc đánh giá việc th c hiện các yêu cầu giám sát c n cứ vào hệ thống ch tiêu giám sát được giới thiệu ở trên. D a trên hệ thống tiêu chuẩn này, các tổ chức tham gia Bảo hiểm tiền gửi được xếp vào 4 loại như được giới thiệu ở trên.

Việc phân lớp các ngân hàng thương mại cũng d a trên tiêu chuẩn trên. Qua đó, có thể phân lớp các ngân hàng thương mại thành 4 lớp. Việc đưa 1 ngân hàng thương mại vào lớp nào là d a vào các ch tiêu như: Chênh lệch thu nhập - chi phí, lỗ lũy kế, tỷ lệ nợ xấu, tỷ lệ nợ quá hạn, Tỷ lệ đầu tư, mua sắm tài sản cố đ nh, Giới hạn góp vốn mua cổ phần, …

2.2.1.1 Thuật toán phân lớp Bayes

Thuật toán phân lớp Bayes là m t trong những thuật toán phân lớp điển hình nhất trong học máy và khai phá dữ liệu, đây cũng là thuật toán được sử dụng r ng rãi nhất trong phân lớp v n bản. Học máy Bayes thường được coi như thuật toán học máy chuẩn để so sánh với các thuật toán khác.

a) Công thức xác suất có điều kiện

Xác suất điều kiện của biến cố A với điều kiện biến cố B đã xảy ra là m t số

không âm.

Ký hiệu là P(A/B) biểu th khả n ng xảy ra biến cố A trong tình huống biến cố B đã xảy ra. Ký hiệu là P(B/A) nó biểu th khả n ng xảy ra biến cố B trong tình huống biến A đã xảy ra.

Công thức xác suất có điều kiện Bayes:

P(A/B) = (P(AB))/(P(B))

Suy ra

P(A/B) . P(B) = P(B/A) . P(A) = P(AB)

b) Công thức xác suất đầy đủ

Giả sử B1, B2, … Bn là m t nhóm đầy đủ các biến cố. Khi đó:

P(A) = ∑ P(Bi)*P(A/Bi)

c) Công thức xác suất Bayes

Từ các công thức ở trên ta có công thức xác suất Bayes:

P(Bk/A) = (P(ABk))/(P(A)) = (P(Bk)*P(A/Bk) )/(ΣP(Bi)*P(A/Bii)

d) Phân lớp Naive Bayes

Phân lớp Naive Bayes là phương pháp phân loại sử dụng tri thức các xác suất đã qua huấn luyện. Phương pháp này thích hợp với những lớp bài toán đòi hỏi phải d đoán chính xác lớp của mẫu cần kiểm tra d a trên những thông tin từ tập huấn luyện ban đầu.

Ý tưởng chính của thuật toán là tính xác suất hậu nghiệm của s kiện c xuất hiện khi s kiện x đã có trong không gian ngữ cảnh thông qua tổng hợp các xác suất tiên nghiệm của s kiện c xuất hiện khi s kiện x đã có trong tất cả các điều kiện riêng T

thu c không gian :

Cho m t lớp c và X gồm nhiều ch tiêu giám sát của m t ngân hàng thương mại, nếu xác suất p(X|a) tính được lớn hơn hoặc bằng giá tr ngưỡng CTshc của lớp c thì kết luận ngân hàng thương mại đó thu c lớp c.

X được biểu diễn như m t vectơ có kích thước bằng số ch tiêu giám sát của m t ngân hàng thương mại, mỗi thành phần của vectơ là m t ch tiêu giám sát. Tính toán p(c|X) và quyết đ nh xem X sẽ thu c lớp nào.

Xác suất p(c|X) được tính theo công thức sau:

TF(Fi|c) sử dụng phép ước lượng Laplace:

Trong đó:

- |V|: số lượng tham số có trong tập tham số đưa vào;

- Fj: tham số thứ j trong tập tham số V;

- TF(Fj|X): tần suất xuất hiện của Fj trong X;

- TF(Fj|c): tần suất xuất hiện của Fj trong lớp c;

- p(Fj|c: xác suất có điều kiện để Fj xuất hiện trong X của lớp c.

Để giảm s phức tạp và thời gian tính toán, công thức trên được viết lại như sau:

Như vậy, trong quá trình phân lớp không d a vào toàn b tập tham số đưa vào

mà ch d a vào các tham số xuất hiện trong X [6].

e) Ví dụ minh họa

Dữ liệu đầu vào:

Bảng 2.7. Ví dụ dữ liệu chỉ tiêu giám sát

KH_ID M51 M246 M111 M112 M107 M108 XEP_LOAI

10201000 4916772 4948284 1,51 3,28 17,01 27,56 A

10203000 3644613 5841895 3,94 18,1 6,35 24,36 B

10310000 2558139 2787613 2,96 12,26 13,45 6,19 B

10317000 96074 96325 2,41 8,11 5,72 17,94 A

10505000 -132059 -107388 16,03 20,96 1,45 4,17 C

10602000 12257 110341 5,97 5,97 0 0 B

10609000 -16483 166856 12,48 15,93 0,04 0 C

37313000 153376 153376 0,88 1,92 5,81 29,69 A

50306000 185604 185604 4,17 13,87 19,96 40,01 C

50321000 391119 417480 1,06 2,39 10,58 26,44 A

50328000 410385 758510 2,6 3,02 37,22 223,54 B

50333000 216680 340971 2,79 15,06 12,12 9,44 B

50334000 241852 249471 9,77 17,47 34,88 53,67 C

50504000 41928 93410 7,47 14,55 1,95 0 B

50620000 80275 80275 0,19 0,19 0,46 0 A

50622000 335475 975177 0 0 0,67 0 A

50635000 -47455 -23624 24,07 24,07 0,04 0 C

A 64357000 1068510 1068510 2,05 3,16 9,42 0,41

70339000 81083 81083 1,71 2,61 47,89 37,69 A

79615001 -48641 -48641 0 0 3,27 0 C

10203000 4702772 6900054 3,29 17,8 7,19 21,4 ? (Loại B)

Bảng Ch tiêu giám sát được quy đổi như sau:

Bảng 2.8. Ví dụ dữ liệu chỉ tiêu giám sát quy đổi

KH_ID M51 M246 M111 M112 M107 M108 XEP_LOAI

10201000 A A A A A A A

10203000 A A B B A A B

10310000 A A A B A A B

10317000 A A A A A A A

10505000 C C C C A A C

10602000 A A B A A A B

10609000 B A B B A A C

37313000 A A A A A A A

50306000 A A B B A B C

50321000 A A A A A A A

50328000 A A A A A B B

50333000 A A A B A A B

50334000 A A B B A B C

50504000 A A B B A A B

50620000 A A A A A A A

50622000 A A A A A A A

50635000 C C C C A A C

64357000 A A A A A A A

70339000 A A A A A A A

79615001 C C A A A A C

10203000 A A B B A A ? (Loại B)

Phân lớp Naive Bayes:

Gọi tắt lớp A là: x, lóp B là y, lớp C là z.

Như vậy ta có:

- Xác suất lớp x: P(x) = 8/20

- Xác suất lớp y: P(y) = 6/20

- Xác suất lớp z: P(z) = 6/20

Ta xét mẫu chưa được phân lớp sau:

X = <4702772; 6900054; 3,29; 17,8; 7,19; 21,4>

X quy đổi như sau:

X =

Tính xác suất của các thu c tính thu được kết quả sau:

Bảng 2.9. Ví dụ tính xác suất các thuộc tính

x y z

Chênh lệch thu nhập, chi phí

P(A | x) = 8/8 P(A | y) = 6/6 P(A | z) = 2/6

P(B | x) = 0/8 P(B | y) = 0/6 P(B | z) = 1/6

P(C | x) = 0/8 P(C | y) = 0/6 P(C | z) = 3/6

Lỗ lũy kế

P(A | x) = 8/8 P(A | y) = 6/6 P(A | z) = 3/6

P(B | x) = 0/8 P(B | y) = 0/6 P(B | z) = 0/6

P(C | x) = 0/8 P(C | y) = 0/6 P(C | z) = 3/6

Tỷ lệ nợ xấu

P(A | x) = 8/8 P(A | y) = 3/6 P(A | z) = 1/6

P(B | x) = 0/8 P(B | y) = 3/6 P(B | z) = 2/6

P(C | x) = 0/8 P(C | y) = 0/6 P(C | z) = 3/6

Tỷ lệ nợ quá hạn

P(A | x) = 8/8 P(A | y) = 2/6 P(A | z) = 1/6

P(B | x) = 0/8 P(B | y) = 3/6 P(B | z) = 3/6

P(C | x) = 0/8 P(C | y) = 1/6 P(C | z) = 2/6

Tỷ lệ đầu tƣ, mua sắm tài sản cố định

P(A | x) = 8/8 P(A | y) = 6/6 P(A | z) = 6/6

P(B | x) = 0/8 P(B | y) = 0/6 P(B | z) = 0/6

P(C | x) = 0/8 P(C | y) = 0/6 P(C | z) = 0/6

Giới hạn góp vốn mua cổ phần

P(A | x) = 8/8 P(A | y) = 5/6 P(A | z) = 4/6

P(B | x) = 0/8 P(B | y) = 0/6 P(B | z) = 2/6

P(C | x) = 0/8 P(C | y) = 0/6 P(C | z) = 0/6

P(X | x) = 8/8*8/8*0/8*0/8*8/8*8/8 ≈ 0

P(X | y) = 6/6*6/6*3/6*3/6*6/6*5/6 ≈ 0,208333

P(X | z) = 2/6*3/6*2/6*3/6*6/6*4/6 ≈ 0,018519

Theo kết quả thu được thì P(X | y) là lớn nhất nên X thu c lớp B.

2.2.1.2 Thuật toán phân lớp SVM

a) Phân lớp d a trên SVM [6]

Thuật toán máy vectơ hỗ trợ (Support Vector Machine - SVM) được áp dụng cho phân lớp nh phân. Cơ sở của thuật toán là d a trên phương pháp tiếp cận thống kê được Vapnik đề xuất. SVM rất có hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn và được coi là m t trong 10 thuật toán khai phá dữ liệu điển hình nhất.

Giả sử mỗi v n bản được biểu diễn tương ứng với m t điểm dữ liệu trong không gian Rn. Ý tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất” trong không gian n-chiều để phân chia dữ liệu sao cho tất cả các điểm x+ được gán nhãn 1 thu c về phía dương của siêu phẳng (f(x+)>0), các điểm x- được gán nhãn –1 thu c về phía âm của siêu phẳng (f(x-)<0).

M t siêu phẳng phân chia dữ liệu được gọi là “tốt nhất”, nếu khoảng cách từ

điểm dữ liệu gần nhất đến siêu phẳng là lớn nhất.

Tổng của khoảng cách từ điểm dữ liệu gần nhất của lớp +1 đến siêu phẳng và

khoảng cách từ điểm dữ liệu gần nhất của lớp –1 đến siêu phẳng:

Siêu phẳng có dạng: wT.x + b =0

Hình 2.1. Biểu diễn của mặt phẳng siêu phẳng của SVM

Trƣờng hợp 1: Dữ liệu có thể phân chia tuyến tính, việc tìm siêu phẳng tốt nhất

tương đương với việc giải bài toán tối ưu sau:

Trƣờng hợp 2: có m t số ít điểm b nhiễu, nghĩa là điểm có nhãn dương nhưng lại thu c về phía âm của siêu phẳng, điểm có nhãn âm thu c về phía dương của siêu phẳng.

i gọi là các biến lới lỏng (slack variable) i0

Trƣờng hợp 3: tập dữ liệu không thể phân chia tuyến tính được. Trong trường hợp này, chúng ta sẽ ánh xạ các vector dữ liệu x từ không gian n-chiều vào m t không gian m-chiều (m>n), sao cho trong không gian m-chiều này tập dữ liệu có thể phân chia tuyến tính được.

Việc tính toán tr c tiếp (xi) là phức tạp và khó kh n. Nếu biết hàm nhân (Kernel function) để tính tích vô hướng (xi). (xj) trong không gian m-chiều, thì chúng ta không cần làm việc tr c tiếp với ánh xạ (xi):

K(xi, xj) = (xi). (xj)

M t số hàm nhân hay dùng trong phân loại v n bản là :

T xj

- Hàm tuyến tính (linear): K(xi, xj)=xi

- Hàm đa thức (polynomial function): K(xi, xj)=(xi xj +1)d

- Hàm RBF (radial basis function): K(xi, xj)=exp(- (xi - xj)2,

b) Phân lớp đa lớp [6]

Như đã đề cập ở mục a, SVM được áp dụng cho phân lớp nh phân. Với yêu cầu của bài toán là phân lớp các ngân hàng thương mại vào m t trong bốn lớp khác nhau nên cần có s thay đổi đối với việc áp dụng SVM.

Ý tưởng của bài toán phân lớp đa lớp là chuyển về bài toán phân lớp hai lớp bằng cách xây d ng nhiều b lớp loại hai lớp để giải quyết. Các chiến lược phân loại đa lớp phổ biến này là One-against-One (OAO) và One-against-Rest (OAR).

Chiến lƣợc One-against-Rest (OAR)

Trong chiến lược này ta sử dụng (n-1) b phân loại đối với n lớp. Bài toán phân loại n lớp được chuyển thành n bài toán phân loại hai lớp. Trong đó b phân loại hai lớp thứ i được xây d ng trên lớp thứ i và tất cả các lớp còn lại. Hàm quyết đ nh thứ i dùng để phân lớp thứ i và những lớp còn lại có dạng:

Siêu phẳng Di(x)=0 hình thành siêu phẳng phân chia tối ưu, các support vectơ thu c lớp i thỏa Di(x) = 1 và các support vector thu c lớp còn lại thỏa Di(x) = -1. Nếu vector dữ liệu x thỏa mãn điều kiện Di(x) > 0 đối với duy nhất m t i, x sẽ được phân vào lớp thứ i.

Tuy nhiên nếu điều kiện Di(x) > 0 thỏa mãn đối với nhiều i, hoặc không thỏa đối với i nào thì trong trường hợp này ta không thể phân loại được vector x. Để giải quyết vấn đề này chiến lược One-against-One (OAO) được đề xuất sử dụng.

Chiến lƣợc One-against-One (OAO)

Trong chiến lược này ta sử dụng n(n-1)/2 b phân loại hai lớp được xây d ng bằng cách bắt cặp từng hai lớp m t và sử dụng phương pháp l a chọn theo đa số để kết hợp các b phân loại này để xác đ nh được kết quả phân loại cuối cùng. Số lượng các b phân loại là n(n-1)/2.

So với chiến lược OAR thì chiến lược này ngoài ưu điểm giảm bớt vùng không thể phân loại mà còn làm t ng đ chính xác của việc phân loại. Trong chiến lược OAR ta phải xây d ng m t siêu phẳng để tách m t lớp ra khỏi các lớp còn lại, việc này đòi hỏi s phức tạp và có thể không chính xác. Tuy nhiên trong chiến lược OAO ta ch cần phân tách m t lớp ra khỏi m t lớp khác mà thôi.

Chiến lược OAR ch cần n-1 b phân loại cho n lớp. Trong khi đó chiến lược OAO lại cần đến n(n-1)/2 b phân loại. Nhưng số mẫu huấn luyện cho từng b phân loại trong OAO lại ít hơn và việc phân loại cũng đơn giản hơn. Vì vậy chiến lược OAO có đ chính xác cao hơn nhưng chi phí để xây d ng lại tương đương với chiến lược OAR .

Hàm quyết đ nh phân lớp của lớp i đối với lớp j trong chiến lược OAO là:

Đối với m t vector x ta tính:

với

Và x được phân vào lớp i sao cho:

Tuy nhiên nếu điều kiện:

được thỏa mãn đối với nhiều i thì trong trường hợp này cũng không thể xác đ nh được x thu c lớp nào

Để giải quyết vấn đề này Shigeo Abe và Takuya Inoue đã giới thiệu Phân loại đa

lớp mờ.

Phân loại đa lớp mờ

Phương pháp phân loại đa lớp mờ được xây d ng trên phương pháp phân loại đa lớp OAO kết hợp với việc sử dụng m t hàm thành viên để xác đ nh kết quả phân loại khi vector x không thể phân loại được theo chiến lược OAO.

Đối với siêu phẳng tối ưu Dij(x) = 0 (i≠j) chúng ta đ nh nghĩa các hàm thành

viên như sau:

Từ các mij(x)(j ≠ i, j = 1, …, n), chúng ta đ nh nghĩa hàm thành viên thứ i của

vectơ x như sau:

Công thức trên tương đương với:

Bây giờ x được phân loại vào lớp i theo công thức:

2.2.1.3 Thuật toán phân lớp cây quyết định

Phương pháp học cây quyết đ nh là m t trong những phương pháp được sử dụng r ng rãi nhất cho việc học quy nạp từ m t tập mẫu lớn. Mặt khác, cây quyết đ nh còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật Nếu - Thì (If - Then).

Cây quyết đ nh là cấu trúc biễu diễn dưới dạng cây. Trong đó, mỗi m t nút của cây biểu diễn m t thu c tính trong tập huấn luyện, mỗi m t nhánh tới nút tương ứng với m t trong những giá tr có thể cho thu c tính này.

Dưới đây là mô tả thuật toán ID3 – thuật toán học cây quyết đ nh đơn giản nhất.

a) ID3 (Examples, Target_attribute, Attributes)

Examples là tập các ví dụ huấn luyện; Target_attribute là những thu c tính đầu ra cho cây quyết đ nh d đoán; Attributes là m t danh sách các thu c tính khác tham gia trong quá trình học của cây quyết đ nh.

1. Tạo m t nút gốc Root cho cây quyết đ nh.

2. Nếu toàn b Examples đều là các ví dụ thu c cùng m t lớp thì trả lại cây Root m t nút đơn với nhãn + (nếu các ví dụ thu c lớp +) hoặc với nhãn – (nếu các ví dụ thu c lớp -).

3. Nếu Attributes là rỗng thì trả lại cây Root m t nút đơn với nhãn gán bằng giá

tr phổ biến nhất của Target_attribute trong Examples.

4. Còn lại

Begin

4.1. Gán A←thu c tính từ tập Attributes mà phân lớp tốt nhất tập Examples.

4.2. Thu c tính quyết đ nh cho Root ←A

4.3. Lặp với các giá tr có thể vi của A,

- C ng thêm m t nhánh cây con ở dưới Root, phù hợp với biểu thức kiểm tra A= vi.

- Đặt là m t tập con của tập các ví dụ có giá tr vi của A

- Nếu rỗng

+ Thì dưới mỗi nhánh mới thêm m t nút lá với nhãn = giá tr phổ biến nhất của Target_attribute trong tập Examples.

+ Ngược lại thì dưới nhánh mới này thêm m t cây con ID3 ( ,

Target_attribute, Attributes-{A}).

End

5. Return Root.

b) Chọn l a thu c tính tốt nhất

Vấn đề trung tâm của thuật toán ID3 là chọn l a thu c tính tốt nhất để đưa vào mỗi nút của cây. Để giải quyết vấn đề nay, người ta sử dụng các kết quả của lý thuyết thông tin là các đ đo information gain và entropy.

Entropy:

Entropy là đại lượng đo tính đồng nhất hay tính thuần nhất của các mẫu. giả sử

m t tập S có c lớp phân biệt. Khi đó entropy của tập S được xác đ nh như sau:

trong đó pi là phân bố của S thu c lớp i.

Information – Gain:

Entropy là đại lượng đo đ không đồng nhất trong m t tập các mẫu, Information

– Gain là đại lượng xác đ nh ảnh hưởng của m t thu c tính trong mẫu đó trong việc phân lớp.

Information – Gain của m t thu c tính A trong tập hợp S, ký hiệu là Gain(S,A)

được xác đ nh như sau:

Trong đó:

- Values(A) là tập các giá tr có thể của thu c tính A

- Sv là tập con của S mà A có giá tr v

- |Sv| là số phần tử của tập Sv

- |S| là số phần tử của tập S

D a vào ch số Gain ta chọn thu c tính để phân nhánh cho cây quyết đ nh. Gain(X) càng nhỏ thì các tập con càng đồng nhất hơn. Bởi vậy chúng ta chọn thu c tính cho Gain(X) lớn nhất để phân nhánh [6].

2.2.2. Đánh giá hiệu quả phân lớp

Đánh giá kết quả phương pháp phân lớp trên dữ liệu kiểm thử có thể được tính toán theo nhiều cách khác nhau. Đ đo phổ biến nhất được sử dụng để đánh giá phân lớp là đ hồi tưởng và đ chính xác [6].

Kí hiệu :

Bảng 2.10. Bảng ký hiệu

Giá trị thực Lớp Ci

Thu c lớp Ci Không thu c lớp Ci

Thu c lớp Ci TPi FNi

Giá trị qua bộ phân lớp Không thu c lớp Ci FPi TNi

Trong đó :

TPi (true positives): số ví dụ th c thu c lớp Ci mà b phân lớp d đoán thu c lớp Ci.

TNi (true negatives): số ví dụ th c không thu c lớp Ci mà b phân lớp d đoán

không thu c lớp Ci.

FPi (false positives): số ví dụ th c thu c lớp Ci mà b phân lớp d đoán không

thu c lớp Ci.

FNi (false negatives): số ví dụ th c không thu c lớp Ci mà b phân lớp d đoán

thu c lớp Ci.

Đ chính xác Pri của lớp Ci là tỷ lệ số kết quả phân lớp cho giá tr đúng trên tổng

số kết quả phân lớp vào lớp Ci:

Đ hồi tưởng Rei của lớp Ci là tỷ lệ số kết quả phân lớp cho giá tr đúng trên tổng

số kết quả th c s thu c lớp Ci:

Do luận v n th c hiện phân lớp tập dữ liệu thành 4 lớp, nên đ chính xác và đ hồi tưởng cần được tính cho cả 4 lớp. D a vào đ chính xác và đ hồi tưởng của mỗi lớp, đ chính xác và đ hồi tưởng cho toàn b các lớp được tính theo hai cách sau:

- C c tiểu trung bình (micro-average)  và 

- C c đại trung bình (macro-average) M và M

(i là đ hồi phục đối với lớp Ci)

(i là đ chính xác đối với lớp Ci)

Đ chính xác và đ hồi tưởng nếu sử dụng riêng biệt thì chưa đánh giá được n ng l c của b phân lớp. Vì vậy, đánh giá b phân lớp thường được đo bằng tổ hợp của hai đ đo trên. Luận v n sử dụng đ đo sau để đánh giá n ng l c của b phân lớp:

- Đ đo Fβ: đ đo Fβ được đề xuất bởi Rijbergen. Nó là đ đo đơn giản được tính từ đ chính xác và đ hồi tưởng phụ thu c vào đ quan trọng mà người dùng đ nh nghĩa (β). Thông thường, 1 = β. Công thức tính đ đo Fβ là:

Trong trường hợp 1 = β chúng ta có F1 là đ đo thông dụng nhất trong việc đánh

giá n ng l c của các b phân lớp.

Bên cạnh đ chính xác và đ hồi tưởng, m t số đ đo phổ biến khác cũng được sử dụng như: t lệ đúng (Accuracy) và t lệ lỗi (Error) kí hiệu là Aci và Eri của lớp i C:

2.3. Đề xuất mô hình phân lớp các ngân hàng thƣơng mại

2.3.1. Phát biểu bài toán phân lớp các ngân hàng thƣơng mại

Ý tưởng chính của bài toán là d a vào số liệu các ch tiêu giám sát các ngân hàng thương mại để đánh giá các ngân hàng thương mại đó thu c lớp nào d a trên mô hình phân lớp.

Như vậy, bài toán đánh giá các ngân hàng thương mại được phát biểu như sau:

- Đầu vào: Các ngân hàng thương mại chưa được gán nhãn (chưa được phân lớp);

- Đầu ra: Các ngân hàng thương mại đã được gán nhãn (được phân lớp).

2.3.2. Đề xuất mô hình phân lớp các ngân hàng thƣơng mại

Hình 3.2. Mô hình phân lớp đề xuất

Như vậy trong mô hình đề xuất gồm có 3 pha:

a) Pha 1: Tiền xử lý dữ liệu

Đầu vào: Tập số liệu các ch tiêu giám sát các ngân hàng thương mại.

Đầu ra: Tập số liệu các ch tiêu sử dụng để đánh giá, xếp loại các ngân hàng

thương mại.

Xử lý:

(1) Trích chọn và xử lý dữ liệu: Trong pha này, cần trích chọn dữ liệu từ bảng ch tiêu lưu trữ các ch tiêu của các ngân hàng thương mại trong cơ sở dữ liệu để có được dữ liệu các ch tiêu liên quan đến việc đánh giá, xếp loại các ngân hàng thương mại.

Ví dụ:

Bảng dữ liệu các ch tiêu của các ngân hàng thương mại có cấu trúc như hình sau:

Hình 4.3. Bảng chỉ tiêu của ngân hàng thương mại

Sau khi trích chọn dữ liệu, dữ liệu được lưu trong bảng ch tiêu đánh giá ngân

hàng thương mại với cấu trúc như hình sau:

Hình 2.5. Bảng các chỉ tiêu của ngân hàng thương mại đã trích chọn

(2) Chuyển phương thức hiển thị: chuyển phương thức hiển th dữ liệu ch tiêu đánh giá ngân hàng thương mại vừa thu được từ hàng sang c t và lưu vào bảng có cấu trúc như hình sau:

Hình 2.6. Bảng chỉ tiêu sử dụng để phân lớp các ngân hàng thương mại

b) Pha 2: Xây d ng tập dữ liệu học

Đầu vào: Tập các vectơ đặc trưng (tập số liệu các ch tiêu đánh giá ngân hàng

thương mại)

Đầu ra: Tập dữ liệu học

Xử lý: Từ tập số liệu các ch tiêu đánh giá ngân hàng thương mại, tiến hành gán nhãn. Có thể hiểu rằng mỗi tập ch tiêu của m t ngân hàng thương mại tương ứng với m t vectơ đặc trưng. Các vectơ đặc trưng này gán nhãn bằng tay. Do tính chất và phương thức phân tích, đánh giá các kết quả nên ở đây có thể đưa 2 tập vectơ đặc trưng.Việc đưa ra 2 tập vectơ đặc trưng sẽ góp phần nâng cao hiệu quả của đánh giá trong phần th c nghiệm

(1) Tập vectơ đặc trưng thứ nhất:

Giữ nguyên các dữ liệu đầu vào và gán nhãn cho dữ liệu. D a trên tiêu chí xếp loại các ngân hàng thương mại thì các nhãn sẽ được gán theo 4 loại là Loại A, Loại B, Loại C, Loại D.

Ví dụ:

Bảng 2.11. Ví dụ tập vectơ đặc trưng thứ nhất

KH_ID M51 M246 M111 M112 M107 M108 XEP_LOAI

10201000 4916772 4948284 1,51 3,28 17,01 27,56 A

10203000 3644613 5841895 3,94 18,1 6,35 24,36 B

10310000 2558139 2787613 2,96 12,26 13,45 6,19 B

10317000 96074 96325 2,41 8,11 5,72 17,94 A

10505000 -132059 -107388 16,03 20,96 1,45 4,17 D

10602000 12257 110341 5,97 5,97 0 0 B

10609000 -16483 166856 12,48 15,93 0,04 0 C

37313000 153376 153376 0,88 1,92 5,81 29,69 A

50306000 185604 185604 4,17 13,87 19,96 40,01 C

50321000 391119 417480 1,06 2,39 10,58 26,44 A

50328000 410385 758510 2,6 3,02 37,22 223,54 B

50333000 216680 340971 2,79 15,06 12,12 9,44 B

50334000 241852 249471 9,77 17,47 34,88 53,67 C

50504000 41928 93410 7,47 14,55 1,95 0 B

50620000 80275 80275 0,19 0,19 0,46 0 A

50622000 335475 975177 0 0 0,67 0 A

50635000 -47455 -23624 24,07 24,07 0,04 0 D

64357000 1068510 1068510 2,05 3,16 9,42 0,41 A

70339000 81083 81083 1,71 2,61 47,89 37,69 A

79615001 -48641 -48641 0 0 3,27 0 C

(2) Tập vectơ đặc trưng thứ hai:

Thay các giá tr của từng ch tiêu bằng các giá tr quy đổi tương ứng và gán nhãn

cho dữ liệu.

Bảng 12.11. Ví dụ tập vectơ đặc trưng thứ hai

KH_ID M51 M246 M111 M112 M107 M108 XEP_LOAI

10201000 A A A A A A A

10203000 A A B A A B B

10310000 A A B A A B A

10317000 A A A A A A A

10505000 C C C A A D C

10602000 A A A A A B B

10609000 B A B A A C B

37313000 A A A A A A A

50306000 A A B A B C B

50321000 A A A A A A A

50328000 A A A A B B A

50333000 A A B A A B A

50334000 A A B A B C B

50504000 A A B A A B B

50620000 A A A A A A A

50622000 A A A A A A A

50635000 C C C A A D C

64357000 A A A A A A A

70339000 A A A A A A A

79615001 C C A A A C A

Cuối cùng, với từng tập vectơ đặc trưng đã gán nhãn, cho vào huấn luyện để xây

d ng b phân lớp.

c) Pha 3: Xác đ nh nhãn

Đầu vào: Tập dữ liệu chưa được gán nhãn (tập dữ liệu các ch tiêu đánh giá ngân

hàng thương mại chưa gãn nhãn).

Đầu ra: Tập dữ liệu được gán nhãn (tập dữ liệu các ch tiêu đánh giá ngân hàng

thương mại đã gãn nhãn).

Xử lý: Tập dữ liệu chưa được gán nhãn (tập dữ liệu các ch tiêu đánh giá ngân hàng thương mại chưa gãn nhãn) sẽ được đưa vào huấn luyện thông qua b dữ liệu học ở Pha 2 để đưa ra kết quả tập dữ liệu được gán nhãn.

Ví dụ:

Bảng 2.13. Ví dụ dữ liệu gốc cần phân lớp

KH_ID M51 M246 M111 M112 M107 M108 XEP_LOAI

10201000 6222197 6250313 1,85 4,12 16,4 27,6 ?

10203000 4702772 6900054 3,29 17,8 7,19 21,4 ?

10310000 2992445 3221919 2,52 8,47 13,4 6,19 ?

10317000 121661 121912 2,81 8,66 5,87 17,8 ?

10505000 -137994 -113323 16,4 20 1,41 4,17 ?

10602000 39904 136031 5,95 5,95 0 ? 0

10609000 -11794 171545 13 13 0,04 ? 0

37313000 159573 159573 0,62 1,96 5,79 29,6 ?

50306000 212783 212783 4,2 12,1 20,6 40,1 ?

50321000 428385 454746 1,11 2,49 10,6 26,4 ?

 Kết quả là:

Bảng 2.14. Ví dụ kết quả phân lớp với dữ liệu gốc

KH_ID M51 M246 M111 M112 M107 M108 XEP_LOAI

10201000 6222197 6250313 1,85 4,12 16,4 27,6 A

10203000 4702772 6900054 3,29 17,8 7,19 21,4 B

10310000 2992445 3221919 2,52 8,47 13,4 6,19 A

10317000 121661 121912 2,81 8,66 5,87 17,8 A

10505000 -137994 -113323 16,4 20 1,41 4,17 D

10602000 39904 136031 5,95 5,95 0 B 0

10609000 -11794 171545 13 13 0,04 C 0

37313000 159573 159573 0,62 1,96 5,79 29,6 A

50306000 212783 212783 4,2 12,1 20,6 40,1 C

50321000 428385 454746 1,11 2,49 10,6 26,4 A

hoặc

Bảng 2.15. Ví dụ dữ liệu quy đổi cần phân lớp

KH_ID M51 M246 M111 M112 M107 M108 XEP_LOAI

A A ? 10201000 A A A A

A A ? 10203000 A A B B

A A ? 10310000 A A A A

A A ? 10317000 A A A A

A A ? 10505000 C C C C

A A ? 10602000 A A A B

A A ? 10609000 B A B B

A A ? 37313000 A A A A

A B ? 50306000 A A B B

A A ? 50321000 A A A A

 Kết quả là:

Bảng 2.16. Ví dụ kết quả phân lớp với dữ liệu quy đổi

KH_ID M51 M246 M111 M112 M107 M108 XEP_LOAI

A A A 10201000 A A A A

A A B 10203000 A A B B

A A A 10310000 A A A A

A A A 10317000 A A A A

A A D 10505000 C C C C

A A B 10602000 A A A B

A A C 10609000 B A B B

A A A 37313000 A A A A

A B C 50306000 A A B B

A A A 50321000 A A A A

2.4. Tổng kết chƣơng 2

Chương này trình bày bài toán phân lớp các ngân hàng thương mại và giải pháp. Các n i dung trình bày trong chương này bao gồm: khái niệm về ngân hàng thương mại, hệ thống ch tiêu và tiêu chí xếp loại đối với ngân hàng thương mại, giải pháp phân lớp các ngân hàng thương mại trong đó trình bày thuật toán phân lớp Bayes, thuật toán phân lớp SVM và thuật toán phân lớp cây quyết đinh làm cơ sở cho ứng dụng ở chương tiếp theo, cuối cùng là trình bày mô hình phân lớp các ngân hàng thương mại.

CHƢƠNG 3: CÔNG NGHỆ KHAI PHÁ DỮ LIỆU ORACLE

3.1. Lý do sử dụng công nghệ khai phá dữ liệu của Oracle

Hiện nay có rất nhiều công cụ khai phá dữ liệu thương mại sẵn có trên th trường như IBM's Intelligent Miner, DBMiner, Oracle Data Miner, Microsoft SQL Server Analysis Services, … cung cấp khả n ng khai phá dữ liệu trên cơ sở dữ liệu quan hệ. Những công cụ trên được phát triển cho những hệ quản tr cơ sở dữ liệu cụ thể và khai phá dữ liệu khá hiệu quả.

Mô hình cơ sở dữ liệu của Bảo hiểm tiền gửi Việt Nam là mô hình cơ sở dữ liệu quan hệ sử dụng hệ quản tr cơ sở dữ liệu Oracle. Do vậy việc chọn công cụ khai phá dữ liệu của hãng Oracle là m t l a chọn tất yếu.

Oracle cung cấp các chức n ng khai phá dữ liệu sau:

1) Các chức n ng d đoán:

Bảng 3.1. Các chức năng khai phá dữ liệu dự đoán trong Oracle

Chức năng Mô tả Các thuật toán

Phân lớp

Classification Mô hình phân lớp dùng dữ liệu l ch sử để d đoán dữ liệu rời rạc hoặc phân loại mới

Naive Bayes, Adaptive Bayes Network, Support Vector Machine, Decision Tree

Phát hiện bất thường

One-Class Support Vector Machine (SVM). Anomaly Detection

Mô hình phát hiện bất thường d đoán có hay không m t điểm dữ liệu là điển hình cho s phân tán cho trước.

Hồi qui Support Vector Machine

Regression Mô hình Hồi qui dùng dữ liệu l ch sử để d đoán dữ liệu số, liên tiếp mới

Minimal Descriptor Length

Đ quan trọng của thu c tính

Attribute Importance

Mô hình đ quan trọng của thu c tính xác đ nh tầm quan trọng liên quan của m t thu c tính trong việc d đoán m t đầu ra cho trước.

2) Các chức n ng mô tả:

Bảng 3.2. Các chức năng khai phá dữ liệu mô tả trong Oracle

Chức năng Mô tả Các thuật toán

Phân nhóm Enhanced k-means,

Clustering Mô hình phân nhóm xác đ nh các nhóm t nhiên trong tập dữ liệu

Orthogonal Clustering (O- Cluster - Thuật toán bản quyền của Oracle)

Các luật kết hợp Apriori

Association Rules

Mô hình kết hợp xác đ nh các quan hệ và khả n ng xuất hiện của chúng trong tập dữ liệu

Trích chọn đặc trưng Non-Negative Matric

Feature Extraction Factorization Mô hình trích chọn đặc trưng tạo tập dữ liệu tối ưu làm cơ sở cho mô hình trên đó.

3.2. Quy trình khai phá dữ liệu sử dụng Oracle Data Miner

Oracle Data Miner là ứng dụng có giao diện đồ họa thân thiện dùng cho khai phá dữ liệu trên cơ sở dữ liệu Oracle. Oracle Data Miner cung cấp công cụ hỗ trợ người dùng chuẩn b dữ liệu, xây d ng mô hình, đánh giá mô hình và áp dụng mô hình khai phá dữ liệu.

Các bước khai phá dữ liệu với Oracle Data Miner:

1. Phân tích bài toán, l a chọn chức n ng khai phá và thuật toán khai phá

2. Phân tích và chuẩn b dữ liệu dùng cho xây d ng các mô hình khai phá (build activity), kiểm thử các mô hình (test activity), và áp dụng mô hình (apply activity). Ba tập dữ liệu sau đây phải có cấu trúc giống nhau.

+ Tập dữ liệu huấn luyện là tập dữ liệu đã có sẵn giá tr của các thu c tính mục

tiêu, dùng xây d ng mô hình đoán.

+ Tập dữ liệu kiểm thử là tập dữ liệu đã có sẵn giá tr của các thu c tính mục tiêu, dùng kiểm tra tính chính xác của mô hình d đoán, tập này phải khác với tập huấn luyện.

+ Tập dữ liệu đích là tập dữ liệu chưa có giá tr của các thu c tính mục tiêu, ta sẽ

dùng mô hình d đoán đã xây d ng để d đoán giá tr của thu c tính mục tiêu.

3. Xây d ng mô hình khai phá trên tập dữ liệu huấn luyện.

4. Kiểm thử mô hình trên tập dữ liệu kiểm thử.

5. Áp dụng mô hình với tập dữ liệu đích.

Sau đây là chi tiết th c hiện của bước 3, bước 4, bước 5.

Bước 3: Xây dựng mô hình khai phá trên tập dữ liệu huấn luyện

- Trên giao diện chương trình, chọn Activity -> chọn Build

Hình 3.1. Màn hình ODM - chọn chức năng xây dựng mô hình khai phá dữ liệu

- Chọn chức n ng và giải thuật khai phá

Hình 3.2. Màn hình ODM - chọn chức năng, giải thuật khai phá dữ liệu

- Chọn Schema, table/view, unique indentifier,Colums:

Hình 3.3. Màn hình ODM - chọn bảng dữ liệu học cho khai phá dữ liệu

- Chọn đích (Target)

Hình 3.4. Màn hình ODM - chọn thuộc tính đích trong bảng dữ liệu học

- Nhập tên mô hình, nhấn Next, sau đó nhấn Finish

Hình 3.5. Màn hình ODM - nhập tên cho mô hình khai phá dữ liệu

- Nhấn Run Activity

Hình 3.6. Màn hình ODM – kết quả xây dựng mô hình khai phá dữ liệu

Bước 4: Kiểm thử mô hình trên tập dữ liệu kiểm thử:

- Trên giao diện chương trình, chọn Activity -> chọn Test

Hình 3.7. Màn hình ODM – chọn chức năng kiểm thử mô hình khai phá dữ liệu

- Chọn mô hình cần kiểm thử

Hình 3.8. Màn hình ODM – chọn mô hình khai phá dữ liệu cần kiểm thử

- Chọn bảng dữ liệu kiểm thử

Hình 3.9. Màn hình ODM – chọn bảng dữ liệu kiểm thử

- Nhấn Result để xem kết quả kiểm thử

Hình 3.10. Màn hình ODM – kết quả kiểm thử

- Đ tin cậy của mô hình được thể hiện ở thẻ Preditive Confidence như hình sau:

Hình 3.11. Màn hình ODM – độ tin cậy của mô hình khai phá dữ liệu

- Đ chính xác của mô hình được thể hiện ở thẻ Accuracy như hình sau:

Hình 3.12. Màn hình ODM – độ chính xác của mô hình khai phá dữ liệu

Bước 5: Áp dụng mô hình khai phá vào khai phá dữ liệu:

- Trên giao diện chương trình, chọn Activity -> chọn Apply

Hình 3.13. Màn hình ODM – chọn chức năng áp dụng mô hình khai phá dữ liệu

- Chọn mô hình khai phá

Hình 3.14. Màn hình ODM – chọn mô hình khai phá dữ liệu cần áp dụng

- Chọn bảng dữ liệu cần khai phá

Hình 3.15. Màn hình ODM – chọn bảng dữ liệu cần khai phá

- Chọn thu c tính đầu vào

Hình 3.16. Màn hình ODM – chọn thuộc tính đầu vào cho khai phá

- Nhập tên hoạt đ ng khai phá dữ liệu

Hình 3.17. Màn hình ODM – nhập tên cho hoạt động khai phá

- Chọn Run Activity để hoàn thành việc khai phá

Hình 3.18. Màn hình ODM – kết quả áp dụng mô hình khai phá dữ liệu

- Chọn Result để xem kết quả d đoán

Hình 3.19. Màn hình ODM – kết quả khai phá dữ liệu

3.3. Tổng kết chƣơng 3

Chương này trình bày lý do sử dụng công nghệ khai phá dữ liệu của Oracle, quy

trình khai phá dữ liệu sử dụng công cụ Oracle Data Miner.

CHƢƠNG 4: THỰC NGHIỆM PHÂN LỚP CÁC NGÂN HÀNG THƢƠNG MẠI

4.1. Môi trƣờng thực nghiệm

4.1.1 Cấu hình phần cứng, hệ điều hành

Bảng 4.1. Cấu hình phần cứng, hệ điều hành

Thành phần Chỉ số

Intel Core 2 Duo 3.00 GHz CPU

2 GB RAM

150 GB HDD

Microsoft Window XP Service Park 3 OS

4.1.2 Công cụ phần mềm

Trong luận v n đã sử dụng các phần mềm trong bảng sau:

Bảng 4.2. Danh sách các phần mềm sử dụng

STT Tên phần mềm Nguồn

1 Oracle database 10g Đĩa CD chứa b cài Oracle Database 10g

2 Java JDK 1.4.2

3 Oracle Data Miner 10.2.0.1 http://www.oracle.com/technetwork/database/e nterprise-edition/odminer-install-10202- 098193.html

4.1.3 Cài đặt và kết nối phần mềm

Để sử dụng Oracle Data Miner trên Microsoft Windows, cần cài đặt và kết nối

như sau:

1. Cài đặt Oracle Database 10g và tạo Database chứa dữ liệu th c nghiệm.

2. Cài đặt Java JDK 1.4.2.

3. Tải odminer.zip.

4. Giải nén tệp odminer.zip.

5. Chạy (nhấp đúp chu t) tệp odminerw.exe trong thư mục bin vừa giải nén.

6. Đ nh nghĩa m t kết nối như mô tả dưới đây: (Host là đ a ch của máy chứa dữ

liệu th c nghiệm)

Hình 4.1. Định nghĩa một kết nối Oracle Data Miner với cơ sở dữ liệu

4.2. Dữ liệu thực nghiệm

Dữ liệu th c nghiệm gồm dữ liệu các ch tiêu giám sát của 98 ngân hàng thương mại trong n m 2010, 2011, 2012, 2013. Dữ liệu th c nghiệm có tất cả 4253 bản ghi. Toàn b dữ liệu th c nghiệm được tiền xử lý và gán nhãn như sau:

Trong phạm vi luận v n, ch xét các ch tiêu trong bảng sau làm c n cứ chính để

đánh giá, xếp loại các ngân hàng thương mại:

Bảng 4.3. Các chỉ tiêu xếp loại ngân hàng thương mại

Mã chỉ tiêu Tên chỉ tiêu

M51 Chênh lệch thu nhập, chi phí

Lỗ lũy kế M246

Tỷ lệ nợ xấu M111

Tỷ lệ nợ quá hạn M112

M107 Tỷ lệ đầu tư, mua sắm tài sản cố đ nh so với Vốn cấp 1

M108 Giới hạn góp vốn mua cổ phần

Tiêu chí cho điểm từng ch tiêu như sau:

Bảng 4.4. Tiêu chí quy đổi điểm

Chỉ tiêu Điểm

Chênh lệch thu nhập, chi phí

> 0 A

= 0 B

< 0 C

Lỗ lũy kế

> 0 A

= 0 B

< 0 C

Tỷ lệ nợ xấu

≥ 10 C

≥ 3 và < 10 B

< 3 A

Tỷ lệ nợ quá hạn

≥ 20 C

≥ 13 và < 20 B

< 13 A

Tỷ lệ đầu tư, mua sắm tài sản cố đ nh so với Vốn cấp 1

≥ 100 C

≥ 50 và < 100 B

< 50 A

Giới hạn góp vốn mua cổ phần

≥ 80 C

≥ 40 và < 80 B

< 40 A

Quy tắc xếp loại như sau:

+ Nếu cả 6 ch tiêu đạt điểm A thì NHTM xếp loại A.

+ Nếu 1 hoặc 2 trong 6 ch tiêu b điểm B thì NHTM xếp loại B.

+ Nếu > 2 ch tiêu b điểm B hoặc (>1 và <5) ch tiêu b điểm C thì NHTM

xếp loại C.

+ Nếu >4 ch tiêu b điểm C thì NHTM xếp loại D.

Tập dữ liệu th c nghiệm được chia làm hai tập con, tập dữ liệu huấn luyện và tập

dữ liệu kiểm thử. Trong đó:

- Tập dữ liệu huấn luyện được phân bố như sau:

Bảng 4.5. Phân bố dữ liệu huấn luyện

STT Lớp Số trƣờng hợp

1 A 1663

2 B 861

3 C 217

4 D 93

Tổng 2834

- Tập dữ liệu kiểm thử được phân bố như sau:

Bảng 4.6. Phân bố dữ liệu kiểm thử

STT Lớp Số trƣờng hợp

1 A 990

2 B 500

3 C 138

4 D 53

Tổng 1681

4.3. Kết quả thực nghiệm

4.3.1 Kết quả thực nghiệm đối với thuật toán phân lớp Naive Bayes

a) Kết quả thực nghiệm với dữ liệu gốc

Bảng 4.7. Kết quả thực nghiệm phân lớp Naive Bayes với dữ liệu gốc

F-Measure STT Lớp (Đ đo F) Độ chính xác (Precision) Độ hồi tƣởng (Recall) Số trƣờng hợp phân lớp sai Số trƣờng hợp phân lớp đúng

875 1 A 29 0,9679 0,8838 0,9239

403 2 B 117 0,775 0,806 0,7902

109 3 C 97 0,5291 0,7899 0,6337

51 1. 4 D 0 1 0,9623 0,9808

 = 0,8554

M = 0,8605

b) Kết quả thực nghiệm với dữ liệu quy đổi

Bảng 4.8. Kết quả thực nghiệm phân lớp Naive Bayes với dữ liệu quy đổi

F-Measure STT Lớp (Đ đo F) Độ chính xác (Precision) Độ hồi tƣởng (Recall) Số trƣờng hợp phân lớp sai Số trƣờng hợp phân lớp đúng

802 1 A 119 1 0,9808 0,9903

372 2 B 199 0,8923 0,928 0,9098

80 3 C 28 0,7372 0,7319 0,7345

50 2. 4 D 31 1 1 1

 = 0,9453

M = 0,9102

4.3.2 Kết quả thực nghiệm đối với thuật toán phân lớp SVM

a) Kết quả thực nghiệm với dữ liệu gốc

Bảng 4.9. Kết quả thực nghiệm phân lớp SVM với dữ liệu gốc

F-Measure STT Lớp (Đ đo F) Độ chính xác (Precision) Độ hồi tƣởng (Recall) Số trƣờng hợp phân lớp sai Số trƣờng hợp phân lớp đúng

802 1 A 119 0,8708 0,8101 0,8394

372 2 B 199 0,6515 0,744 0,6947

80 3 C 28 0,7407 0,5797 0,6504

50 3. 4 D 31 0,6173 0,9434 0,7463

 = 0,7757

M = 0,7693

b) Kết quả thực nghiệm với dữ liệu quy đổi

Bảng 4.10. Kết quả thực nghiệm phân lớp SVM với dữ liệu quy đổi

F-Measure STT Lớp (Đ đo F) Độ chính xác (Precision) Độ hồi tƣởng (Recall) Số trƣờng hợp phân lớp sai Số trƣờng hợp phân lớp đúng

990 1 A 42 0,9593 1 0,9792

405 2 B 17 0,9597 0,81 0,8785

106 3 C 52 0,6709 0,7681 0,7162

53 4. 4 D 15 0,7681 1 0,8688

 = 0,9244

M = 0,8945

4.3.3 Kết quả thực nghiệm đối với thuật toán phân lớp cây quyết định

a) Kết quả thực nghiệm với dữ liệu gốc

Bảng 4.111. Kết quả thực nghiệm phân lớp cây quyết định với dữ liệu gốc

F-Measure STT Lớp (Đ đo F) Độ chính xác (Precision) Độ hồi tƣởng (Recall) Số trƣờng hợp phân lớp sai

Số trƣờng hợp phân lớp đúng

979 8 0,9919 0,9889 0,9904 1 A

475 30 0,9406 0,95 0,9453 2 B

118 17 0,8741 0,8551 0,8645 3 C

53 1 0,9815 1 0,9907 5. 4 D

 = 0,9667

M = 0,9485

b) Kết quả thực nghiệm với dữ liệu quy đổi

Bảng 4.122. Kết quả thực nghiệm phân lớp cây quyết định với dữ liệu quy đổi

F-Measure STT Lớp (Đ đo F) Độ chính xác (Precision) Độ hồi tƣởng (Recall) Số trƣờng hợp phân lớp sai Số trƣờng hợp phân lớp đúng

999 1 0,999 1 0,9995 1 A

495 10 0,9802 0,99 0,9851 2 B

127 4 0,9695 0,9203 0,9443 3 C

53 1 0,9815 1 0,9907 6. 4 D

 = 0,9905

M = 0,9776

4.4. Đánh giá kết quả đạt đƣợc

Quá trình th c nghiệm mô hình giải quyết bài toán phân lớp các ngân hàng thương mại d a trên phương pháp cây quyết đinh, phương pháp máy hỗ trợ vector SVM và phương pháp Naive Bayes bước đầu cho thấy kết quả tương đối khả quan với đ chính xác cao. Trong đó, khi th c nghiệm sử dụng dữ liệu gốc, phương pháp cây quyết đ nh cho kết quả có đ tin cậy (93,13%) và đ chính xác (96,67%) cao nhất, phương pháp Naive Bayes cho kết quả có đ tin cậy (81,4%) và đ chính xác (85,54) cao hơn so với phương pháp máy hỗ trợ vector SVM. Thời gian xây d ng mô hình của các thuật toán rất nhanh, với dữ liệu thử nghiệm thì thời gian xây d ng mô hình, kiểm thử mô hình và áp dụng mô hình của cả ba thuật toán ch vài giây.

Th c nghiệm cho thấy rằng việc sử dụng dữ liệu đã quy đổi đối với cả ba thuật

toán đều cho ra kết quả tốt hơn việc sử dụng dữ liệu gốc.

Kết quả th c nghiệm cũng cho thấy mô hình d đoán có tính khả thi và có thể áp

dụng được trong th c tế.

4.5. Tổng kết chƣơng 4

Chương này trình bày quy trình phân lớp các ngân hàng thương mại trên cơ sở mô hình đề xuất ở chương 2, th c nghiệm và đánh giá kết quả phân lớp các ngân hàng thương mại d a trên phương pháp cây quyết đinh, phương pháp máy hỗ trợ vector SVM và phương pháp Naive Bayes.

KẾT LUẬN

Từ việc nghiên cứu bài toán phân lớp các ngân hàng thương mại, luận v n đã đề xuất ra mô hình giải quyết bài phân lớp các ngân hàng thương mại d a trên phương pháp cây quyết đ nh, phương pháp máy hỗ trợ vector (SVM) và phương pháp Naive Bayes. Qua các kết quả th c nghiệm đạt được cho thấy mô hình đề xuất d a trên phương pháp cây quyết đ nh có đ chính xác cao nhất. D a vào kết quả th c nghiệm có thể thấy mô hình xây d ng có tính khả thi và có thể áp dụng được trong th c tế.

Về mặt n i dung, luận v n đã đạt được những kết quả sau:

- Trình bày các khái niệm chung nhất về khai phá dữ liệu

- Trình bày bài toán phân lớp và phân lớp d a trên phương pháp cây quyết đinh, phương pháp máy hỗ trợ vector (SVM) và phương pháp Naive Bayes.

- Trình bày bài toán phân lớp các ngân hàng thương mại và mô hình giải

quyết bài toán phân lớp các ngân hàng thương mại.

- Trình bày công nghệ khai phá dữ liệu của Oracle, công cụ khai phá dữ liệu

Oracle Data Miner.

- Th c nghiệm phân lớp các ngân hàng thương mại đối với thuật toán phân lớp cây quyết đ nh, thuật toán Naive Bayes và thuật toán SVM trên Oracle Data Miner.

- Đánh giá kết quả đạt được.

Nhìn chung, hướng tiếp cận của đề tài là đúng đắn và có tính th c tiễn cao. Để đưa mô hình phân lớp các ngân hàng thương mại vào ứng dụng m t cách hiệu quả tại Bảo hiểm tiền gửi Việt Nam thì Bảo hiểm tiền gửi Việt Nam cần có cơ chế thu thập dữ liệu của các ngân hàng thương mại đầy đủ và chính xác hơn nữa, cần xây d ng được b học dữ liệu lớn và chính xác (b dữ liệu đánh giá rủi ro của các ngân hàng thương mại c n cứ vào toàn b hệ thống ch tiêu giám sát), áp dụng mô hình d đoán vào th c tế, kiểm chứng th c tế và đánh giá kết quả m t cách thường xuyên.

Ngoài ra, luận v n có thể được tham khảo để giải quyết bài toán đánh giá rủi ro, phân lớp các quỹ tín dụng c n cứ vào hệ thống ch tiêu giám sát đối với các quỹ tín dụng d a trên các phương pháp phân lớp sử dụng công cụ Oracle Data Miner.

Đối với hệ thống thông tin quản lý và hiện đại hóa ngân hàng - Hợp phần Bảo hiểm tiền gửi Việt Nam đang trong quá đấu thầu để triển khai, m t trong những yêu cầu trong phân hệ Giám sát rủi ro của hệ thống này là hệ thống phải cho phép tiến hành khai thác dữ liệu, hệ thống phải cung cấp các công cụ hỗ trợ các hoạt đ ng: đánh giá rủi ro, xếp hạng tổ chức tham gia Bảo hiểm tiền gửi. Vì vậy, kết quả nghiên cứu của luận v n là tiền đề cho việc triển khai phân hệ Giám sát rủi ro của hệ thống này.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Đinh Th Kim Dung (2004), “M t số thử nghiệm khai phá dữ liệu trong cơ sở

dữ liệu ORACLE”, Đại học Công nghệ, Đại học Quốc gia Hà N i.

[2] Lường Hồng Giang (2012), “Ứng dụng m t số kỹ thuật khai phá dữ liệu để phân tích dữ liệu viễn thông nhằm t ng cường chất lượng d ch vụ khách hàng”, Đại học Công nghệ, Đại học Quốc gia Hà N i.

[3] Đoàn Nhật Minh (2003), “Nghiên cứu m t số phương pháp khai phá dữ liệu và thiết kế, xây d ng ứng dụng khai phá dữ liệu trên kho dữ liệu khách hàng của bưu điện Tp. Hà N i”, Đại học Công nghệ, Đại học Quốc gia Hà N i.

[4] Vũ Thanh Nguyên, Trang Nhật Quang (2009) ,“Ứng dụng thuật toán phân lớp rút trích thông tin v n bản FSVM trên Internet”, Tạp chí Phát triển Khoa học và Công nghệ, tập 12, số 05-2009.

[5] Hà Quang Thụy (2013), Bài giảng “Kho dữ liệu và khai phá dữ liệu”.

[6] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), “Giáo trình khai phá dữ liệu Web”, Nhà xuất bản Giáo dục Việt Nam.

[7] Nguyễn Thu Trà (2006), “Nghiên cứu và áp dụng m t số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành Thuế Việt Nam”, Luận v n thạc sỹ khoa học, Trường Đại học Bách Khoa Hà N i.

[8] Website: http://bis.net.vn

Tiếng Anh

[9] Jiawei Han and Michelline Kamber (2000), “Data mining: Concepts and

Techniques”, Morgan Kaufmann Publishers.

[10] Oracle (2003), “Oracle Data Mining Concepts 10g Release 1”, Oracle

Corporation.

[11] Oracle (2008), “Oracle Data Mining Tutorial for Oracle Data Mining 10g

Release 2”, Oracle Corporation.

[12] Oracle (2003), “Oracle Data Mining Administrator's Guide 10g Release 1”,

Oracle Corporation.

Luận văn Thạc sĩ Công nghệ thông tin: Khai phá dữ liệu trên nền Oracle và ứng dụng

Chủ đề:

Luận văn thạc sĩ CNTT

Luận văn thạc sĩ khoa học dữ liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ MINH LÝ

KHAI PHÁ DỮ LIỆU

TRÊN NỀN ORACLE VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2014

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ MINH LÝ

KHAI PHÁ DỮ LIỆU

TRÊN NỀN ORACLE VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: GS.TS. VŨ ĐỨC THI

HÀ NỘI - 2014

LỜI CẢM ƠN

LỜI CAM ĐOAN

Tài liệu liên quan

Tóm tắt Luận án Tiến sĩ: Ứng dụng số liệu sóng vô tuyến và mô hình số trị để nghiên cứu đánh giá một số thông số khí quyển tại một số khu vực của Việt Nam

Luận án Tiến sĩ: Ứng dụng số liệu sóng vô tuyến và mô hình số trị để nghiên cứu đánh giá một số thông số khí quyển tại một số khu vực của Việt Nam

Luận án Tiến sĩ: Phát triển suy luận và thái độ thống kê cho sinh viên sư phạm toán qua dạy học thống kê

Luận văn Thạc sĩ: Nghiên cứu sử dụng các phương pháp học máy có giám sát để phân loại hoạt động dựa trên dữ liệu gia tốc

Tóm tắt Luận án Tiến sĩ: Phát triển một số phương pháp truy vấn hiệu quả trên cơ sở dữ liệu quan hệ mã hoá

Luận án Tiến sĩ: Phát triển một số phương pháp truy vấn hiệu quả trên cơ sở dữ liệu quan hệ mã hoá

Luận văn Thạc sĩ: Lý thuyết tập mờ và ứng dụng trong phân lớp dữ liệu

Đề án Thạc sĩ: Mô hình B-L hai lưỡng tuyến, với nhóm D4 × Z4 × Z2 sinh khối lượng và trộn lepton

Đề án Thạc sĩ: Ứng dụng các phương pháp học máy để phân vùng ảnh và xây dựng ứng dụng xác định bọt khí trong chất lỏng

Đề án Thạc sĩ: Phát hiện dữ liệu ngoài phân phối ứng dụng trong nâng cao hiệu năng mô hình học máy

Tài liêu mới

Luận văn Thạc sĩ: Phát triển dịch vụ ngân hàng điện tử tại Ngân hàng Nông nghiệp và Phát triển Nông thôn Việt Nam, Chi nhánh huyện Yên Mỹ, Hưng Yên II

Đề án Thạc sĩ: Giải pháp phát triển ngân hàng số trong hoạt động bán lẻ tại Ngân hàng Thương mại Cổ phần Công Thương Việt Nam

Luận án Tiến sĩ: Nghiên cứu các yếu tố ảnh hưởng tới lòng trung thành của khách hàng đối với sàn giao dịch thương mại điện tử tại Việt Nam

Luận án Tiến sĩ: Các yếu tố tác động tới ý định đầu tư điện mặt trời mái nhà ở Việt Nam - Nghiên cứu điển hình tại các đô thị lớn

Luận án Tiến sĩ: Nghiên cứu các yếu tố ảnh hưởng tới hành vi tiết kiệm năng lượng của cư dân đô thị Hà Nội

Tóm tắt Luận án Tiến sĩ: Nghiên cứu các yếu tố ảnh hưởng tới hành vi tiết kiệm năng lượng của cư dân đô thị Hà Nội

Luận án Tiến sĩ: Nghiên cứu giải pháp tối ưu hóa quá trình điều khiển và vận hành trạm sạc tích hợp điện mặt trời tại Việt Nam

Luận án Tiến sĩ: Các nhân tố ảnh hưởng tới lòng trung thành của khách du lịch đối với điểm đến du lịch nông nghiệp Việt Nam - Nghiên cứu tại Hà Nội

Luận án Tiến sĩ: Kế toán quản trị chi phí theo vòng đời sản phẩm trong các doanh nghiệp sản xuất sản phẩm điện tử tại Việt Nam

Luận án Tiến sĩ: Nghiên cứu ứng dụng thuật toán di truyền và thuật toán tối ưu bầy đàn để ước lượng trạng thái hệ thống điện

Tóm tắt Luận án Tiến sĩ: Nghiên cứu ứng dụng thuật toán di truyền và thuật toán tối ưu bầy đàn để ước lượng trạng thái hệ thống điện

Luận án Tiến sĩ: Nghiên cứu cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh

Luận án Tiến sĩ: Nghiên cứu đổi mới quản lý trong doanh nghiệp phân phối điện tại Tổng công ty Điện lực miền Bắc

Tóm tắt Luận án Tiến sĩ: Nghiên cứu đổi mới quản lý trong doanh nghiệp phân phối điện tại Tổng công ty Điện lực miền Bắc

Luận án Tiến sĩ: Nghiên cứu, phát triển các kỹ thuật xử lý tín hiệu để nâng cao hiệu năng cho các hệ thống vô tuyến đa sóng mang thế hệ tiếp theo

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Giới thiệu

Về chúng tôi

Việc làm

Quảng cáo

Liên hệ

Chính sách

Thoả thuận sử dụng

Chính sách bảo mật

Chính sách hoàn tiền

DMCA

Hỗ trợ

Hướng dẫn sử dụng

Đăng ký tài khoản VIP

093 303 0098

support@tailieu.vn

Phương thức thanh toán

Theo dõi chúng tôi

Facebook

Youtube

TikTok