<br />
<br />
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP <br />
<br />
Mô hình chấm điểm tín dụng dựa trên sự kết hợp<br />
giữa mô hình Cây quyết định, Logit, K láng giềng<br />
gần nhất và Mạng thần kinh nhân tạo<br />
Nguyễn Tiến Hưng<br />
Lê Thị Huyền Trang<br />
Ngày nhận: 03/06/2018 <br />
<br />
Ngày nhận bản sửa: 06/06/2018 <br />
<br />
Ngày duyệt đăng: 18/06/2018<br />
<br />
Tìm kiếm một mô hình chấm điểm tín dụng hiệu quả đang là một vấn<br />
đề quan trọng khi tình trạng nợ xấu đã và đang ảnh hưởng nghiêm<br />
trọng tới hoạt động của các tổ chức tín dụng (TCTD) tại Việt Nam.<br />
Vài thập kỉ qua đã có nhiều nghiên cứu trong lĩnh vực thống kê tại<br />
các nước phát triển được tiến hành nhằm nâng cao tính chính xác<br />
của các mô hình chấm điểm tín dụng. Tuy nhiên, tại Việt Nam chưa<br />
có nhiều nghiên cứu về lĩnh vực này. Các nghiên cứu chủ yếu sử dụng<br />
các mô hình truyền thống như Logit (LR), phân tích phân biệt (DA).<br />
Một vài nghiên cứu có đề cập tới các mô hình học máy như cây quyết<br />
định (DT), K láng giềng gần nhất (KNN), mạng thần kinh nhân tạo<br />
(ANN). Bài nghiên cứu hướng đến việc xây dựng, đánh giá hiệu quả<br />
của các mô hình kết hợp DT_LR, DT_KNN, DT_ANN, đây là một xu<br />
hướng trong các nghiên cứu ứng dụng nhằm tăng cường độ chính<br />
xác cho các mô hình chấm điểm tín dụng.<br />
Từ khóa: Chấm điểm tín dụng, Cây quyết định, K láng giềng gần<br />
nhất, Mạng thần kinh nhân tạo<br />
<br />
1. Giới thiệu<br />
<br />
số lượng tiền là bao nhiêu và họ cần phải xây<br />
dựng những chiến lược gì để gia tăng được lợi<br />
nhuận trong khi vẫn quản lý hiệu quả các rủi ro<br />
đi kèm. Việc xây dựng được một công cụ chấm<br />
điểm hiệu quả đem lại rất nhiều lợi ích cho các<br />
TCTD:<br />
○○ Cải thiện dòng vốn<br />
○○ Bảo đảm tài sản thế chấp là phù hợp<br />
○○ Giảm các khoản lỗ tín dụng<br />
<br />
hấm điểm tín dụng được hiểu<br />
một cách rộng rãi là việc đánh<br />
giá rủi ro tiềm tàng của các đối<br />
tượng đi vay theo một thang<br />
điểm nhất định. Mô hình chấm<br />
điểm tín dụng là một công cụ giúp cho nhà<br />
quản trị biết được khi nào họ nên cho vay, với<br />
© Học viện Ngân hàng<br />
ISSN 1859 - 011X<br />
<br />
46<br />
<br />
Tạp chí Khoa học & Đào tạo Ngân hàng<br />
Số 193- Tháng 6. 2018<br />
<br />
<br />
<br />
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP<br />
<br />
○○ Giảm chi phí phân tích tín dụng<br />
hợp hiệu quả đã được tìm ra, tuy nhiên càng<br />
○○ Giảm thời gian đưa ra quyết định cấp tín<br />
kết hợp nhiều kỹ thuật thì việc giải thích sự tác<br />
dụng<br />
động giữa các dữ liệu đầu vào đến kết quả điểm<br />
○○ Đa dạng hoá các sản phẩm tín dụng theo các<br />
được chấm càng khó khăn. Bài nghiên cứu sẽ<br />
phân cấp rủi ro khác nhau<br />
xây dựng, đánh giá hiệu quả của mô hình kết<br />
○○ Hiểu được hành vi của khách hàng.<br />
hợp các mô hình DT_LR, DT_KNN, DT_ANN,<br />
Chấm điểm tín dụng đo lường định lượng rủi ro<br />
nhằm tăng cường độ chính xác cho các mô hình<br />
tiềm tàng của khách hàng bằng cách phân tích<br />
chấm điểm tín dụng.<br />
dữ liệu cá nhân để tìm ra khả năng vỡ nợ của họ<br />
với khoản vay trong tương lai. Hoạt động này<br />
2. Các mô hình xếp hạng tín dụng<br />
cũng có thể được hiểu như là một kỹ thuật khai<br />
phá dữ liệu, tìm kiếm các quy luật của các dữ<br />
2.1. Mô hình Logit<br />
liệu lịch sử và áp dụng đưa ra quyết định cấp<br />
tín dụng cho các khách hàng trong tương lai.<br />
Mô hình Logit là mô hình hồi quy với biến phụ<br />
Các kĩ thuật khai phá dữ liệu sử dụng trong lĩnh<br />
thuộc (Y) là biến nhị phân, chỉ nhận hai giá trị<br />
vực chấm điểm tín dụng được phát minh từ thập<br />
là 0 và 1; các biến độc lập có thể là biến nhị<br />
niên 50 thế kỉ trước (Lando, 2004). Đến nay, đã<br />
phân, biến rời rạc hoặc biến liên tục. Trong mô<br />
có rất nhiều các kĩ thuật được phát triển và ứng<br />
hình xếp hạng tín dụng, biến phụ thuộc Y nhận<br />
dụng, trong đó phổ biến nhất phải kể đến các<br />
giá trị 0 khi khách hàng không trả được nợ và<br />
kĩ thuật như: Phân tích phân biệt (DA), logit,<br />
1 khi khách hàng trả được nợ (Lee và cộng sự,<br />
K láng giềng gần nhất, mạng thần kinh nhân<br />
2000). Các biến độc lập đại diện cho các thông<br />
tạo (ANN) (Thomas và cộng sự, 2009; Abdou,<br />
tin định tính và định lượng của khách hàng như<br />
2011). Sự bùng nổ của công nghệ thông tin 4.0<br />
thu nhập, độ tuổi, giới tính, trình độ học vấn...<br />
cùng với sự phát triển của trí tuệ thông minh,<br />
Sau khi hồi quy mô hình Logit, thu được Ŷ = α<br />
thì việc tập trung vào khai phá dữ liệu sử dụng<br />
+ β1X1 + β2X2 + ... + βkXk là giá trị ước lượng<br />
các kỹ thuật trí tuệ nhân tạo đang là xu hướng<br />
của Y. Khi đó, xác suất trả nợ của khách hàng<br />
trong lĩnh vực chấm điểm tín dụng.<br />
được tính bằng công thức sau:<br />
Bên cạnh sự phát triển của các kĩ thuật phân<br />
P = 1/ (1 + e−Y)<br />
loại đơn lẻ, đã có nhiều nghiên cứu tiến hành<br />
Giá trị P nhận được trong khoảng (0,1) được<br />
đánh giá hiệu quả của việc kết hợp các thuật<br />
so sánh với các ngưỡng mà ngân hàng đặt ra<br />
toán đơn lẻ nhằm tối đa hoá khả năng dự báo<br />
để xếp hạng khách hàng. Tuy nhiên, trong bài<br />
trong các mô hình chấm điểm tín dụng. Một số<br />
nghiên cứu này, để dễ dàng hơn trong việc so<br />
nghiên cứu của Kim và cộng sự (2001), Ahn và<br />
sánh hiệu quả của các mô hình, giá trị ngưỡng<br />
cộng sự (2009), Luo và cộng sự (2009) đề cập<br />
để phân loại khách hàng được chọn là 0,5. Điều<br />
đến việc sử dụng các kĩ thuật phân loại dữ liệu<br />
này có nghĩa rằng nếu giá trị P < 0,5, khách<br />
như Seft-Organzing Map (SOM), thuật toán<br />
hàng sẽ được dự báo vỡ nợ, và ngược lại nếu P<br />
di truyền (GA), thuật toán phân<br />
nhóm (K-MC), sau đó sử dụng<br />
Hình 1. Cây quyết định (Decision tree)<br />
dữ liệu mới này cho các mô hình<br />
chấm điểm như phân tích phân biệt<br />
(DA), Logit (LR), K-NN, ANN.<br />
Một số nghiên cứu khác của Lee<br />
và cộng sự (2005), Li và cộng sự<br />
(2010) kết hợp các kĩ thuật phân<br />
loại, trong đó kết quả dự báo của<br />
kĩ thuật này sẽ được sử dụng như<br />
là một nhân tố đầu vào cho kĩ thuật<br />
khác. Đã có rất nhiều cách kết<br />
<br />
Nguồn: Abdou. (2011)<br />
<br />
Tạp chí Khoa học & Đào tạo Ngân hàng<br />
<br />
Số 193- Tháng 6. 2018<br />
<br />
47<br />
<br />
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP <br />
<br />
≥ 0,5, khách hàng sẽ được dự báo trả được nợ.<br />
2.2. Cây quyết định (Decision Tree- DT)<br />
Cây quyết định (DT) là một kiểu mô hình phân<br />
lớp các quan sát dựa vào dãy các luật. Mô hình<br />
này bao gồm một nút gốc (Root node), các nút<br />
bên trong (Internal node) và nút lá (Leaf node).<br />
Mỗi một nút trong DT tương ứng với một biến;<br />
đường nối giữa nó với nút con của nó thể hiện<br />
một giá trị cụ thể cho biến đó (đây chính là điều<br />
kiện hay luật để phân nhánh cho mỗi node).<br />
Mỗi nút lá đại diện cho giá trị dự đoán của biến<br />
mục tiêu; các giá trị cho trước của các biến<br />
được biểu diễn bởi đường đi từ nút gốc tới nút<br />
lá đó (Hình 1).<br />
Cây quyết định được xây dựng bằng cách phân<br />
tách thuộc tính các giá trị tại mỗi nút dựa trên<br />
một thuộc tính đầu vào. Quá trình phân lớp sử<br />
dụng các thuộc tính phân tách được thực hiện<br />
liên tục cho tới khi gặp các nút lá (giá trị mục<br />
tiêu). Tập hợp các luật đường đi từ nút gốc tới<br />
nút lá sẽ xác định cho chúng ta các luật quyết<br />
định mà hàm mục tiêu trả về giá trị là mức độ<br />
rủi ro tương ứng với khách hàng. <br />
DT là một phương pháp phân lớp rất hiệu quả<br />
và dễ hiểu. Tuy nhiên, hiệu quả phân lớp của<br />
cây quyết định phụ thuộc rất lớn vào dữ liệu<br />
huấn luyện (training data). Do vậy, việc sử<br />
dụng một bộ dữ liệu lớn về lịch sử vay nợ của<br />
khách hàng là rất cần thiết để xây dựng mô hình<br />
DT đáng tin cậy.<br />
<br />
2.3. K Láng giềng gần nhất (K-Nearest<br />
Neighbor- KNN)<br />
KNN là phương pháp học máy để phân lớp các<br />
đối tượng dựa vào khoảng cách gần nhất giữa<br />
đối tượng cần xếp lớp và tất cả các đối tượng<br />
trong dữ liệu huấn luyện. Lớp của một điểm dữ<br />
liệu mới (hay phân loại khách hàng) được suy<br />
ra trực tiếp từ K điểm dữ liệu gần nhất trong<br />
dữ liệu huấn luyện. Lớp này có thể được quyết<br />
định theo lớp có số lượng điểm (trong K điểm<br />
gần nhất) nhiều nhất.<br />
Từ Hình 2 có thể thấy, nếu chọn số điểm gần<br />
nhất để phân loại là 3 thì xung quanh điểm cần<br />
phân lớp có 3 điểm trong đó 1 điểm thuộc lớp 1<br />
và 2 điểm thuộc lớp 2. Với số điểm thuộc lớp 2<br />
nhiều hơn, điểm cần phân lớp được đưa vào lớp<br />
số 1. Tương tự như vậy, nếu lựa chọn số điểm<br />
gần nhất k=5 thì có năm điểm xung quanh điểm<br />
cần phân lớp, trong đó có 3 điểm thuộc lớp số 1<br />
và 2 điểm thuộc lớp 2. Nếu theo dữ liệu này thì<br />
điểm cần phân lớp sẽ thuộc lớp số 1.<br />
Trên thực tế dữ liệu cần phân loại có nhiều<br />
thuộc tính trong đó mỗi thuộc tính tương ứng<br />
với một chiều không gian, do vậy khi tính<br />
khoảng cách gần nhất cần tính khoảng cách<br />
vector trong không gian đa chiều với công thức<br />
khoảng cách Euclidean:<br />
<br />
Hình 2. K Láng giềng gần nhất (K-Nearest neighbor- KNN)<br />
<br />
Nguồn: Marinakis và cộng sự (2008)<br />
<br />
48 Số 193- Tháng 6. 2018<br />
<br />
Tạp chí Khoa học & Đào tạo Ngân hàng<br />
<br />
<br />
<br />
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP<br />
<br />
Hình 3. Cơ chế hoạt động nơ ron nhân tạo (node)<br />
<br />
Nguồn: Lee và cộng sự (2000)<br />
<br />
Trong đó: x, y là 2 điểm cần xác định khoảng<br />
cách; n là số chiều không gian (số thuộc tính<br />
của biến mục tiêu).<br />
2.4. Mô hình Mạng Nơ ron nhân tạo (ANN)<br />
Nơ ron nhân tạo<br />
Ý tưởng về mạng nơ ron nhân tạo<br />
(ANN) được hình thành từ những quan<br />
sát bộ não con người với chức năng cơ<br />
bản là tiếp nhận thông tin, xử lý thông<br />
tin và đưa ra kết quả. Cụ thể, bộ não<br />
được cấu thành từ các nơ ron liên kết<br />
với nhau. Mỗi nơ ron tiếp nhận thông<br />
tin đầu vào, xử lý và xuất thông tin đầu<br />
ra. Vì các nơ ron có sự liên kết phức tạp<br />
với nhau nên thông tin đầu ra của nơ<br />
ron này sẽ là thông tin đầu vào của nơ<br />
ron khác. Đến khi các thông tin được<br />
xử lý thỏa mãn theo các yêu cầu thì não<br />
bộ sẽ ngừng quá trình này lại và đưa ra<br />
kết quả cuối cùng.<br />
Sự tương tác phức tạp của hàng tỉ nơ<br />
ron được mô hình hóa thành các mô<br />
hình nơ ron nhân tạo (ANN). Về cơ<br />
bản, ANN cấu tạo bởi các nơ ron nhân<br />
tạo hay còn được gọi là các “node”.<br />
Hình 3 mô tả cơ chế hoạt động của một<br />
node.<br />
Các biến số sẽ được các node tiếp nhận<br />
theo các trọng số khác nhau thể hiện<br />
sự quan trọng của các nhân tố đầu vào<br />
này. Các biến số đầu vào sau khi nhân<br />
với các trọng số sẽ được lấy tổng để<br />
<br />
Tạp chí Khoa học & Đào tạo Ngân hàng<br />
<br />
trở thành 1 đầu vào duy nhất. Tại các node sẽ<br />
có các hàm kích hoạt để tính toán các kết quả<br />
đầu ra. Trong nghiên cứu này, để có sự tương<br />
đồng với mô hình logit, hàm kích hoạt sigmoid<br />
sẽ được dùng để xây dựng mô hình ANN. Hàm<br />
Hình 4. Mô hình mạng nơ ron đa lớp truyền thẳng<br />
(MLP)<br />
<br />
Nguồn: Lee và cộng sự (2005)<br />
<br />
Số 193- Tháng 6. 2018<br />
<br />
49<br />
<br />
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP <br />
<br />
sigmoid được mô tả bởi công thức S(x) = 1/<br />
(1- ), do đó, với mọi giá trị đầu vào x nhận giá<br />
trị từ -∞ đến +∞ thì kết quả đầu ra nằm trong<br />
khoảng (0,1)<br />
Mạng Nơ ron nhân tạo<br />
Một mạng nơ ron đầy đủ bao gồm 3 lớp với tên<br />
gọi lớp đầu vào (input layer), lớp ẩn (hidden<br />
layer) và lớp đầu ra (output layer). Trong đó<br />
một mạng nơ ron có thể có nhiều hơn một lớp<br />
ẩn, tuy nhiên, Lee và cộng sự (2005) chỉ ra rằng<br />
mạng nơ ron một lớp ẩn có thể giải quyết hầu<br />
hết các bộ số liệu kinh tế phức tạp. Mỗi lớp<br />
được cấu tạo từ một cho đến nhiều node. Trong<br />
lịch sử phát triển của mạng nơ ron nhân tạo,<br />
nhiều kiểu kiến trúc mạng quy định kết nối giữa<br />
các node được hình thành, tuy nhiên, bài nghiên<br />
cứu sử dụng mạng nơ ron truyền thẳng đa lớp<br />
(MLP), một trong những mạng được sử dụng<br />
phổ biến và đem lại hiệu quả cao nhất.<br />
Cấu trúc của mạng truyền thẳng đa lớp được<br />
mô tả trong Hình 4. Số lượng node trong một<br />
lớp và số lượng lớp phụ thuộc vào sự phức tạp<br />
của cơ sở dữ liệu đầu vào và yêu cầu xử lý. Các<br />
node của lớp trước sẽ được truyền thẳng và kết<br />
nối tới tất cả node của lớp sau. Thông tin lan<br />
truyền trong mạng sẽ được gắn với các trọng số<br />
khác nhau.<br />
Các trọng số được ước lượng bằng thuật<br />
toán lan truyền ngược (Back-Propagation<br />
alogorithm), lần đầu tiên được giới thiệu bởi<br />
Rumelhart và cộng sự (1986). Thuật toán này<br />
điều chỉnh liên tục các trọng số của các kết nối<br />
trong mạng để tối thiểu hóa sự khác biệt giữa<br />
giá trị đầu ra ước lượng và giá trị đầu ra thực<br />
tế, quá trình này còn được gọi là quá trình huấn<br />
luyện mạng. Cụ thể, trong giai đoạn đầu tiên<br />
khi hình thành mạng MLP, các trọng số được<br />
khởi tạo ngẫu nhiên. Các giá trị đầu ra của<br />
mạng được thiết lập thông qua giá trị bộ giữ<br />
liệu đầu vào. Sự chênh lệch giữa giá trị đầu ra<br />
ước lượng và đầu ra thực tế, hay còn gọi là sai<br />
số của mạng được xác định bởi công thức:<br />
<br />
Trong đó f(Xi) là ước lượng đầu ra thứ i, Yj là<br />
giá trị đầu ra thực tế và p là số trường hợp trong<br />
<br />
50 Số 193- Tháng 6. 2018<br />
<br />
bộ dữ liệu. Sau mỗi lần huấn luyện mạng sai số<br />
sẽ được lan truyền ngược lại và các trọng số sẽ<br />
được điều chỉnh để giảm sai số. Quá trình huấn<br />
luyện sẽ dừng lại khi khi mạng đạt được sai số<br />
nhỏ nhất, hay nói cách khác, mạng MLP đạt<br />
được cấu trúc hợp lý nhất để hiểu về bộ dữ liệu.<br />
3. Đề xuất Mô hình kết hợp<br />
Phương pháp kết hợp này dùng để cải thiện<br />
hiệu suất và độ chính xác phân loại. Hệ thống<br />
phân loại được chia làm nhiều lớp dựa trên sự<br />
kết hợp của hai hay nhiều các mô hình phân<br />
loại để đạt được hiệu suất cao hơn. Mục tiêu<br />
của các mô hình kết hợp là sẽ điều chỉnh các<br />
tập dữ liệu huấn luyện, xây dựng các tập dữ liệu<br />
đào tạo mới trong đó có sử dụng được kết quả<br />
(thế mạnh dự báo) của các mô hình khác. Nhiều<br />
nghiên cứu chỉ ra rằng dữ liệu huấn luyện có<br />
thể không cung cấp đủ thông tin để lựa chọn<br />
một mô hình phân loại tốt nhất. Việc sử dụng<br />
các mô hình phân loại kết hợp có thể bù trừ<br />
giảm thiểu những hạn chế của các mô hình đơn<br />
lẻ.<br />
Một số nghiên cứu trước đây của Peter và cộng<br />
sự (2015), Radall (2017) đã tiến hành kết hợp<br />
mô hình DT và mô hình mạng ANN. Sự kết hợp<br />
này được đánh giá là hiệu quả khi hai mô hình<br />
được kết hợp có chung khả năng là xử lý khối<br />
lượng dữ liệu lớn. Mô hình DT với ưu điểm là<br />
khả năng giải thích biến rõ ràng giúp cải thiện<br />
khả năng giải thích của mô hình chấm điểm tín<br />
dụng khi kết hợp với các mô hình “hộp đen”<br />
như ANN.<br />
Mô hình đề xuất trong bài nghiên cứu là sự<br />
kết hợp giữa mô hình DT và các mô hình LR,<br />
KNN, ANN nhằm so sánh hiệu quả giữa mô<br />
hình kết hợp với các kĩ thuật hiện đại và truyền<br />
thống. Quy trình kết hợp được mô tả trong Hình<br />
5, trong đó mô hình DT được thiết lập dựa trên<br />
bộ dữ liệu nghiên cứu. Kết quả từ mô hình DT<br />
bao gồm dự báo về phân loại khách hàng và xác<br />
xuất rủi ro được xem như 2 biến mới để kết hợp<br />
với bộ dữ liệu đã có làm nhân tố đầu vào cho<br />
các mô hình được kết hợp cùng.<br />
4. Dữ liệu nghiên cứu<br />
<br />
Tạp chí Khoa học & Đào tạo Ngân hàng<br />
<br />