Đ.Vit Hùng, T.Nht Vinh,... / Tp chí Khoa hc và Công ngh Đại hc Duy Tân 03(64) (2024) 32-39
32
Áp dng mng Bayes xây dng mô hình d đoán xác sut
điu kin phc hp
Applying Bayesian network to build predicting model for complex conditional probabilities
Đặng Vit Hùng
a*
, Trn Nht Vinh
a
, Nguyn Dũng
a
, Võ Nhân Văn
a
, Nguyn Th Thanh
b
Nguyn Quang Vinh
c
Dang Viet Hung
a*
, Tran Nhat Vinh
a
, Nguyen Dung
a
, Vo Nhan Van
a
, Nguyen Thi Thanh
b
,
Nguyen Quang Vinh
c
a
Khoa Công ngh Thông tin, Trường Khoa hc Máy tính, Trường Đại hc Duy Tân, Đà Nng, Vit Nam
a
Faculty of Information Technology, School of Computer Science, Duy Tan University, 550000, Da Nang, Vietnam
b
Khoa Giáo dc Ngh nghip, Trường Cao đẳng Sư Phm Qung Tr, Qung Tr, Vit Nam
b
Faculty of Career Education, Quang Tri Teacher Training College, Quang Tri, Vietnam
c
Tng Công ty Đin lc Thành ph H Chí Minh, Thành ph H Chí Minh, Vit Nam
c
Ho Chi Minh city Power Corporation, 700000 Ho Chi Minh city, Vietnam
(Ngày nhn bài: 05/01/2024, ngày phn bin xong: 09/03/2024, ngày chp nhn đăng: 26/03/2024)
Tóm tt
Các gii pháp Hc máy nhm h tr ra quyết định càng ngày càng đưc hoàn thin vi s phát trin ca các mng hc
sâu. Tuy nhiên, các mng này ch hot động chính xác khi vector d liu đầu vào là đầy đủ. Đối vi d liu không đầy
đủ, các mô hình xác sut có điu kin tr nên hu dng hơn các mng hc sâu. Bài báo này s gii thiu mng Bayes -
mt gii pháp sơ cp để d đoán xác sut trong các điu kin phc hp, làm tin đề cho ng dng th cp là phân loi,
d đoán hay ra quyết định. Mng Bayes cũng được hun luyn da trên d liu đầu vào, qua đó xác định đưc s ph
thuc hay độc lp ca các trường d liu. Bài báo s s dng d liu v hoàn cnh sinh viên nhm ước lượng các xác sut
liên h gia các trường hoàn cnh và kh năng b hc ca sinh viên.
T khóa: Hc máy; mng Bayes; xác sut có điu kin.
Abstract
Machine learning solutions for decision support are increasingly being refined with the development of deep learning
networks. However, these networks only work correctly when the input data vector is complete. For incomplete data,
conditional probability models become more useful than deep learning networks. This article will introduce the Bayesian
network, which is a primary solution for predicting probabilities in complex conditions, acting as a premise for secondary
applications such as classification, prediction or decision-making processes. The Bayesian network is also trained based
on input data, determining the dependence or independence of data fields. The article will use data on students to estimate
the related probabilities between their circumstances and their likelihood of dropping out.
Keywords: Machine learning; mng Bayes; conditional probability.
*
Tác gi liên h: Đặng Vit Hùng
Email: dangviethung@duytan.edu.vn
03(64) (2024) 32-39
DTU Journal of Science an
d
Technology
Đ.Vit Hùng, T.Nht Vinh,... / Tp chí Khoa hc và Công ngh Đại hc Duy Tân 03(64) (2024) 32-39 33
1. Gii thiu
Là mt phn ca Trí tu nhân to, Hc máy
nghiên cu cách thc mt h thng tính toán có
th tiếp nhn tri thc thông qua d liu và kinh
nghim t thu thp. Điu này cho phép máy móc
có th hc được các quan h gia 2 tp vector d
liu: tp input và tp output, trong đó mi tp
liên quan đến mt s trường d liu xác định nào
đó. Các phương pháp t đơn gin như K-láng
ging gn nht (KNN), Hi quy tuyến tính
(Linear Regression) đến phc tp như máy
vector h tr (SVM), mng Nơ-ron nhân to
(ANN), v.v... đều có th hc được quan h này.
Tuy nhiên, các gii pháp này cn phi có mt
bước tin x lý d liu và trích xut đặc trưng
phc tp. Khi các dn xut hc sâu (DNN) ca
ANN ra đời, d liu ch cn mt bước tin x
đơn gin hơn là chun hóa, hoc vector hóa trước
khi đưa vào hun luyn mng hc sâu. Nguyên
nhân là mng hc sâu có các cu trúc phân tích
như tích chp, truy hi, ô nh, ô trng thái, v.v...
Các cu trúc này có kh năng t động tìm các
đặc trưng phù hp vi bài toán. Mc dù các
mng hc sâu hin nay gii quyết được đa s các
vn đề phc tp và ln, nhưng đối vi nhng bài
toán có d liu va phi và không đầy đủ, mng
không th thc hin hc và ra quyết định được.
Trong các lp gii pháp ca Hc máy vn tn ti
mt s phương pháp có th đối mt vi vn đề
này, c th là Cây quyết định, Rng ngu nhiên
hay mng Bayes [1], [2], [3], [4]. Các phương
pháp này ch yếu tìm các quan h xác sut gia
các trường d liu đầu vào, trong đó d liu đầu
vào (dành cho c hun luyn và d đoán) có th
thiếu mt vài trường. Do đó, mc dù là các
phương pháp tin thân ca Hc máy, chúng vn
rt hu dng.
Bài báo này s gii thiu phương pháp suy
lun xác sut bng mng Bayes khi cho trước
mt t hp thông tin đã biết nào đó. Sau đó, bài
báo s s dng mt phn thông tin thu thp v
hoàn cnh sinh viên, thc hin xây dng mô hình
tính toán các xác sut Bayes dành cho suy lun,
trong đó hình thái, quan h và giá tr được xây
dng trc quan bng chương trình Python.
2. Cơ s lý thuyết
2.1. Công thc Bayes và mô hình đồ th xác
sut
Mng Bayes được phát trin da trên lý
thuyết mô hình đồ th xác sut (graphical model)
và công thc xác sut có điu kin Bayes [1,3].
Gi s 𝐴𝐵 là hai s kin trong cùng mt
phép th, ký hiu 𝑃󰇛𝐴𝐵󰇜 như mt xác sut kết
hp ca s kin 𝐴𝐵, khi đó theo công thc
xác sut có điu kin ta có:



|
P
AB
PAB
P
B
(1)
Bây gi ta xét s kin 𝐴 như mt s kin
không quan sát được và nó có th xy ra hoc
không xy ra. B được xét như mt s kin được
quan sát [1]. Như vy s kin 𝐵 có th xy ra
cùng vi s xut hin ca s kin 𝐴 hoc phn
bù ca 𝐴. Công thc trên có th viết li như mt
quy tc nhân:

||PAB PBAPA PABPB
(2)
T đó suy ra được công thc Bayes khi thay
đổi vai trò ca A và B trong công thc (2), ta
được:


|
|
P
BAPA
PAB PB
(3)
Mô hình đồ th xác sut [3] (PGM) là mô hình
thng kê mã hóa các phân phi xác sut đa biến
phc tp bng cách s dng đồ th. Nói cách
khác, PGM nếu được xây dng thành công s
hiu rõ các mi quan h độc lp có điu kin gia
các biến ngu nhiên. Điu này khá hu ích vì các
kiến thc v đồ th đã đạt được độ chín v
thuyết, đặc bit là v tách các tp con, nhóm và
hàm trên đồ th. Ngoài ra, người ta có th d dàng
hình dung vi các PGM và có cái nhìn tng quan
Đ.Vit Hùng, T.Nht Vinh,... / Tp chí Khoa hc và Công ngh Đại hc Duy Tân 03(64) (2024) 32-39
34
v cu trúc mô hình. Tên đầy đủ ca mô hình đồ
th là Probabilistic Graphical Model (PGM), do
đó theo [5], mi mô hình đồ th đều gm 2 phn:
- Phn đồ th: th hin s ph thuc gia các
biến ngu nhiên bng đồ th có hướng mà trong
đó mi đỉnh là mt biến ngu nhiên và mi cnh
có hướng t A đến B th hin biến ngu nhiên B
ph thuc biến ngu nhiên A. Dĩ nhiên đồ th này
không được có chu trình, hay còn được gi là phi
chu trình (Directed Acyclic Graph - DAG) [3].
- Phn xác sut: biu din định lượng s ph
thuc này, vi mi cnh hoc tp cnh trong đồ
th, ta lưu phân phi xác sut có điu kin tương
ng.
2.2. Mng Bayes
Mng Bayes là mt dng PGM, được phát
trin đầu tiên vào nhng năm 1970 Đại hc
Stanford [2, 7]. Mng Bayes là mô hình đồ th
th hin mi quan h nhân qu gia các biến.
Mng Bayes ch yếu da trên lý thuyết xác sut
điu kin hay còn gi là lý thuyết Bayes
(Bayesian theory). Mng Bayes kết hp hài hòa
gia lý thuyết xác sut và lý thuyết đồ th để gii
quyết hai vn đề quan trng: Tính không chc
chn và tính phc tp, được ng dng rng rãi
trong toán hc và k thut [6]. Cùng vi các lý
thuyết khác như Lôgic (Fuzzy Logic), mng
Nơron nhân to v.v..., mng Bayes là phương
pháp ch yếu da trên xác sut có điu kin để
d báo hoc chun đoán mt s vic, mt vn đề
đã, đang và sp xy ra.
Mng Bayes được biu din bng đồ th
hướng và không lp (không tn ti mt chu trình
khép kín trong đồ th có hướng này, còn gi là
phi chu trình), ký hiu là G. Trong đó mi node
ca G là mt biến ngu nhiên đại din cho các
thông tin hay feature cha trong bài toán và các
edge (cnh) có hướng th hin s nh hưởng
gia các node. Hay nói mt cách khác đồ th này
chính là cách cu trúc d liu giúp biu din xác
sut hp (joint distribution) ca mô hình.
G là mt mng Bayes vi các biến ngu nhiên
X1, …, Xn. Trong đó mi biến ngu nhiên Xi
trong đồ th G tương ng vi mt node trong G
được gán tương ng vi mt factor. Trong
trường hp ca BN factor ti mi node là
Conditional Probability Distribution (CPD –
phân phi xác sut có điu kin) hay còn gi là
local probabilistic model. CPD ca Xi là phân
phi xác sut ca biến Xi khi biến các giá tr các
biến ngu nhiên là node cha ca chúng (Xi có th
có nhiu hơn mt cha – node thân hay node lá,
hoc không có node cha – node gc). Mi CPD
có th được biu din bng các bng, cu trúc
dng cây (tree structure) hay noisy-OR, noisy-
MAX.
2.3. S độc lp có điu kin t đồ th
Khi phân rã mt đồ th phi chu trình để xét s
độc lp gia các biến ngu nhiên, ta luôn gp
mt trong nhng cu trúc cơ bn gm các liên
kết hoc ni tiếp, hoc phân kì, hoc hi t gm
ba biến ngu nhiên. Ba biến này gm mt biến
điu kin C (nm gia) và hai biến còn li là hai
biến cn xét s độc lp A và B. Ta ln lượt xét
các trường hp c th này như sau đây [2, 7]:
a/ Cu trúc ni tiếp:
Vi cu trúc ni tiếp, nếu không có biến nào
được quan sát thì:
Đ.Vit Hùng, T.Nht Vinh,... / Tp chí Khoa hc và Công ngh Đại hc Duy Tân 03(64) (2024) 32-39 35
Hình 1. Ba cu trúc cơ bn sau khi phân rã mt đồ th xác sut.

||
C
PAB PA PCAPBC
(4)
P
AB
do đó không khái quát thành

P
APB
. Vì vy,
|
B
. Nghĩa là, nếu
ta không biết thông tin gì v C thì A và B là ph
thuc.
Tuy nhiên, nếu có điu kin là biến C, nghĩa là
C đã đưc biết giá tr, theo quy tc xác sut có điu
kin, ta có

|
P
ABC P AB C P C
.
Da trên đồ th ta li có

||
P
ABC P A P C A P B C
. Kết
hp c hai, suy ra được:

|||PABC PACPBC
(5)
Vì vy,
|ABC
. Vy vi cu trúc ni tiếp
C ph thuc A và B ph thuc C, ta nói rng: A
và B ph thuc nếu không có thông tin v C,
nhưng A và B độc lp khi đã có thông tin v C.
b/ Cu trúc phân k:
Phân tích mt cách tương t, ta có 𝐴 ⊥𝐵 | 𝜙
|
A
BC
. Nghĩa là nếu không có thông tin
v C, ta s có A và B độc lp và ngược li, nếu
có thông tin v C, A và B s không còn độc lp.
c/ Cu trúc hi t:
T phân phi chung, ta suy ra được rng nếu
không biết C thì

P
AB P A P B
, hay
|
B
. Tiếp tc suy lun vi thông tin đã
biết v C, ta có
|
A
BC
. Vy s độc lp ca
cu trúc hi t tương t như s độc lp ca cu
trúc phân k và ngược vi s độc lp có điu
kin ca cu trúc ni tiếp.
3. Xây dng mô hình áp dng để d đoán xác
sut
3.1. Gii thiu bài toán áp dng
Bài báo chn bài toán d đoán xác sut các s
kin liên quan đến hoàn cnh và kh năng b hc
ca sinh viên Trường Đại hc Duy Tân để trình
ACB
A
C
B
A
C
B
a/ Cu trúc ni tiế
p
b/ Cu trúc phân kì
c/ Cu trúc hi
t
Đ.Vit Hùng, T.Nht Vinh,... / Tp chí Khoa hc và Công ngh Đại hc Duy Tân 03(64) (2024) 32-39
36
bày cách thc vn dng mng Bayes cũng như
làm ni bt các ưu đim ca mng Bayes. Để
thc hin áp dng, bài báo s dng d liu cha
1000 bn ghi đại din cho c d liu hc tp và
xã hi ca các sinh viên khóa hc (ch thu thp
d liu thng kê, không thu thp danh tính). Sau
đó, các mô hình xác sut này được gii thích và
đánh giá.
D liu thu thp có 9 trường bao gm “đim
đầu vào” (DDV), tình trng “sc khe” (SK),
mc độ “vng hc”, trng thái “có vic làm”
thêm khi đang hc hay không (CVL), “kinh tế
gia đình” (KTGD), s lượt tham gia “c vn hc
tp” (CVHT), “khong cách t nhà đến trường”
(KCNT), hc lc thông qua “đim trung bình”
(DTB), và cui cùng là kh năng “b hc” ca
sinh viên đó (BoHoc). các trường có min giá
tr liên tc, chúng tôi phân thành các khong giá
tr để tin vic đánh giá và tính toán xác sut.
các trường không có giá tr là s mà là giá tr
chui kí t cũng được thay thế bng các s
nguyên. Chi tiết ca tng trường được trình bày
trong Bng 1.
Bng 1. Mô t các đặc tính và s chuyn đổi thành các giá tr ca các biến ngu nhiên
STT Tên biến Mô tGiá tr
1 DDV đim đầu vào” 14 18 = 1; 19 24 = 2; 24 30 = 3
2 SK “sc khe” Tt = 1; Trung bình = 2; Không tt = 3
3 HV mc độ “vng hc” Nhiu = 1; Ít = 2
4 CVL “có vic làm” thêm
khi đang hc
Yes = 1; No = 2
5 KTGD “kinh tế gia đình” Khá = 1; Trung bình = 2; Nghèo = 3
6 CVHT s lượt tham gia
“c vn hc tp”
00; 1 5 =1; 6 tr lên = 2
7 KCNT “khong cách t nhà
đến trường”
1 50 = 1; 51 200 = 2; 200 tr lên = 3
8 DTB đim trung bình” 1.00 2.65 = 1; 2.66 3.65 = 2; 3.66 4.00 = 3
9 BoHoc “b hc” True=1; False=0
3.2. Thc nghim và kết qu
Sau khi d liu được chuyn đổi giá tr
chun hóa sang s thc, đồ th xác sut mng
Bayes được xây dng da vào s ph thuc đơn
gia các trường d liu như trong Hình 2. Ma
trn tương quan được tính toán nhm rút ra các
cp trường d liu có độ tương quan ln. Các
cp này được xác định bi các giá tr có tr tuyt
đối ln hơn 0.5 và không nm trên đường chéo
ca ma trn tương quan. Ngưỡng 0.5 được chn
vì giá tr tương quan có tr tuyt đối nm trong
đon [0,1], và giá tr ln hơn 0.5 được coi là
tương quan mnh, giá tr dưới 0.5 được coi là
tương quan yếu hoc ch là nhiu d liu nếu có
giá tr gn 0. Tiếp theo, chiu ph thuc gia các
cp được xác định da vào ý kiến tham kho t
các c vn hc tp và mng Bayes khi đó có cu
trúc như sau: