TP CHÍ KHOA HC VÀ CÔNG NGHỆ, Trường Đại hc Khoa học, ĐH Huế
S chuyên san Vt lý Tp 27, S 1C (2024)
45
NHN DIN BIU CM KHUÔN MT BNG MÁY HỌC LƯỢNG T
Trương Văn Minh, Đặng Th Khánh Linh , Nguyn Nht Uyên,
Nguyn Minh Chiến*, Dụng Văn Lữ
Khoa Vt , Trường Đại hc Sư phạm, Đại hc Đà Nẵng
*Email: chien19022003@gmail.com
Ngày nhn bài: 5/10/2024; ngày hoàn thành phn bin: 19/10/2024; ngày duyệt đăng: 01/11/2024
TÓM TT
Nhn din biu cm khuôn mt là vấn đề giao tiếp giữa người và máy tính và có rt
nhiu ng dng trong cuc sng ngày nay. Do s tương đồng gia c biu cm
khuôn mt, vic trích xuất các đặc trưng để nhn din gp nhiu thách thc. Trong
bài báo này, chúng tôi s dng mt nn tng phn mm làm vic với máy tính lượng
t (Qiskit) để nghiên cu v nhn din biu cm khuôn mt bng y học lượng t.
Chúng tôi trin khai b phân loại lượng t giám sát xây dng mạch lượng t
để nhn din hai biu cm khuôn mặt HAPPY và “SAD” trên máy tính lượng t.
Các đặc trưng được ánh x thành biên độ ca trạng thái lượng t tạo thành đầu vào
cho mạch lượng t phân loi hình nh. Kết qu cho thy rng vic nhn din biu
cm khuôn mt da máy học lượng t s chính xác và hiu qu hơn.
T khóa: Biu cm khuôn mt; thut toán lượng t; mạch lưng tử; máy tính lượng
t; máy học lượng t.
1. M ĐẦU
Cm xúc ca mi người có th đưc bc l ra bên ngoài qua nhiều phương thc:
hành động, c ch, lời nói đặc bit biu cm trên khuôn mt. truyn ti phn
ln thông tin cn biểu đt th hin nhng cm xúc ni ti nht khi giao tiếp phi
ngôn ng. Hin nay, công cuc nhn din biu cm khuôn mt (FER) mt trong các
vấn đề hết sc thú v và đy thách thc nhất [1]. Đây là một lĩnh vực ni bt trong giao
tiếp giữa người máy tính, đóng vai trò quan trng trong thời đại mà trí tu nhân
tạo đang phát triển cùng mnh m [2]. FER được ng dng trong nhiều lĩnh vực khác
nhau, như truyn thông tin tín hiu cm xúc con người [3], tr ảo để h tr công vic
[4], nhn din nét mặt trong Robot an ninh [5], chăm sóc sc khe [6, 7], giáo dc [8]…
Nh đó, nó đã nhận được đông đảo s quan tâm không nhng ca những người nghiên
cu công ngh thông tin mà còn các nhà khoa hc các lĩnh vực liên quan khác.
Nhn din biu cm khuôn mt bng máy học lượng t
46
Trong sut hai thp k qua, đã có nhiều phương pháp xử lí trong FER như vùng
quan tâm (ROI), b lc Gabor (GF) hoc máy vectơ h tr (SVM)… [1], cùng vi các
thut toán c điển như mạng thn kinh tích chp [9], hay da vào tính năng chuyển
động ca khuôn mt [10]. Tuy nhiên, tốc độ x ca các công ngh trên vẫn chưa thể
đáp ứng được nhu cu khi d liu ln, hoc nhng hình ảnh có tính động, m, nghiêng
góc, đa chiều…
Trong khi đó, máy tính lượng t (MTLT) mt công c đầy tiềm năng mới
m đối vi các ngành khoa học, đã và đang được khai thác để tr thành mt thiết b tiên
tiến vượt tri tối ưu nhất [11]. MTLT hoạt động trên các tính cht học lượng t như
“nguyên chồng chất” “vướng víu lượng t”. Đơn vị thông tin trong MTLT bit
ng t (qubit) đưc biu din bi hai trạng thái lượng t |1 |0. Trng thái ca
một qubit được biu din nh tính chng chất lượng t: 𝜓=𝑎|1+𝑏|0⟩, trong đó các
biên độ ng t ab là các s phc tùy ý thỏa mãn điều kin chun hóa |𝑎|2+|𝑏|2=
1, đồng thi |𝑎|2|𝑏|2 cho ta xác suất để 𝜓 trng thái tương ứng |1 và |0. Vic kết
hp tính chất lượng t vào máy hc s làm tăng tốc độ x lí và hiu qu khi d liu ln,
đó một phn ca máy học lượng t [12]. Chính thế, MTLT nhng li thế x
thông tin vi tốc độ nhanh đáng kể tiềm năng phát triển so vi các công c c đin
[13, 14].
Mt s nghiên cu đã ng dụng MTLT để nhn din thành công biu cảm “vui”
“buồn” trên khuôn mặt nhiều thế nhiều góc đ hơn [15, 16]. Tuy nhiên, các
nghiên cu này chưa có s đối sánh gia vic thc hin FER bng thut toán c đin và
MTLT.
Trong bài báo này, chúng tôi phân tích, tính toán và s dng thuật toán lượng t
chy trên nn tng Qiskit ca MTLT IBM [17] đ nhn din hai biu cm ph biến
Happy” và sad”. Đng thi, chúng tôi so sánh vi kết qu thu được t thut toán c
điển để làm ni bật ưu thế ca MTLT. Các kết qu thu được có th góp phn phát trin
các thut toán lượng t FER hiu qu hơn, cũng như th giúp hiểu n về cách
thc hoạt động ca các thuật toán lượng t các mạch lượng t nhm góp phn thúc
đẩy s phát trin ng dụng lượng t mi vi phm vi lớn hơn và đa dạng hơn.
Ni dung tiếp theo được b trí theo cấu trúc như sau. Ở vi phn 2, chúng tôi đề
xuất phương pháp thực hin. Nhn din hai biu cm các theo phương pháp cổ đin ln
trên máy tính lượng t t ng dng Qiskit đưc báo cáo phn 3.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Trên trình chy Qiskit chúng tôi to một folder “datasetslàm tập d liu, trong
đó hai folder con NDKM” đã gắn nhãn cảm c dùng để làm tp hun luyn
TESTđể làm d liệu đu vào phân loi biu cảm. Folder “NDKM” chứa hai folder con
TP CHÍ KHOA HC VÀ CÔNG NGHỆ, Trường Đại hc Khoa học, ĐH Huế
S chuyên san Vt lý Tp 27, S 1C (2024)
47
happy”, sad”, vi 50 hình ảnh kích thước 1024x1024 cho hai biu cm t siêu d liu
hình nh FFHQ [18], sau đó chúng tôi tiến hành xây dựng các file điểm mốc tương ng
cho mi hình ảnh, tương tự như vậy chúng tôi tìm kiếm 15 hình nh cho mi biu cm
xây dựng các file đim mốc tương ng cho hai biu cảm Happy”, Sad”. Đối vi
folder TEST cũng được to hai folder con happy”, “sad” vi s ng 15 nh, 15 file
đim mốc tương ng cho mi biu cảm Như vậy chúng i đã xây dựng được tp d
liu hun luyện NDKMvới 80 hình ảnh, 80 file đim mc tp th phân loi biu
cảm TESTvới 46 hình ảnh, 46 file đim mc. Hình 1 mô t ví d mi biu cảm được
đại din bng mt tp hp các ảnh kích thước 1024x1024 và các file có 68 điểm mc.
Chúng tôi la chn mt tp hp con ca d liu hình nh và gn nhãn cho tng
mc trong tp hợp con này, sau đó, mã hóa các phiên bản được gn nhãn và mt phiên
bn th không được gn nhãn thành các trạng thái lượng t. Các trạng thái này sau đó
đưc s dụng làm đu o cho mạch lượng t để d đoán nhãn của các mc th nghim.
Hình 1. Biểu cảm “Happy” với 68 điểm mốc
Nhim v được chia thành các giai đoạn c th để thc hin quá trình này:
c 1: Tin x lí hình nh: đánh dấu và trích xut v trí của 68 đim mc này.
c 2: Trích xuất đặc trưng từ các đim mc: to ra một danh sách các tính năng
bng cách tính khong cách giữa hai điểm bt kì trong tp hợp các điểm mc.
c 3: Phân loi: xác định liu mng các đặc điểm trích xut t hình nh có liên
quan đến trng thái biu cm nào bng mô hình mạch lượng t.
3. KT QU NGHIÊN CU VÀ BÌNH LUN
3.1. Trình phân loi c đin
Mục đích của quá trình này phân loi d liệu đầu vào được biu th bng G_test
snhãn gn vi nhãn biu cảm “HAPPY” biểu th bi G_happy hay gần hơn với nhãn
biu cảm “SAD” biểu th bi G_sad dựa trên hàm đo khoảng cách Euclide ca chúng.
Hàm đo khong cách Euclide [15] là một hàm được s dụng để tính khong cách gia
hai điểm hoc hai tp hợp điểm trong không gian Euclide, trong nguyên cu này chúng
tôi s dng hàm Euclide để so sánh các đặc trưng khuôn mặt được trích xut t hai hình
nh [17]:
Nhn din biu cm khuôn mt bng máy học lượng t
48
Def classical_distance(G_happy, G_sad, G_test, tol=0.00001):
distance_happy = np.linalg.norm(G_happy-G_test)
distance_sad = np.linalg.norm(G_sad - G_test)
difference = distance_happy distance_sad
the_difference = 0 if np.abs(difference) <= tol else
difference
return difference, ["EQUAL", "SAD",
"HAPPY"][int(np.sign(the_difference))]
Chúng tôi cũng to ngưỡng dung sai tol=0,00001 để xli và nhiễu, đồng
thời đặt difference thành 0 nếu giá tr tuyệt đối ca nh hơn hoặc bng tol. Để thun
tiện hơn trong việc gn nhãn chúng tôi s dng hàm np.sign(the_difference) để xác
định du ca the_difference, như vậy nếu sign(difference) = 0 s đưc gn nhãn
EQUAL”, có nghĩa là khoảng cách G_test đến hai đại din G_surprised và G_tired
bng nhau; tương t chúng tôi có sign(difference) = 1 s đưc gắn nhãn Happy” và
sign(difference) = -1 s đưc gắn nhãnSad.
Kết qu phân loại đúng vi 43/50 nhãn, tương ng xác sut 86% (Hình 2). Ưu
đim ca trình phân loại này đơn giản ch s dng các công thc thut toán c
đin, d hiu d dàng m rng. Tuy nhiên trình phân loi này do b nh hưởng
nhiu bởi các đại din nhãn, do đặc trưng vùng miệng chưa đầy đủ để kết lun biu
cm, như vùng ming ca biu cm này đưc m rng tr nên khá tương đồng vi
biu cm khác làm cho trình phân loi mt s nhãn chưa đúng.
Hình 2. Kết qu phân loi đúng xut n hình khi chy thut toán c đin.
3.2. Trình phân loi ng t
TP CHÍ KHOA HC VÀ CÔNG NGHỆ, Trường Đại hc Khoa học, ĐH Huế
S chuyên san Vt lý Tp 27, S 1C (2024)
49
Mạch lượng t đưc to vi d liệu đầu vào G_test và hai đại din 𝐺0 𝐺1 biu
din cho hai biu cảm HappySad”. Đầu vào ca mch bao gm bn thanh ghi
như thể hin Hình 3: Thanh ghi qubit đơn đầu tiên |a đưc gi thanh ghi ph;
Thanh ghi th hai |i thanh ghi ch mc; Thanh ghi th ba |d thanh ghi d liu;
Thanh ghi th tư |c là thanh ghi lp [17,19].
Mch bt đu trng thái: |0⟩𝑎|0⟩𝑖|0⟩𝑑|0⟩𝑐
1. Cng Hadamard to trng thái chng cht đu:
1
2(|0⟩+|1⟩)𝑎(|0⟩+|1⟩)𝑖|0⟩𝑑|0⟩𝑐
2. Sau khi khi to có kim soát phiên bn th nghim, trng thái là:
1
2|0⟩𝑎(|0⟩+|1⟩)𝑖|0⟩𝑑|0⟩𝑐+1
2|1⟩𝑎(|0⟩+|1⟩)𝑖|𝐺test𝑑|0⟩𝑐;
3. Trng thái sau thao tác X trên qubit ph là:
1
2|0⟩𝑎(|0⟩+|1⟩)𝑖|𝐺test𝑑|0⟩𝑐+1
2|1⟩𝑎(|0⟩+|1⟩)𝑖|0⟩𝑑|0⟩𝑐;
D liu 𝐺𝑡𝑒𝑠𝑡 hin được vướng u thanh ghi ph |0⟩ điều y s cho phép
chúng tôi can thip vào d liu.
4. Sau khi khi to kim soát kép của đại diện đầu tiên:
1
2|0⟩𝑎(|0⟩+|1⟩)𝑖|𝐺test𝑑|0⟩𝑐+1
2|1⟩𝑎|0⟩𝑖|0⟩𝑑|0𝑐+1
2|1⟩𝑎|1⟩𝑖|𝐺0𝑑|0⟩𝑐;
5. Trng thái sau thao tác X trên thanh ghi ch mc:
1
2|0⟩𝑎(|0⟩+|1⟩)𝑖|𝐺test𝑑|0⟩𝑐+1
2|1⟩𝑎|0⟩𝑖|𝐺0𝑑|0⟩𝑐+1
2|1⟩𝑎|1⟩𝑖|0⟩𝑑|0⟩𝑐;
D liu 𝐺0 hin được vướng víu vào thanh ghi ph |1⟩ và ch mc |0⟩;
6. Sau khi khi tạo điều khin kép ca đại din th hai, trng thái là:
1
2|0⟩𝑎(|0⟩+|1⟩)𝑖|𝐺test𝑑|0⟩𝑐+1
2|1⟩𝑎|0⟩𝑖|𝐺0𝑑|0⟩𝑐+1
2|1⟩𝑎|1⟩𝑖|𝐺1𝑑|0⟩𝑐;
D liu 𝐺1 bây gi được vướng víu vào thanh ghi ph |1⟩ và ch mc |1⟩;
Hình 3. Mạch lượng tử hai biểu cảm “ Happy” và “Sad”