HC VIN CÔNG NGH BƯU CHÍNH VIỄN THÔNG
--------------------------------------
TRN TH NHI AN
NHN DẠNG NGƯỜI NÓI
THEO TIP CN MÁY HC HIỆN ĐẠI
Chuyên ngành: H THNG THÔNG TIN
Mã s: 8.48.01.04
TÓM TT LUẬN VĂN THẠC SĨ
(Theo định hướng ng dng)
TP. H CHÍ MINH NĂM 2022
Luận văn được hoàn thành ti:
HC VIN CÔNG NGH BƯU CHÍNH VIỄN THÔNG
Ngưi ng dn khoa hc: PGS.TS VŨ HẢI QUÂN
Phn bin 1: .....................................................................................
Phn bin 2: .....................................................................................
Luận văn sẽ đưc bo v trước Hội đồng chm luận văn tại Hc vin
Công ngh Bưu chính Viễn Thông
Vào lúc: ........ gi ........ ngày ........ tháng .......... năm ............
Có th tìm hiu luận văn tại:
- Thư viện ca Hc vin Công ngh Bưu Chính Viễn Thông.
1
MỞ ĐẦU
thời điểm bùng n v CNTT-TT, IoT và CMCN 4.0 thì vai trò ca Sinh trc
học càng được nhn mạnh hơn trong nhiều lĩnh vực hội đời sng. Ngày càng
có nhiu công trình trên thế giới khai thác các đc tính sinh trc đ làm cu ni gia
ng dng thc tin xác thc ch th. Tuy nhiên, nghiên cứu trong nước v lĩnh
vc này lại chưa nhiều, chưa có những gii pháp thc s thuyết phục được cộng đồng
doanh nghip. Do đó, luận văn mong mun góp mt phn nh vào kho sát hc
thut mà c th đặc tính sinh trc v ging nói, nhằm làm tăng tính khả thi hơn cho
ng dụng trong nước.
Mc tiêu của đề tài là kho sát tính kh thi ca vic áp dng các mô hình máy
hc hiện đại cho lĩnh vực nhn dạng người nói, k vng s mang li hiệu năng/độ
chính xác cao hơn các phương pháp truyền thng. Khi nn tng công ngh được
ci tiến hơn, các ứng dng sinh trc s hp dẫn hơn với th trưng và doanh nghip.
Luận văn gồm 5 chương chính vi các ni dung sau:
Chương 1: Gii thiu v lĩnh vực nghiên cu của đ tài, các nghiên cu liên
quan trong ngoài ớc. Đồng thi, nêu mục tiêu cũng như ng nghiên cu
ca đ tài.
Chương 2: Trình bày tng quan v đề tài bao gm nhn dạng người nói, các
đặc trưng của tín hiu ging nói và các mô hình máy hc.
Chương 3: Trình bày phương pháp nhận dạng ngưi nói vi Deep Learning
c th là mô hình HMM là Feedforward-DNN.
Chương 4: Trình bày chi tiết vic xây dng b d liu, quá trình c th cài đt
mô hình cho thut toán đánh giá kết qu thc nghim trên b d liu xây dng vi
hai phương pháp đề xut cùng vi phần demo chương trình.
Chương 5: Kết lun nội dung đã được trong đề tài, nêu những khó khăn, hn
chế trong quá trình nghiên cứu đã gặp phải và đề xut hưng phát trin tiếp theo.
2
Đề tài: NHẬN DẠNG NGƯỜI NÓI THEO TIẾP CẬN MÁY HỌC HIỆN ĐẠI
Tóm tt luận văn
CHƯƠNG 1. PHN M ĐẦU
1.1. Lĩnh vực đ tài
Đề tài thuộc lĩnh vực Sinh trc hc (Biometrics). Sinh trc hc khoa hc
nghiên cứu các phương pháp phân tích và thống kê trên các d liu sinh hc. Các h
thng sinh trắc đã đang được phát trin trong các ng dng thc tế như: các hoạt
động ca chính ph, các công ty, t chc thương mại i chính, bao gm vic qun
nhân công, qun khách 2ang, qun kiểm soát vào ra, đến qun xut nhp
cnh, qun ti phm, h thng bu c, v.v Nhn dng sinh trc hiện đại đang
nhận được nhiu s quan tâm trong các lĩnh vực cn mức độ bo mt và an toàn cao,
cũng như do tính thun tiện ng động mang li. T đó đã ngày càng
chứng minh được tiềm năng ng dng rng rãi so với các phương pháp nhận dng
truyn thng. Đề tài Nhn dạng ngưi nói theo tiếp cn máy hc hiện đại”, với
mong mun góp mt phn nh vào kho sát hc thut mà c th là đc tính sinh trc
v ging nói.
1.2. Tình hình nghiên cứu liên quan đến đ tài
1.2.1. Các công trình nghiên cứu trong nước
- Deep Representation Learning for Vietnamese Speaker Recognition
- Text-dependent Speaker Recognition for Vietnamese
- Vietnamese Speaker Authentication Using Deep Models
- Speaker Diarization in Vietnamese Voice
1.2.2. Các công trình nghiên cu trên thế gii
- Deep CNNs With Self-Attention for Speaker Identification
3
- Novel cascaded Gaussian mixture model-deep neural network classifier for
speaker identification in emotional talking environments
- An MFCC-based text-independent speaker identification system for access control
-
1.3. Mục tiêu, ý nghĩa khoa học và thc tin
Mc tiêu của đề tài là kho sát tính kh thi ca vic áp dng các mô hình máy
hc hiện đại cho lĩnh vực nhn dạng người nói, k vng s mang li hiệu năng/độ
chính xác cao hơn các phương pháp truyền thng. Khi mà nn tng công ngh đưc
ci tiến hơn, các ứng dng sinh trc s hp dẫn hơn với th trưng và doanh nghip.
Xut phát t nhng mc tiêu chính trên, luận văn hướng ti nhng kết qu
sau:
- Tìm hiu tng quan v nhn dng ging nói.
- Tìm hiu các thut toán trong vic nhn dng ging nói.
- Tìm hiu và xây dng b d liu giọng nói dùng để làm đu vào cho mô hình
1.4. Đối tưng và phm vi nghiên cu
1.4.1 Đối tưng nghiên cu
- Mô hình nhn dng người nói tiếng Vit trong máy hc
1.4.2 Phm vi nghiên cu
- Định danh người nói tiếng Vit độc lập văn bn và d liu thc nghim là trên 40
người nói khác nhau
1.5. Phương pháp nghiên cứu
1.5.1. Phương pháp nghiên cứu lý thuyết
1.5.2. Phương pháp nghiên cu thc nghim
1.6. B cc luận văn