
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
TRẦN THỊ XUÂN
NÂNG CAO HIỆU QUẢ PHÂN TÍCH PROTEIN
SỬA ĐỔI SAU DỊCH MÃ TRÊN CƠ SỞ KẾT HỢP
MÔ HÌNH HỌC MÁY VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - NĂM 2025

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
TRẦN THỊ XUÂN
NÂNG CAO HIỆU QUẢ PHÂN TÍCH PROTEIN
SỬA ĐỔI SAU DỊCH MÃ TRÊN CƠ SỞ KẾT HỢP
MÔ HÌNH HỌC MÁY VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Ngành: Khoa học máy tính
Mã số: 9.48.01.01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
TẬP THỂ HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. LÊ NGUYỄN QUỐC KHÁNH
2. TS. NGUYỄN VĂN NÚI
THÁI NGUYÊN - NĂM 2025

LỜI CAM ĐOAN
Nghiên cứu sinh (NCS) xin cam đoan các kết quả trình bày trong luận án Tiến sĩ
“Nâng cao hiệu quả phân tích protein sửa đổi sau dịch mã trên cơ sở kết hợp mô hình
học máy và xử lý ngôn ngữ tự nhiên” là các công trình nghiên cứu của NCS dưới sự
hướng dẫn của PGS. TS. Lê Nguyễn Quốc Khánh và TS. Nguyễn Văn Núi, trừ những
kiến thức tham khảo từ các tài liệu đã được tham chiếu rõ ràng.
Các kết quả nghiên cứu trong luận án là trung thực, một phần đã được công bố trên
các Tạp chí, Hội thảo khoa học (danh sách các công trình được liệt kê tại cuối Luận án),
phần còn lại chưa được công bố trong bất kỳ công trình nào khác.
Mọi nội dung dữ liệu được tham khảo trong luận án đều được trích dẫn đầy đủ và
đúng quy định.
Thái Nguyên, ngày .... tháng .... năm 2025
Tác giả luận án
Trần Thị Xuân
i

LỜI CẢM ƠN
Luận án tiến sĩ này là kết quả của cả một quá trình nghiên cứu lý thuyết và thực
nghiệm đầy thách thức và khó khăn, đòi hỏi sự kiên trì và sự tập trung cao độ. Kết quả
đạt được không chỉ là những nỗ lực cá nhân mà còn có sự hỗ trợ, giúp đỡ của tập thể
người hướng dẫn, cơ sở đào tạo, cơ quan chủ quản, đồng nghiệp và gia đình.
Với lòng biết ơn sâu sắc, NCS xin gửi lời cảm ơn chân thành đến tập thể hướng dẫn
khoa học: PGS.TS. Lê Nguyễn Quốc Khánh – Trường Đại học Y Đài Bắc (Đài Loan) và
TS. Nguyễn Văn Núi – Trường Đại học Công nghệ Thông tin và Truyền thông, những
người đã luôn tận tâm hướng dẫn, hỗ trợ và động viên NCS trong suốt quá trình thực
hiện luận án.
NCS xin trân trọng gửi lời cảm ơn Trường Đại học Công nghệ Thông tin và Truyền
thông, Phòng Đào tạo - Bộ phận Sau đại học, Khoa Công nghệ Thông tin đã tạo điều
kiện thuận lợi cho NCS trong quá trình học tập và nghiên cứu.
NCS cũng xin gửi lời cảm ơn đến Trường Đại học Kinh tế và Quản trị Kinh doanh,
Khoa Khoa học Cơ bản, Khoa Kinh doanh và Logistics, đồng nghiệp đã luôn cổ vũ,
động viên và tạo điều kiện tốt nhất cho NCS hoàn thành nhiệm vụ học tập và nghiên
cứu.
Đặc biệt, NCS xin chân thành cảm ơn sự hỗ trợ từ Đề tài Khoa học và Công nghệ
cấp Đại học Thái Nguyên mã số ĐH2023-TN08-05 [2], và Đề tài thuộc Quỹ Phát triển
Khoa học và Công nghệ Quốc gia (NAFOSTED) mã số 102.05-2023.49, đã tạo nguồn
lực quan trọng để NCS triển khai các nghiên cứu chuyên sâu và hoàn thiện luận án này.
Cuối cùng, NCS xin gửi lời cảm ơn sâu sắc đến gia đình, bạn bè và các anh chị em
nghiên cứu sinh trong nhóm nghiên cứu – những người đã luôn bên cạnh, cổ vũ, chia sẻ
và ủng hộ NCS vượt qua những khó khăn trong suốt chặng đường học tập và nghiên cứu.
Sự quan tâm và động viên của mọi người là nguồn động lực to lớn giúp NCS vững bước
hoàn thành nhiệm vụ của mình.
Xin chân thành biết ơn!
NCS. Trần Thị Xuân
ii

MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vi
DANH MỤC CÁC HÌNH VẼ xii
DANH MỤC CÁC BẢNG BIỂU xiii
MỞ ĐẦU 1
1. Tính cấp thiết của đề tài . . . . . . . . . . . . . . . . . . . . . . . . 1
2.Đối tượng và phạm vi nghiên cứu . . . . . . . . . . . . . . . . . . . . 3
3.Phương pháp nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . 4
4.Các đóng góp của luận án . . . . . . . . . . . . . . . . . . . . . . . . 4
5.Bốcụccủaluậnán........................... 5
CHƯƠNG 1. TỔNG QUAN DỰ ĐOÁN VỊ TRÍ SỬA ĐỔI SAU DỊCH MÃ
TRONG CHUỖI PROTEIN VÀ CÁC KIẾN THỨC NỀN TẢNG 7
1.1 Giớithiệuchung.............................. 7
1.1.1 Protein............................... 7
1.1.2 Protein sửa đổi sau dịch mã . . . . . . . . . . . . . . . . . . . . 10
1.1.3 Vai trò của bài toán dự đoán vị trí PTM và các phương pháp
chính dự đoán vị trí PTM hiện nay . . . . . . . . . . . . . . . . 12
1.2 Bài toán dự đoán vị trí PTM dựa trên học máy . . . . . . . . . . . . . . 13
1.3 Xây dựng mô hình dự đoán vị trí PTM . . . . . . . . . . . . . . . . . . 15
1.3.1 Thu thập và tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . 16
1.3.2 Phương pháp mã hoá và trích chọn đặc trưng . . . . . . . . . . 19
1.3.2.1 Phương pháp trích chọn đặc trưng dựa trên chuỗi . . . 19
1.3.2.2 Phương pháp mã hoá và trích chọn đặc trưng dựa trên
kỹ thuật xử lý ngôn ngữ tự nhiên . . . . . . . . . . . 21
1.3.3 Xâydựngmôhình ........................ 25
1.3.4 Lựa chọn các tham số trong quá trình huấn luyện mô hình dự
đoán ............................... 25
1.3.5 Đánhgiámôhình......................... 26
1.3.6 Lựachọnmôhình......................... 29
1.3.7 Các yêu cầu hệ thống và môi trường cài đặt . . . . . . . . . . . 30
1.4 Thách thức của các mô hình dự đoán vị trí PTM . . . . . . . . . . . . . 31

