
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
NGUYỄN THỦY ĐOAN TRANG
PHÂN CỤM DỮ LIỆU KHÔNG GIAN ĐỊA LÝ
TRONG KHÔNG GIAN MẠNG
LUẬN ÁN TIẾN SĨ
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2025

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
NGUYỄN THỦY ĐOAN TRANG
PHÂN CỤM DỮ LIỆU KHÔNG GIAN ĐỊA LÝ
TRONG KHÔNG GIAN MẠNG
Ngành: Khoa học Máy tính
Mã ngành: 9480101
Phản biện 1: TS. Võ Đăng Khoa
Phản biện 2: PGS. TS. Võ Thị Ngọc Châu
NGƯỜI HƯỚNG DẪN:
1. PGS. TS. Nguyễn Thị Thúy Loan
2. TS. Lê Nhật Duy

i
LỜI CAM ĐOAN
Tôi xin cam đoan luận án “Phân cụm dữ liệu không gian địa lý trong không gian
mạng” này là công trình nghiên cứu của bản thân dưới sự hướng dẫn của PGS.TS.
Nguyễn Thị Thúy Loan và TS. Lê Nhật Duy. Những công trình nghiên cứu có nhiều
tác giả được sử dụng trong luận án đều được các đồng tác giả đồng ý và xác nhận.
Tôi xin cam đoan các kết quả nghiên cứu trong luận án là trung thực. Việc tham khảo
các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng
quy định. Mọi sự giúp đỡ việc thực hiện luận án đã được đề cập trong lời cảm ơn.
Tác giả luận án
Nguyễn Thủy Đoan Trang

ii
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Nguyễn Thị Thúy Loan và TS. Lê
Nhật Duy đã tận tình hướng dẫn, động viên, giúp đỡ tôi trong suốt quá trình nghiên
cứu và hoàn thành luận án này.
Tôi xin trân trọng cảm ơn Quý Thầy Cô khoa Công nghệ Thông tin, Viện Đào tạo
quốc tế và Sau đại học, Trường Đại học Công nghiệp Thành phố Hồ Chí Minh đã
trang bị kiến thức, hướng dẫn, hỗ trợ và nhận xét quý báu giúp tôi hoàn thiện luận án
cũng như tạo điều kiện thuận lợi cho tôi trong quá trình thực hiện chương trình
nghiên cứu sinh.
Tôi xin chân thành cảm ơn Nhóm Seminar Bảy-Loan, đặc biệt là PGS.TS Võ Đình
Bảy đã cung cấp cho tôi nhiều ý kiến góp ý giá trị giúp tôi vượt qua khó khăn trong
quá trình nghiên cứu. Xin cảm ơn đồng tác giả của các công trình nghiên cứu tôi đã
sử dụng trong luận án, cảm ơn tác giả của tất cả những bài báo mà tôi trích dẫn.
Xin cảm ơn Quỹ Phát triển Khoa học và Công nghệ Quốc gia Việt Nam
(NAFOSTED) đã tài trợ cho các nghiên cứu ở các công trình [CT.1], [CT.2] và [CT.3]
của luận án (mã số đề tài 102.05-2021.08).
Tôi xin cảm ơn Trường Đại học Nha Trang là đơn vị tôi đang công tác đã hỗ trợ, tạo
điều kiện cho tôi được tham gia chương trình đào tạo tiến sĩ toàn thời gian.
Hướng về sự hy sinh cao cả của gia đình, bạn bè, đồng nghiệp và những người thân
yêu đã luôn động viên, tạo điều kiện thuận lợi cho tôi trong quá trình học tập và
nghiên cứu.
Một lần nữa, tôi xin chân thành ghi ơn.

iii
TÓM TẮT LUẬN ÁN TIẾN SĨ
Trong lĩnh vực khai thác dữ liệu, phân cụm (clustering) đã được phát triển từ lâu và
là trọng tâm của nhiều nghiên cứu. Tuy nhiên, trong lĩnh vực khai thác dữ liệu không
gian thì phân cụm dữ liệu không gian mà đặc biệt là phân cụm dữ liệu không gian địa
lý trong không gian mạng là một vấn đề tương đối mới và đang được quan tâm nghiên
cứu để tăng hiệu quả bởi tính ứng dụng cao. Luận án này tập trung vào việc phát triển
các phương pháp hiệu quả hơn trong phân cụm dữ liệu không gian địa lý có ràng buộc
mạng, nhằm giải quyết hạn chế trong phân cụm dữ liệu không gian địa lý nhưng chưa
quan tâm ràng buộc theo mạng dẫn đến khó ứng dụng trong thực tiễn hoặc ứng dụng
chưa hiệu quả. Phân cụm dữ liệu trong không gian mạng đòi hỏi phương pháp xử lý
dữ liệu dựa trên khoảng cách theo mạng như mạng lưới giao thông thay vì khoảng
cách Euclid thông thường.
Luận án đã khảo sát các phương pháp phân cụm liên quan, từ đó kế thừa, cải tiến và
đề xuất ba phương pháp phân cụm hiệu quả cho các đối tượng có ràng buộc mạng:
NS-TBC, các chiến lược cải tiến thời gian thực thi/chất lượng cụm và NS-IDBSCAN.
NS-TBC sử dụng quan hệ tô-pô để phân cụm dữ liệu không gian địa lý trong không
gian mạng giảm sự phụ thuộc của quá trình phân cụm vào tham số đầu vào để cải
thiện hiệu suất. Các chiến lược nâng cao hiệu suất để tăng tốc thời gian xử lý và nâng
cao chất lượng cụm cho phương pháp phân cụm dựa trên tô-pô. Phương pháp NS-
IDBSCAN loại bỏ yêu cầu quét lại toàn bộ tập dữ liệu khi có dữ liệu mới phát sinh
giúp giảm thời gian xử lý.
Các thuật toán này nhằm đóng góp giải pháp hiệu quả cho các bài toán trên mạng
đường giao thông để có thể chọn được vị trí thật sự “gần” theo đường đi ngắn nhất
thay vì thông thường là khoảng cách Euclid. Ngoài mạng đường giao thông, các đề
xuất có thể ứng dụng cho các vấn đề trên mạng khác như mạng đường dây điện,
đường ống, mạng viễn thông, v.v…
Tuy nhiên, luận án cần thêm các nghiên cứu để đáp ứng nhu cầu thời gian thực và
phát hiện bất thường trên dữ liệu không gian địa lý có ràng buộc mạng.

