
I
TÓM TẮT LUẬN VĂN
Trong thời đại khoa học - kỹ thuật như hiện nay, thời đại của cách mạng
khoa học 4.0, với sự phát triển về mọi mặt của đời sống từ văn hóa, giáo dục cho
đến công nghệ trong đó lĩnh vực công nghệ thông tin đã tạo ra các sản phẩm trí tuệ
nhân tạo, robot công nghệ và máy móc đang dần thay thế con người. Nhu cầu giao
tiếp, thương mại điện tử và tìm kiếm thông tin rất lớn, vì thế một số ứng dụng xử
lý ngôn ngữ tự nhiên như tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất
thông tin và trả lời câu hỏi tự động ngày càng phát triển. Những ứng dụng này
được phát triển dựa trên nền tảng của một số các tác vụ xử lý ngôn ngữ tự nhiên.
Trích chọn tên điện thoại di động trong văn bản đã được nghiên cứu trên nhiều
ngôn ngữ như tiếng Anh, tiếng Nhật, tiếng Trung,… bằng nhiều phương pháp khác
nhau và đã đạt được nhiều kết quả khả quan. Các phương pháp học máy trước đây
như SVM, cây quyết định, … cho kết quả phân loại cũng khá tốt.
Luận văn với đề tài “Phương pháp học bán giám sát cho bài toán trích chọn
thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” dựa trên những
nghiên cứu trước đây để đề xuất nghiên cứu và phát triển một hệ thống nhận diện
tên riêng tiếng Việt (ViNER) bằng cách kết hợp các đặc trưng cú pháp tự động với
các từ nhúng được huấn luyện sẵn làm đầu vào cho bộ nhớ ngắn dài hai chiều
(BiLSTM). Phương pháp huấn luyện hệ thống này trên tập dữ liệu mà tôi thu thập
từ hàng trăm bài báo khác nhau. Bộ dữ liệu này gồm 3 tập dữ liệu huấn luyện, phê
chuẩn và kiểm tra. Mỗi tập dữ liệu gồm 4 cột: Từ hoặc từ ghép, POS, CHUNK và
TAG.
Sau khi huấn luyện và đánh giá thực nghiệm hệ thống trên nhiều khía cạnh
khác nhau bằng độ đo chính xác (Accuracy), tôi nhận thấy hệ thống kết hợp các
đặc trưng cú pháp tự động với các từ nhúng được huấn luận sẵn làm đầu vào cho
bộ nhớ ngắn dài hai chiều (BiLSTM) cho kết quả cao nhất đạt 74,04%.
Luận văn cũng xây dựng một ứng dụng web trích xuất trực quan, nhận diện
tên điện thoại di động cho một đoạn văn bản do người dùng nhập vào.