Luận văn Thạc sĩ Hệ thống thông tin: Phát triển một ứng dụng quản lý bất động sản thông minh ở Bình Dương

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:92

Thêm vào BST

Báo xấu

17
lượt xem 8
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn "Phát triển một ứng dụng quản lý bất động sản thông minh ở Bình Dương" được hoàn thành với mục tiêu nhằm nghiên cứu thành phần nhận dạng thực thể có tên từ các yêu cầu của người dùng cũng như trích xuất thông tin về bất động sản Bình Dương như giá trị, diện tích, địa điểm, vv.. từ dữ liệu thu thập được từ các trang web rao bán hoặc cho thuê bất động sản từ đó xây dựng được hệ thống tự động rút trích các thông tin về bất động sản.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Phát triển một ứng dụng quản lý bất động sản thông minh ở Bình Dương

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THỊ NGỌC DUNG PHÁT TRIỂN MỘT ỨNG DỤNG QUẢN LÝ BẤT ĐỘNG SẢN THÔNG MINH Ở BÌNH DƯƠNG LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 BÌNH DƯƠNG – 2022
ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THỊ NGỌC DUNG PHÁT TRIỂN MỘT ỨNG DỤNG QUẢN LÝ BẤT ĐỘNG SẢN THÔNG MINH Ở BÌNH DƯƠNG LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. QUẢN THÀNH THƠ BÌNH DƯƠNG – 2022
Lời cam đoan Tên tôi là: Trần Thị Ngọc Dung Sinh ngày: 30/04/1994 Học viên lớp cao học CH18HT01 - Trường Đại học Thủ Dầu Một Xin cam đoan: Đề tài “Phát triển một ứng dụng quản lý bất động sản thông minh ở Bình Dương” do Thầy PGS. TS. Quản Thành Thơ hướng dẫn là công trình nghiên cứu của riêng tôi. Tất cả tài liệu tham khảo đều có nguồn gốc, trích dẫn rõ ràng. Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học. Bình Dương, 22 tháng 07 năm 2022 Tác giả luận văn Trần Thị Ngọc Dung ii
Lời cảm ơn Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp đỡ và hướng dẫn tận tình của Thầy hướng dẫn PGS. TS. Quản Thành Thơ, luận văn Cao học “Phát triển một ứng dụng quản lý bất động sản thông minh ở Bình Dương” đã hoàn thành. Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy hướng dẫn PGS. TS. Quản Thành Thơ đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn này. Đồng thời tôi gửi lời cảm ơn đến các thầy, cô đã giảng dạy truyền đạt kiến thức quý báu cho tôi trong suốt thời gian học tập và nghiên cứu. Tôi chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này. iii
Tóm tắt luận văn Tên đề tài: Phát triển một ứng dụng quản lý bất động sản thông minh ở Bình Dương Ngành: Hệ Thống Thông Tin. Họ và tên học viên: Trần Thị Ngọc Dung. Người hướng dẫn khoa học: PGS. TS. Quản Thành Thơ. Cơ sở đào tạo: Trường Đại học Thủ Dầu Một. Tóm tắt nội dung: Nhận dạng thực thể có tên (NER - Named Entity Recognition) là một thành phần chính trong hệ thống xử lý ngôn ngữ tự nhiên (NLP - Natural language processing) để trả lời câu hỏi, truy xuất thông tin, trích xuất quan hệ, v.v… Vai trò chính của tác vụ này là nhận dạng các cụm từ trong văn bản và phân loại chúng vào trong các nhóm đã được định nghĩa trước như tên người, tổ chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, v.v… Trong luận văn này, mô hình tiền huấn luyện PhoBERT được áp dụng để giải quyết bài toán nhận dạng thực thể có tên (Named Entity Recognition) với tập dữ liệu liên quan đến ngành bất động sản. Kết quả thu được của Luận văn là mô hình PhoBERT được xây dựng và kiểm thử trên cùng tập dữ liệu để so sánh độ chính xác với mô hình gốc và áp dụng vào một ứng dụng quản lý bất động sản ở Bình Dương. iv
MỤC LỤC Lời cam đoan .......................................................................................................... ii Lời cảm ơn ............................................................................................................ iii Tóm tắt luận văn .................................................................................................... iv MỤC LỤC .............................................................................................................. v Danh mục chữ viết tắt ......................................................................................... viii Danh mục bảng biểu.............................................................................................. ix Danh mục hình ảnh ................................................................................................ x MỞ ĐẦU .............................................................................................................. 13 1. Lý do chọn đề tài ..................................................................................... 13 2. Mục tiêu nghiên cứu ................................................................................ 14 3. Tổng quan nghiên cứu của đề tài ............................................................ 14 4. Đối tượng, phạm vi nghiên cứu............................................................... 15 5. Phương pháp nghiên cứu ......................................................................... 15 6. Đóng góp của đề tài ................................................................................. 15 7. Cấu trúc của đề tài ................................................................................... 15 Chương 1. CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN ..... 17 1.1. Nhận dạng thực thể có tên .................................................................. 17 1.2. Nhúng từ ............................................................................................. 18 1.2.1. Phép nhúng từ là gì? ....................................................................... 18 1.2.2. Công dụng của phép nhúng từ ........................................................ 19 1.2.3. Nhúng từ không ngữ cảnh .............................................................. 19 1.2.4. Nhúng từ có ngữ cảnh một chiều .................................................... 20 1.2.5. Nhúng từ có ngữ cảnh hai chiều ..................................................... 20 1.3. Conditional Random Field .................................................................. 20 1.4. Transformer......................................................................................... 22 1.4.1. Tổng quan về kiến trúc Transformer .............................................. 23 v
1.4.2. Cơ chế self-attention ....................................................................... 25 1.4.3. Multi-head attention ....................................................................... 31 1.4.4. Biểu diễn thứ tự trong chuỗi với Positional Encoding ................... 34 1.5. BERT .................................................................................................. 36 1.5.1. BERT là gì ...................................................................................... 36 1.5.2. Sự ra đời của BERT ........................................................................ 37 1.5.3. Nền tảng của BERT ........................................................................ 37 1.6. PhoBERT ............................................................................................ 41 1.7. Cách gán nhãn thực thể có tên ............................................................ 42 1.8. Chỉ số đánh giá hệ thống..................................................................... 45 1.9. Các công trình liên quan ..................................................................... 47 1.10. Phương pháp tiếp cận dựa trên quy tắc (rule-based approach) ........... 48 1.11. Phương pháp mạng neural học sâu ..................................................... 49 1.12. Phương pháp BERT fine-tune ............................................................ 49 Chương 2. PHƯƠNG PHÁP NGHIÊN CỨU VÀ HIỆN THỰC HỆ THỐNG 51 2.1. Phương pháp nghiên cứu .................................................................... 53 2.1.1. Sử dụng PhoBERT để huấn luyện .................................................. 53 2.1.2. Minh họa sử dụng thực tế ............................................................... 54 2.2. Các công nghệ sử dụng ....................................................................... 57 2.2.1. Ngôn ngữ lập trình .......................................................................... 57 2.2.2. Thư viện - Framework .................................................................... 59 2.2.3. Database .......................................................................................... 61 2.2.4. Công cụ ........................................................................................... 61 2.3. Hiện thực hệ thống .............................................................................. 62 2.3.1. Hệ thống cào dữ liệu (Data Crawler).............................................. 62 2.3.2. Gán nhãn và training model ........................................................... 64 2.3.3. Named Entity Recognition Service ................................................ 66 vi
2.3.4. Hệ thống Django backend .............................................................. 67 2.3.5. Hệ thống webapp frontend ............................................................. 68 2.3.6. Kết quả trả về .................................................................................. 70 Chương 3. KIỂM THỬ VÀ ĐÁNH GIÁ ......................................................... 73 3.1. Mô tả tập dữ liệu ................................................................................. 73 3.2. Kết quả thí nghiệm Mô hình PhoBERT.............................................. 75 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................................... 80 1. Các công việc đạt được ........................................................................... 80 2. Các hạn chế ............................................................................................. 80 3. Bước phát triển ........................................................................................ 80 TÀI LIỆU THAM KHẢO .................................................................................... 81 vii
Danh mục chữ viết tắt Ký Hiệu Tên Tiếng Anh AI Artificial Intelligence BERT Bidirectional Encoder Representations from Transformers CRF Conditional Random Field IE Information Extraction MLM Masked Language Model NER Named Entity Recognition NLP Natural Language Processing NSP Next Sentence Prediction RNN Recurrent Neural Network viii
Danh mục bảng biểu Bảng 1.1 Nhãn các thực thể theo cấu trúc BIO .................................................... 44 Bảng 3.1 Bảng các thực thế có tên cần xác định .................................................. 74 Bảng 3.2 Bảng chỉ số và kết quả của các thực thể có tên .................................... 79 ix
Danh mục hình ảnh Hình 1.1 Mẫu tin rao bán bán bất động sản ở Bình Dương ................................. 13 Hình 1.1 Minh họa về nhận dạng thực thể có tên ................................................ 17 Hình 1.2 Minh họa về phép nhúng từ .................................................................. 18 Hình 1.3 Kiến trúc mô hình Transformer ............................................................ 23 Hình 1.4 Kiến trúc đơn giản mô hình transformer cho bài toán dịch máy .......... 23 Hình 1.5 Kiến trúc encoder - decoder bên trong mô hình Transformer cho bài toán dịch máy ............................................................................................................... 24 Hình 1.6 Các ngăn xếp encoder - decoder bên trong mô hình Transformer ........ 24 Hình 1.7 Hai lớp con bên trong một encoder của mô hình transformer .............. 25 Hình 1.8 Ba lớp con bên trong một decoder của mô hình Transformer .............. 25 Hình 1.9 Mô tả cơ chế self-attention giữa từ “it” và các từ khác trong câu tại layer thứ 5 của ngăn xếp encoder .................................................................................. 26 Hình 1.10 Mô tả trừu tượng ba vector truy vấn (query), khóa (key) và giá trị (value) tạo ra từ các vector đầu vào.................................................................................. 27 Hình 1.11 Tính điểm mối liên hệ giữa từ hiện tại và các từ khác trong câu ........ 27 Hình 1.12 Cập nhập điểm bằng cách chia cho căn bậc 2 của số chiều của vector khóa và qua hàm softmax để chuẩn hóa .............................................................. 28 Hình 1.13 Các bước tính toán self-attention hoàn chỉnh ..................................... 29 Hình 1.14 Tính toán ma trận truy vấn Q, khóa K và giá trị V từ ma trận đầu vào X .............................................................................................................................. 30 Hình 1.15 Tính toán ma trận attention từ các ma trận truy vấn Q, khóa K và giá trị V ........................................................................................................................... 31 x
Hình 1.16 Scaled Dot - Product Attention và Multi-head attention .................... 31 Hình 1.17 Minh họa Multi-head attention dựa trên các câu hỏi khác nhau thì chú ý vào các từ khác nhau trong một câu ..................................................................... 32 Hình 1.18 Minh họa hai đầu head #0 và #1 khi thực hiện Multi-head attention . 32 Hình 1.19 Tám đầu ra sau khi tính toán Multi-head attention ............................. 33 Hình 1.20 Nối tám ma trận Zi và nhân với ma trận trọng số WO để tạo 1 ma trận đầu ra duy nhất cho bước tính toán Multi-head attention .................................... 33 Hình 1.21 Toàn bộ quá trình tính toán Multi-head attention ............................... 34 Hình 1.22 Vector mã hóa vị trí (positional encoding) trong mô hình transformer .............................................................................................................................. 35 Hình 1.23 Ví dụ tính toán ma trận vị trí với d = 4 và n = 100 ............................. 36 Hình 1.24 Minh họa token embeddings, segment embeddings và position embeddings trong mô hình BERT ....................................................................... 38 Hình 1.25 Minh họa quá trình huấn luyện BERT cho bài toán MLM ................. 39 Hình 1.26 Minh họa quá trình huấn luyện BERT cho bài toán Next Sentence Prediction ............................................................................................................. 41 Hình 1.27 Cách tính Precision và Recall ............................................................. 46 Hình 1.28 Phương pháp BERT fine-tune ............................................................ 50 Hình 2.1 Kiến trúc tổng quát của hệ thống bài toán ............................................ 51 Hình 2.2 Toàn bộ tiến trình pre-training và fine-tuning của BERT ..................... 53 Hình 2.3 Mẫu dữ liệu đầu vào .............................................................................. 54 Hình 2.4 Sử dụng mô hình PhoBERT để tiên đoán ............................................. 56 Hình 2.5 Các thư viện Machine Learning nổi tiếng có hỗ trợ Python ................. 58 Hình 2.6 Xây dựng giao diện chatbot bằng ngôn ngữ HTML / CSS / JS ............ 59 Hình 2.7 Sử dụng Postman để hỗ trợ kiểm thử kết quả từ Django API ............... 62 xi
Hình 2.8 Giao diện web browser của hệ thống cào dữ liệu từ trang web An Cư 63 Hình 2.9 Giao diện web browser của hệ thống cào dữ liệu từ trang web đăng bán nhà đất .................................................................................................................. 64 Hình 2.10 Gán nhãn cho dữ liệu đã được cào về ................................................. 65 Hình 2.11 Quá trình training model ..................................................................... 66 Hình 2.12 Sử dụng postman để giả lập gửi API request tới NER service ........... 67 Hình 2.13 Giao diện web hiển thị thông tin các mẫu tin được cào về ................. 69 Hình 2.14 Thông tin chi tiết một mẫu tin cào về được gán nhãn ......................... 69 Hình 2.15 Thông tin được thống kê qua biểu đồ ................................................. 70 Hình 2.16 Database lưu trữ dữ liệu sau khi crawler về ........................................ 71 Hình 2.17 Dữ liệu sau khi được crawler về ......................................................... 72 Hình 3.1 Đồ thị training và validation loss theo epoch cho mô hình PhoBERT . 75 Hình 3.2 Đồ thị training và validation accuracy theo epoch cho mô hình PhoBERT .............................................................................................................................. 76 Hình 3.3 Đồ thị training và validation f1-score theo epoch cho mô hình PhoBERT .............................................................................................................................. 76 xii
MỞ ĐẦU 1. Lý do chọn đề tài Ngày nay, Trí Tuệ Nhân Tạo (AI - Artificial Intelligence) là một lĩnh vực phát triển rất mạnh với nhiều ứng dụng thực tế và các chủ đề nghiên cứu rất tích cực. Con người hiện nay tạo nên các phần mềm thông minh để tự động hóa công việc, nhận diện được âm thanh hay hình ảnh, chuẩn đoán y học và có thể hỗ trợ nghiên cứu khoa học cơ bản. AI giúp cho con người xử lý trong những lĩnh vực có dữ liệu nhiều và phức tạp. Một trong những lĩnh vực đó là bất động sản, đặc biệt là ở Bình Dương - nơi hiện đang là một trong những thị trường bất động sản rất được thu hút những năm gần đây. Chúng ta xem xét ví dụ sau: Hình 1.1 Mẫu tin rao bán bán bất động sản ở Bình Dương Trong Hình 1.1 là một mẫu tin rao bán đất ở Bình Dương. Hiện nay, có hàng ngàn thông tin rao vặt như vậy, khiến cho con người gặp khó khăn trong việc tìm kiếm thông tin chính xác và phù hợp với nhu cầu của mình. Do đó, cần có một hệ thống hỗ trợ tìm kiếm nhanh chóng. Một hệ thống 13
như vậy sẽ cần trích xuất các thông tin quan trọng như: loại bất động sản, giá, diện tích, vị trí, tiện ích xung quanh, thông tin pháp lý, thông tin liên hệ, vv… để có thể hiểu được ý nghĩa của mẫu rao vặt và từ đó đáp ứng được việc giúp con người tìm thấy các thông tin liên quan đến bất động sản ở Bình Dương phù hợp với nhu cầu một cách nhanh và đầy đủ nhất. Trong học thuật, bài toán trích xuất các thông tin như trên gọi là bài toán Xác Định Thực Thể có tên (NER - Named Entity Recognition). Trong đó, loại bất động sản, giá, diện tích, vị trí, tiện ích xung quanh, thông tin pháp lý, thông tin liên hệ, vv… được gọi là các thực thể có tên. Đây là một bài toán nổi tiếng trong lĩnh vực xử lý ngôn ngữ tự nhiên và cũng là mục tiêu của đề tài này. Như vậy, với đề tài: “Phát triển một ứng dụng quản lý bất động sản thông minh ở Bình Dương” cho luận văn tốt nghiệp cao học của mình, tôi sẽ xây dựng một hệ thống hỗ trợ tìm kiếm thông tin với bài toán xác định thực thể có tên. 2. Mục tiêu nghiên cứu Trong phạm vi nghiên cứu của đề tài này, tôi tập trung nghiên cứu thành phần nhận dạng thực thể có tên từ các yêu cầu của người dùng cũng như trích xuất thông tin về bất động sản Bình Dương như giá trị, diện tích, địa điểm, vv.. từ dữ liệu thu thập được từ các trang web rao bán hoặc cho thuê bất động sản từ đó xây dựng được hệ thống tự động rút trích các thông tin về bất động sản. 3. Tổng quan nghiên cứu của đề tài Bất động sản là một vấn đề rất được nhiều người và xã hội đặt biệt quan tâm, việc tìm kiếm một bất động sản nhằm phục vụ cho nhu cầu của đa số mọi người cực kỳ cao như để an cư, kinh doanh, hay buôn bán là khá nhiều. Để giúp đỡ người dân trong vấn đề liên quan tới việc tìm kiếm bất động sản, cần xây dựng một ứng dụng thông minh trong lĩnh vực bất động sản là cần thiết, nhằm mục đích giải quyết một số vấn đề như: tiếp cận nguồn thông tin dễ dàng 14
hơn, nắm bắt được đúng giá trị thực của bất động sản. Theo tình hình thực tế và phân tích của một số trang mạng lớn như vnexpress, baobinhduong, batdongsan… nhu cầu bất động sản ở Bình Dương thời điểm hiện tại và trong tương lai có xu hướng tăng cao. Điều này đòi hỏi cần có một bài toán giúp người có nhu cầu tiếp cận thông tin một cách dễ dàng, một ứng dụng thông minh về bất động sản ở Bình Dương là cần thiết. Xuất phát từ những vấn đề trên, tôi chọn đề tài nghiên cứu “Phát triển một ứng dụng quản lý bất động sản thông minh ở Bình Dương” để làm đề tài nghiên cứu luận văn thạc sĩ của mình. 4. Đối tượng, phạm vi nghiên cứu Nhận dạng thực thể có tên là tác vụ cơ bản trong lĩnh vực xử lý ngôn ngữ tự nhiên và hiện nay đã có rất nhiều công trình nghiên cứu về vấn đề này. Trong luận văn này, tôi sẽ tập trung vào việc ứng dụng mô hình học máy PhoBERT trong bài toán nhận dạng thực thể có tên. Cuối cùng, mô hình PhoBERT được xây dựng, huấn luyện và kiểm thử trên cùng tập dữ liệu để ứng dụng vào hệ thống truy xuất, tìm kiếm tự động. 5. Phương pháp nghiên cứu Trong đề tài này, tôi nghiên cứu lý thuyết về bài toán nhận dạng thực thể có tên, nghiên cứu mô hình BERT, PhoBERT và ứng dụng mô hình PhoBERT vào bài toán nhận dạng thực thể có tên. 6. Đóng góp của đề tài - Giúp người dân có được một ứng dụng có đầy đủ thông tin về bất động sản ở Bình Dương. Dễ dàng truy cập thông tin từ nhiều nguồn khác nhau. - Cập nhật chính xác giá trị thị trường bất động sản. - Cung cấp dữ liệu một cách dễ dàng từ nhiều nguồn khác nhau. 7. Cấu trúc của đề tài Nội dung luận văn được chia thành các phần như sau: 15
- Chương 1: Cơ sở lý thuyết và các công trình liên quan - Chương 2: Phương pháp nghiên cứu và hiện thực hệ thống - Chương 3: Kiểm thử và đánh giá 16
Chương 1. CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN 1.1. Nhận dạng thực thể có tên Nhận dạng thực thể có tên (NER - Named Entity Recognition) là một thành phần chính trong hệ thống xử lý ngôn ngữ tự nhiên (NLP - Natural language processing) để trả lời câu hỏi, truy xuất thông tin, trích xuất quan hệ, v.v… Vai trò chính của tác vụ này là nhận dạng các cụm từ trong văn bản và phân loại chúng vào trong các nhóm đã được định nghĩa trước như tên người, tổ chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, v.v… Từ kết quả của tác vụ nhận dạng thực thể có tên, ta có thể xử lý cho nhiều bài toán phức tạp hơn như Chatbot, Question (Câu hỏi), Answering (Câu trả lời), Search (Tìm kiếm),... Hình 1.1 Minh họa về nhận dạng thực thể có tên Nhận dạng thực thể có tên không chỉ hoạt động như một công cụ độc lập để trích xuất thông tin (IE - Information Extraction), mà còn đóng một vai trò thiết yếu trong nhiều loại xử lý ngôn ngữ tự nhiên như là các ứng dụng như hiểu văn bản - text understanding (Zhang, et al., 2019) và (Cheng & Erk, 2020), truy xuất thông tin (Guo, Xu, Cheng, & Li, 2009), tóm tắt văn bản tự động (Aone, 1999), trả lời câu hỏi (Moll, Zaanen, & Smith, 2006), dịch máy (Babych & Hartley, 2003) và cấu trúc cơ sở kiến thức (Etzioni, et al., 2005), v.v… Từ năm 1995, hội thảo quốc tế chuyên đề Hiểu thông điệp (Message Understanding Conference - MUC) lần thứ 6 đã bắt đầu tổ chức đánh giá các hệ thống NER cho tiếng Anh. Tại hội thảo CoNLL năm 2002 và 2003, các hệ thống NER cho tiếng Hà Lan, Tây Ban Nha, Đức và Anh cũng được đánh giá. Trong các 17
tác vụ đánh giá này, người ta xét 4 loại thực thể có tên: tên người, tên tổ chức, tên địa danh và các tên khác. Gần đây, vẫn tiếp tục có các cuộc thi về NER được tổ chức, ví dụ GermEval 2014 cho tiếng Đức. Đối với tiếng Việt, cũng có vài cuộc thi như VLSP 2016, VLSP 2019 nhằm đưa ra được một đánh giá khách quan về chất lượng các công cụ NER, khuyến khích phát triển các hệ thống trích rút thực thể có tên đạt độ chính xác cao. Điều này đã chỉ ra vai trò thiết yếu của NER trong nhiều bài toán xử lý ngôn ngữ tự nhiên. 1.2. Nhúng từ 1.2.1. Phép nhúng từ là gì? Hình 1.2 Minh họa về phép nhúng từ Phép nhúng từ (word embedding) là phương pháp ánh xạ (map) những từ ngữ vào các véc tơ - vector hoặc số thực, còn được gọi là phương pháp mô hình hóa ngôn ngữ/dữ liệu. Một phép nhúng từ tốt sẽ mang lại nhiều lợi ích cho việc tính toán lẫn minh họa dữ liệu. Ví dụ, chúng ta muốn tìm thủ đô của Nga khi biết thủ đô của Việt Nam là Hà Nội thì sẽ làm như thế nào? Với một phép nhúng từ đủ tốt, vector Việt Nam - Hà Nội sẽ (gần như) song song với vector Nga - [thủ đô của Nga]. Do đó, trước 18
tiên ta sẽ tính vector tịnh tiến từ Việt Nam đến Nga, tạm gọi là vector v1, sau đó tìm ảnh của điểm tọa độ Hà Nội thông qua phép tịnh tiến theo vector v1. Cuối cùng, ta tra trong cơ sở dữ liệu từ ngữ ánh xạ với tọa độ vừa tìm được, kết luận Moscow là thủ đô của Nga. 1.2.2. Công dụng của phép nhúng từ Các tác vụ xử lý ngôn ngữ tự nhiên thường có đầu vào là các câu chữ, nhưng máy tính lại chỉ có thể tính toán dựa trên số nên chúng ta cần phải tìm cách chuyển đổi từ câu chữ sang các vector, ma trận. Phép nhúng từ là một trong những cách thực hiện điều đó. Hiện tại, các phép nhúng từ mới xuất hiện đều có sử dụng mạng neural (neural network) như Word2vec, GloVe, BERT, XLNet,… Bên cạnh đó cũng có những phương pháp nhúng từ khác dựa trên thống kê như BoW (Bag of Words- túi đựng từ), TF-IDF (Term Frequency - tần suất xuất hiện của từ, Inverse Document Frequency - tần suất nghịch đảo văn bản). Các phương pháp dựa trên thống kê như BoW, TF-IDF có tác dụng khá tốt đối với các tập dữ liệu (dataset) kém phong phú. Trong khi những phương pháp sử dụng mạng neural sẽ có tác dụng tốt hơn hẳn khi xử lý các tác vụ phức tạp, có tập dữ liệu khổng lồ. 1.2.3. Nhúng từ không ngữ cảnh Mỗi từ trong từ điển hay kho văn bản sẽ có một vector đại diện cho nó. Và trong bất cứ câu nào, đoạn văn nào thì từ đó vẫn chỉ được biểu diễn bởi duy nhất một vector. Ví dụ ta có 2 câu sau: • Con đường này thật là rộng! • Chúng ta nên pha thêm đường vào ly café. Rõ ràng từ “đường” ở hai câu trên mang nghĩa khác nhau, nhưng với phương pháp nhúng từ không ngữ cảnh thì cả hai từ này đều ánh xạ ra chung một vector nhúng từ. 19