K YU NGHIÊN CU KHOA HC CỦA SINH VIÊN TRƯỜNG ĐI HC CNTT&TT VIT - HÀN NĂM HỌC 2021-2022
39
ỨNG DỤNG AI XÂY DỰNG CHATBOT HỖ TRỢ SINH VIÊN
TRONG CÔNG TÁC HỌC TẬP VÀ SINH HOẠT TẠI VKU
AN APPLICATION OF AI ON BUILDING CHATBOTS TO SUPPORT STUDENTS
IN LEARNING AND LIVING AT VKU
SV: Đỗ Ngọc Thanh
Lớp 19IT3, Khoa Khoa học máy tính; Email: dnthanh.19it3@vku.udn.vn
GVHD: ThS. Nguyễn Anh Tuấn
Khoa Khoa học máy tính; Email: natuan@vku.udn.vn
Tóm tắt: Thay vì các nhân viên tư vấn hỗ trợ người
thật, xuất hiện ngày ng phổ biến các website, ứng dụng
của tổ chức doanh nghiệp trang bị nhân viên “ảo” các
Chatbot có thể trả lời, phản hồi tức thì khách hàng 24/7
nhiều lĩnh vực như tiếp thị, bán hàng online, dịch vụ bán
lẻ, giáo dục,đặt vé, đặt phòng, thanh toán, truyền thông,
vấn, chăm sóc khách hàng, giải đáp thắc mắc người
mua hàng. Với việc tích hợp các ng nghệ mới như trí
tuệ nhân tạo (AI) trong Chatbot đang dần trở nên thông
minh hơn trở thành công cụ đắc lực giúp các doanh
nghiệp tự động hóa một số quy trình trong kinh doanh,
tăng hiệu suất kinh doanh cắt giảm chi pnhân lực,
hỗ trợ tốt các yêu cầu chăm sóc khách hàng, ng cao
tri nghiệm người dùng. Nhận thấy được tiềm năng của
Chatbot trong lĩnh vực giáo dục, nhóm đề tài quyết định
thực hiện đề tài “Ứng dụng ai y dựng chatbot hỗ tr
sinh viên trong công tác học tập và sinh hoạt tại VKU
Từ khóa: AI chatbot, VKU AI chatbot, xử ngôn ngữ
tự nhiên
Abstract: Instead of consulting support who are real
people, more and more websites and applications of
businesses are equipped with "virtual" employees called
Chatbots that can reply and respond immediately to
customers 24/7 in many areas such as marketing, online
sales, retail services, education, ticketing, booking,
payment, communication, consulting, customer care,
answering customer inquiries. With the integration of new
technologies such as artificial intelligence (AI) in
Chatbot, it is is smarter and smarter and becoming an
effective tool to help businesses automate some business
processes and increase efficiency of businesses and cut
human resources costs, well support customer care
requirements, improve user experience. Realizing the
potential of Chatbot in the field of education, the research
team decided to carry out the project "An Application of
AI on building chatbots to support students in studying
and living at VKU".
Keywords: AI chatbot, VKU AI chatbot, natural
language processing
1. Giới thiệu
1.1. Tổng quan đề tài
Hiện nay, Chatbots một trong nhiều hứa hẹn lớn
trong công nghệ thông tin. Chúng được hình thành như
một giao diện mới, được thiết kế để thay thế hoặc bổ sung
cho c ng dụng hoặc lượt truy cập vào một trang web
bằng cách người ng chỉ cần tương tác với một dịch vụ
thông qua trò chuyện. Chúng thường được gọi "bot",
c chương trình máy tính y thxngôn ngtự
nhiên đưa ra câu trả lời cho các câu hỏi của người
dùng.
Tại VKU việc áp dụng công nghệ vào ng tác trao
đổi giữa sinh viên nhà trường với mục đích đem lại
những tiện ích tốt nhất hỗ trợ các bạn sinh viên trong
việc cập nhật thông tin từ Nhà trường một cách nhanh
nhất thể chủ động tra cứu thông tin lúc cần thiết,
bên cạnh các kênh thông tin hiện tại, ta cần sử dụng thêm
kênh thông tin Chatbots, cụ thể qua tin nhắn từ nền
tảng Zalo để thường xuyên cập nhật các thông báo liên
quan đến sinh viên
1.2. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu ca đề tài là hoạt động tra cứu
thông tin của sinh viên trường Đại học Công nghệ thông
và truyền thông Việt - Hàn.
- Phạm vị nghiên cứu: trường Đại học Công nghệ
thông và truyền thông Việt - Hàn
1.3. Nội dung nghiên cứu
Trong đ tài nghiên cứu lần này nhóm chúng em
nghiên cứu về các vấn đề như:
- Cơ chế tương tác giữa Zalo API và Máy chủ Chatbot
- Các thuật toán phân lớp (Classificasion)
- Xử lý ngôn ngữ tự nhiên
- Thiết kế các intents và entities cho các mô hình xử
lý ngôn ngữ tự nhiên
- Training model
- Xây dựng máy chủ Chatbot deploy lên máy ch
thực tế.
1.4. c nghiên cứu liên quan
1.4.1. c nghiên cứu ngoài nước
Chatbot của nhiều công ty chạy trên ng dụng nhắn
tin hoặc đơn giản qua SMS. Chúng được sử dụng cho
dịch vụ khách hàng B2C, bán hàng và tiếp thị.1
Vào năm 2016, Facebook Messenger đã cho phép các
1 Chatbot (https://en.wikipedia.org/wiki/Chatbot)
K YU NGHIÊN CU KHOA HC CA SINH VIÊN TRƯỜNG ĐI HC CNTT&TT VIT - HÀN NĂM HỌC 2021-2022
40
nhà phát triển đặt chatbot trên nền tảng của họ. Đã
30.000 bot được tạo cho Messenger trong sáu tháng đầu
tiên, tăng lên 100.000 vào tháng 9 năm 2017. [20]
Kể từ tháng 9 năm 2017, đây cũng một phần của
chương trình thử nghiệm trên WhatsApp. Cả hai hãng
hàng không KLM Aeroméxico đều đã thông báo tham
gia vào cuộc thử nghiệm. Trước đây cả hai hãng hàng
không đã tung ra dịch vụ khách hàng trên nền tảng
Facebook Messenger.
Các bot thường xuất hiện như một trong những địa chỉ
liên hệ của người dùng, nhưng đôi khi thể hoạt đng
như những người tham gia vào cuộc trò chuyện nhóm.
Nhiều ngân hàng, công ty bảo hiểm, ng ty truyền
thông, ng ty thương mại điện tử, hãng hàng không,
chuỗi khách sạn, nbán lẻ, nhà cung cấp dịch vụ chăm
c sức khỏe, tổ chức chính phủ chuỗi nhà hàng đã sử
dụng chatbot để trả lời các câu hỏi đơn giản, tăng mức độ
tương tác của khách hàngđể quảng cáo cung cấp các
ch bổ sung để đặt hàng từ chúng.
Một nghiên cứu năm 2017 cho thấy 4% công ty đã sử
dụng chatbots. Theo một nghiên cứu năm 2016, 80%
doanh nghip cho biết họ dự định có một công ty vào năm
2020.
1.4.2. c nghiên cứu trong nước
Việt Nam, các công ty y dựng bot cũng bước vào
cuộc đua khốc liệt không kém. Nhưng đa số các nền tảng
xây dựng chatbot tại Việt Nam không được tích hợp Trí
tuệ nhân tạo AI, do đó chúng không khả năng học hỏi
thông minh hơn theo thời gian. Những chatbot này
thường đưa ra nhiều sự lựa chọn đdẫn dắt khách hàng
đến vấn đề họ quan tâm. Nếu khách hàng hỏi một câu bất
kì, những chatbot này sẽ không thể trả lời được và khách
hàng tiếp tục phải chờ để được sự trợ giúp từ tư vấn viên.
Riêng với lĩnh vực giáo dục, hiện tại tiêu biểu ta
“Bot mập” phục vtra cứu thông tin về đoàn - hội UEH
(Đại học kinh tế thành phố Hồ Chí Minh) hay trên nền
tảng Messenger hoặc chatbot hỗ trợ tra cứu thông tin sinh
viên, chatbot hỗ trợ việc học lập trình của Đại học công
nghệ thông tin thành phố Hồ Chí Minh cũng đang hoạt
động đem lại phản hồi tích cực từ sinh viên các trường
đang áp dụng.
2. sở lý luận
2.1. Resful API
RESTful API một tiêu chuẩn dùng trong việc thiết
kế API cho các ứng dụng web (thiết kế Web services) để
tiện cho việc quản các resource. chú trọng vào tài
nguyên hệ thống (tệp văn bản, ảnh, âm thanh, video, hoặc
dữ liệu động…), bao gồm các trạng thái tài nguyên được
định dạng và được truyền tải qua HTTP.
2.1.1. Diễn giải các thành phần
API (Application Programming Interface) một tập
c quy tắc và chế mà theo đó, một ứng dụng hay một
thành phần sẽ tương tác với một ứng dụng hay thành phần
khác. API thể trả về dữ liệu bạn cần cho ứng dng
của mình những kiểu dliệu phổ biến như JSON hay
XML.
REST (REpresentational State Transfer) một dạng
chuyển đổi cấu trúc dữ liệu, một kiểu kiến trúc đ viết
API. sdụng phương thức HTTP đơn giản để tạo cho
giao tiếp giữa các máy. vậy, thay vì sdụng một URL
cho việc xử một số thông tin người dùng, REST gửi
một yêu cầu HTTP như GET, POST, DELETE, vv đến
một URL để xử lý dữ liệu.
RESTful API một tiêu chuẩn dùng trong việc thiết
kế các API cho các ng dụng web để quản các
resource. RESTful một trong những kiểu thiết kế API
được sử dụng phổ biến ngày nay đ cho c ng dụng
(web, mobile…) khác nhau giao tiếp với nhau.
Chức năng quan trọng nhất của REST quy định
ch sử dụng các HTTP method (như GET, POST, PUT,
DELETE…) cách định dạng các URL cho ng dụng
web để quản các resource. RESTful không quy định logic
code ứng dụng không giới hạn bởi ngôn ngữ lập trình
ứng dụng, bất kỳ ngôn ngữ hoặc framework nào cũng
thể sử dụng để thiết kế một RESTful API.
2.1.2. Cơ chế hoạt động
REST hoạt động chủ yếu dựa vào giao thức HTTP.
Các hoạt động bản nêu trên ssử dụng những phương
thức HTTP riêng.
- GET (SELECT): Trả về một Resource hoặc một
danh sách Resource.
- POST (CREATE): Tạo mới một Resource.
- PUT (UPDATE): Cập nhật thông tin cho Resource.
- DELETE (DELETE): Xoá mt Resource.
Những phương thức hay hoạt động này thường được
gọi CRUD tương ứng với Create, Read, Update, Delete
Tạo, Đọc, Sửa, Xóa.
2.2. y học (Machine Learning)
Học máy (tiếng Anh: machine learning) một lĩnh
vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu
xây dựng các thuật cho phép các hệ thống "học" tự
động từ dữ liệu để giải quyết những vấn đề cụ thể. dụ
như các máy thể "học" cách phân loại thư điện tử xem
phải thư rác (spam) hay không tự động xếp thư vào
thư mục tương ứng. Học y rất gần với suy diễn thống
(statistical inference) tuy khác nhau vthuật ng.
Một nhánh của học máy là học sâu phát triển rất mạnh mẽ
gần đây những kết quả vượt trội so với các phương
pháp học máy khác Học máy liên quan lớn đến thống
kê, cả hai lĩnh vực đều nghiên cứu việc phân tích d
liệu, nhưng khác với thống kê, học y tập trung vào sự
phức tạp của các giải thuật trong việc thực thi tính toán.
Nhiều bài toán suy luận được xếp o loại bài toán NP-
khó, thế một phn của học y nghiên cứu sự phát
triển các giải thuật suy luận xấp xỉ mà có thể xử lý được.
Học máy hiện nay được áp dụng rộng rãi bao gồm
máy truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín
dụng giả, phân tích thị trường chứng khoán, phân loại các
chuỗi DNA, nhận dạng tiếng nói chữ viết, dịch tự
động, chơi trò chơi và cử động rô-bốt (robot locomotion).
2.3. Neural Network là gì?
Neural Network đọc tiếng việt Mạng -ron nhân
tạo, đâymột chuỗi những thuật toán được đưa ra để tìm
K YU NGHIÊN CU KHOA HC CA SINH VIÊN TRƯỜNG ĐI HC CNTT&TT VIT - HÀN NĂM HỌC 2021-2022
41
kiếm các mối quan hệ bản trong tập hợp các d liệu.
Thông qua việc bắt bước cách thức hoạt động từ não b
con người. i cách khác, mạng nơ ron nhân tạo được
xem hthống của các tế bào thần kinh nhân tạo. Đây
thường có thể là hữu cơ hoặc nhân tạo về bản chất.
Neural Network có khả năng thích ứng được với mi
thay đổi từ đầu vào. Do vậy, nó thể đưa ra được mọi
kết qumột ch tốt nhất thể bạn không cần phải
thiết kế lại những tiêu chí đầu ra. Khái niệm này có nguồn
gốc từ trí tuệ nhân tạo, đang nhanh chóng trở nên phổ
biến hơn trong sự phát triển của những hệ thống giao dịch
điện tử.
2.3.1. Đặc điểm của Artificial Neural Network là gì?
Trong lĩnh vực tài chính, mạng nơ ron nhân tạo hỗ trợ
cho quá trình phát triển các quy trình như: giao dịch thuật
toán, dự báo chuỗi thời gian, phân loại chứng khoán, mô
hình rủi ro tín dụng xây dựng chỉ báo độc quyền và
ng cụ phát sinh giá cả. Mạng ron nhân tạo th
hoạt động như mạng nơ ron của con người. Mỗi một
ron thần kinh trong ron nhân tạo hàm toán học với
chức năng thu thập phân loại các thông tin dựa theo
cấu trúc cụ thể.
Neural Network sự tương đồng chuẩn mạnh vối
những phương pháp thống như đthị đường cong
phân tích hồi quy. Neural Network có chứa những lớp bao
hàm các nút được liên kết lại với nhau. Mỗi nút lại một
tri giác cấu tạo tương tự với hàm hồi quy đa tuyến
tính.Bên trong một lớp tri giác đa lớp, chúng sẽ được sắp
xếp dựa theo các lớp liên kết với nhau. Lớp đầu vào sẽ
thu thập các mẫu đầu vào lớp đầu ra sẽ thu nhận các
phân loại hoặc tín hiệu đầu ra các mẫu đầu vào thể
phản ánh lại.
2.3.2. Kiến trúc mạng Neural Network là gì?
Mạng Neural Network sự kết hợp của những tầng
perceptron hay còn gọi perceptron đa tầng. mỗi một
mạng Neural Network thường bao gồm 3 kiểu tầng là:
Tầng input layer (tầng vào): Tầng này nằm bên trái
ng của mạng, thể hiện cho các đầu vào của mạng.
Tầng output layer (tầng ra): tầng bên phải cùng
và nó thể hiện cho những đầu ra của mạng.
Tầng hidden layer (tầng ẩn): Tầng này nằm giữa
tầng vào và tầng ra thể hiện cho quá trình suy luận
logic của mạng.
Lưu ý: Mỗi một Neural Network chỉ duy nhất một
tầng vào và 1 tầng ra nhưng lại có rất nhiều tầng ẩn.
Hình 1. Kiến trúc mạng Neural network
Với mạng Neural Network thì mỗi nút mạng một
sigmoid ron nhưng chúng lại hàm kích hoạt khác
nhau. Thực tế, người ta thường sử dụng cùng loại với
nhau để việc tính toán thuận lợi hơn. Tại mỗi tầng, số
lượng t mạng thể khác nhau còn y vào bài toán
hoặc cách giải quyết.
Tuy nhiên, khi làm việc người ta sẽ đcác tầng ẩn số
với số lượng nowrowrron khác nhau. Ngoài ra, những
nơron nằm tầng thường sẽ liên kết đôi với nhau để tạo
thành mạng kết nối đầy đủ nhất. Khi đó, người dùng
thể tính toán được kích cỡ của mạng dựa vào tầng và số
lượng nơ ron.
Mạng ron nhân tạo được ứng dng cho rất nhiều
lĩnh vực như: tài chính, giao dịch, phân tích kinh doanh,
lập kế hoạch cho doanh nghiệp bảo trì sản
phẩm. Neural Network còn được sử dụng khá rộng rãi cho
những hoạt động kinh doanh khác như: dự báo thời tiết,
tìm kiếm các giải pháp nhằm nghiên cứu tiếp thị, đánh
giá rủi ro và phát hiện gian lận.
2.3.3. Ứng dụng của Neural Network là gì?
Nhiều trường hợp còn sử dng mạng ron nhân tạo
để thực hiện đánh giá và khai quật những cơ hội giao dịch
dựa vào việc phân tích dữ liệu lịch sử. Mạng nơron còn
được áp dụng rất phổ biến để phân biệt sự phụ thuộc giữa
c phi tuyến lẫn nhau của đầu vào. Đây là vấn đề mà các
hình phân tích kỹ thuật khác không thể đáp ứng
được. vậy, sự chính xác của việc áp dụng mạng nơron
nhân tạo vào dự đoán giá cổ phiếu hoàn toàn khác nhau.
2.3.4. Lan truyền tiến trong Neural Network
Trong toàn bộ các nốt mạng nơ ron đều thể kết hợp
đôi một với nhau theo một chiều duy nhất từ tầng vào đến
tầng ra. Có nghĩa là, mỗi nốt một tầng sẽ nhận đầu vào
là tất cả các nốt tầng trước đó và ngược lại. Có nghĩa là,
việc suy luận Neural Network dạng suy luận tiến
(feedforward).
2.3.5. Sử dụng Neural Network như thế nào?
Mạng neural nhân tạo khnăng sử dụng được như
một loại cơ chế xấp xỉ hàm tùy ý mà học được từ việc dữ
liệu quan sát. Tuy nhiên, việc sử dụng chúng khá khó
cần phải sự hiểu biết ơng đối về những thuyết
bản về mạng nơron này.
Lựa chọn hình: Phụ thuộc vào cách trình y d
liệu và các ứng dụng của nó. Đây là mô hình khá phức tạp
nên có thể dẫn đến nhiều thách thức cho quá trình học.
Thuật toán học: Thường sẽ rất nhiều thỏa thuận
giữa các thuật toán học. Và hầu hết, chúng sẽ làm việc tốt
với những tham số đúng nhm huấn luyện trên dữ liệu mà
không nhìn thấy yêu cầu một số lượng đáng kể các thử
nghiệm.
Mạnh mẽ: Nếu như các hình, thuật toán học
hàm chi phí được lựa chọn một cách thích hợp thì Neural
Network có thể cho ra kết quả vô cùng hợp lý.
Nếu thực hiện chính xác, thì bạn thể sử dụng
Neural Network một cách tự nhiên th ng dụng
vào những tập dữ liệu lớn.
3. Nội dung và kết quả nghiên cứu
3.1. Yêu cầu
3.1.1. Yêu cầu tính năng
K YU NGHIÊN CU KHOA HC CA SINH VIÊN TRƯỜNG ĐI HC CNTT&TT VIT - HÀN NĂM HỌC 2021-2022
42
Qua khảo sát yêu cầu của đề tài, nhóm đã rút ra được
c yêu cầu cần có ở phía sinh viên như sau:
Điều kiện tiên quyết sinh viên cần đăng sđiện
thoại của tài khoản Zalo trên hệ thống trường like
page.
Trong lần lần đầu sử dụng, sinh viên cần vào liên kết
với Zalo OA của VKU bằng cách xác minh từ liên kết từ
chatbot trên Zalo.
Các tính năng chính ca Chatbot:
Tra cứu điểm rèn luyện.
Tra cứu điểm xét học vụ.
Tra cứu thời khoá biểu.
Tra cứu học phí.
Tra cứu thông tin về lớp đồ án.
Để truy vấn thông tin từ Zalo Chatbot, người dùng
tương tác với các tuỳ chọn trên thanh menu của Zalo
Chat.
Đối với hệ thống
Qua khảo sát yêu cầu của đề tài, nhóm đã rút ra được
các yêu cầu cần có ở phía hệ thống như sau:
- Hệ thống cần kiểm tra số điện thoại người dung
khớp với hệ thống mỗi khi cần tra cứu.
- Thông tin để trả vsinh viên được lấy từ API của
VKU.
- Mỗi số điện thoại đăng kí trên hệ thống ứng một một
sinh viên tương ứng.
- Người dùng tương tác với Zalo trả lại thông tin
truy vấn đến hệ thống để lấy thông tin tương ứng từ VKU
API, từ đó trả về kết quả cho người dung.
3.1.2. Yêu cầu phi tính năng
Bên cạnh các yêu cầu tính năng trên, ta các yêu cầu
phi tính năng sau
Bảng 1. Yêu cầu phi tính năng
Mc n yêu
cu Mô t yêu cu
1 Giao
din
Ti giản, giúp người dùng tương tác nhanh
chóng
2 Tốc độ
x
H thng phi thc thi với độ tr thấp (dưới
1s) cho các thao tác của người dùng
3 Bo mt Thông tin sinh viên cần đưc bo mt tuyt
đối trước tác nhân truy cp ngoài ý mun
4 Tương
thích
Tương thích với truy cp t thiết b Android
và iOS có cài đặt Zalo
3.2. Ca sử dụng
Ca sử dụng đối sinh viên bao gồm:
- Liên kết OA.
- Tra cứu điểm rèn luyện.
- Tra cứu thời khoá biểu.
- Tra cứu học phí.
- Tra cứu điểm.
- Tra cứu lịch thi.
- Tra trạng thái liên kết OA.
Kiểm từ c thông tin đặc tả ca sử dụng mục 3.1.2
và 3.1.1, ta thu được biểu đồ ca sử dụng ở hình 2.
3.3. Mô hình hóa hành vi Chatbot
Hình 2. Biểu đồ tuần tự hành vi tra cứu VKU Chatbot
Với VKU Chatbot ta sẽ cố 2 thành phần chính:
- Nền tảng nhắn tin (cụ thZalo): Tiếp nhận thông
tin của người dùng, gửi thông điệp đến VKU API nhận
lại kết quả từ VKU API
- VKU API: máy chủ API của VKU, chịu trách nhiệm
nhận truy vấn từ người dùng sau đó trả lại Zalo đ
thể hiển thị được thông báo cho người dùng
Việc giao tiếp giữa VKU API Zalo đều được thực
hiện hoàn toàn qua RestAPI.
Tuy nhiên với cách làm này ta chỉ thể thu lại kết
quả với những tra cứu theo pháp nhất định. Để thể
giải quyết bài toán giúp Chatbot thể hiểu được ngôn
ngữ tự nhiên, nhóm đã bổ sung máy chủ AI API dựng trên
nền tảng Python giúp hiểu được ý niệm người dùng từ
ngôn ngữ tự nhiên mà người dùng nhập vào
Hình 3. Biểu đồ tuần tự hành vi tra cứu VKU Chatbot với
xử lý ngôn ngữ tự nhiên
Để tạo ra máy chủ này, nhóm thực hiện sử dụng công
nghệ xử ngôn ngữ tự nhiên kết hợp với việc dự đoán
bằng thuật toán Logictic Regression được xây dựng với
mạng neuron sâu (DNN - Deep neural Network).
3.4. hình đề xuất
Trong mô hình đề xuất, ta 2 khối chức năng chính
- Huấn luyện (training): Bao gồm các bước thu thập
dữ liệu, tiền x lý, Word Embedding2, Xây dựng mạng
neuron thần kinh, lưu model
- Dự đoán (Predict): Gồm các bước tiền xử lý, Word
Embedding, Dự đoán lớp câu hỏi, đứa ra câu trả lời
2 Word Embedding một không gian vector dùng để biểu diễn dữ liệu
có khả năng miêu tả được mối liên hệ, sự tương đồng về mặt ngữ nghĩa,
văn cảnh (context) của dữ liệu
K YU NGHIÊN CU KHOA HC CA SINH VIÊN TRƯỜNG ĐI HC CNTT&TT VIT - HÀN NĂM HỌC 2021-2022
43
Hình 4. hình đề xuất
3.5. Thu thập, gắn nhãn và tiền xử lý dữ liệu
3.5.1. Thu thập và gắn nhãn
Để đáp ứng nhu cầu giải đáp các thắc mắc của sinh
viên VKU, chúng tôi đã tiến hành thu thập dữ liệu vtập
u hỏi từ c tin nhắn từ sinh viên đến c phòng ban,
điển hình là tin nhắn của sinh viên đến fanpage của phòng
đào tạo. Ta sẽ tiến hành gắn nhãn dữ liệu theo các nhóm
chức năng. Đầu ra dữ liệu sẽ chuỗi json định dạng
như hình 3-4 để tiến hành tiền xử lý.
Hình 5. Định dạng JSON để tiến hành tiền xử
Giải thích thuộc tính:
- Tags: nhãn hành vi được gắn nhãn
- Patterns: mẫu câu hỏi thường gặp
- Response: Phản hồi (nếu có)
3.5.2. Tiền xử lý dữ liệu
Tiền xử dữ liệu giai đoạn rất quan trọng, hay nói
ch khác đây công đoạn làm sạch văn bản. Việc văn
bản được làm sạch giúp cách thuật toán thtrích xuất
được những đặc trưng tốt nhất từ đó nâng cao hiệu quả,
chất lượng của các mô hình, thuật toán. Đối với bước tiền
xử lý dữ liệu, ta sẽ tiến hành các hành vi sau:
- Biến đổi về chữ thường
- Bỏ các kí tự đặc biệt
- WordTokenize
Giả định ta câu đầu vào “Học phí của em bao
nhiêu?”. Các bước thực hiện trong tiền xử lý sẽ như sau
1. Lowercase chuyển sang chữ thường
2. Remove Stop Word Bỏ từ kết thúc, từ vô nghĩa
3. Wordtokenize Tách câu thành từ, cụm từ
Hình 6. Minh hoạ các bước xử lý ngôn ngữ tự nhiên
3.6. Word Embedding
Mỗi từ phản ánh cấu trúc của từ liên quan đến thông
tin ngữ nghĩa/ hình thái/ bối cảnh/ phân cấp/ v.v. Ý ởng
của Word embedding thu thập càng nhiều thông tin
ng tốt chuyển đổi thành các vector biểu diễn mối
quan hệ giữa các từ với nhau. Thuật toán Word2vec của
Tomas Mikolov một trong những phương pháp chính
biểu diễn từ nhúng bằng cách sử dụng một lượng lớn văn
bản để tạo ra các từ đại diện (50 đến 300 chiều); biểu
diễn mối quan hệ giữa các từ với nhau một cách chi tiết
cụ thể. Trong nghiên cứu này, chúng tôi sử dụng từ
nhúng (word embedding) - Túi từ liên tục (CBOW).
Hình 7. hình túi từ liên tục (CBOW)
Trong mô hình túi từ liên tục, ngcảnh được thể hiện
bằng nhiều từ cho một từ mục tiêu nhất định. dụ:
chúng ta thể sdụng từ cat on làm từ ngữ cảnh để
climbed làm từ mục tiêu. Điều này đòi hỏi phải sửa đổi
kiến trúc mạng ron. Việc sửa đổi, được hiển thị bên
dưới, bao gồm sao chép đầu vào vào các kết nối lớp ẩn C
lần, số lượng t ng cảnh và thêm phép chia cho hoạt
động C trong các lớp ẩn nơ-ron.
Hình 8. Minh hoạ đầu ra BOW của bước Word
Embedding