Xử lý cho dữ liệu tiếng Việt
-
Bài viết "Sử dụng mạng nơ-ron đồ thị để phân tích cảm xúc cho bình luận" nghiên cứu mô hình Graph neural networks (GNN) trong học sâu (deep learning) áp dụng trên dữ liệu đồ thị để phân loại văn bản Tiếng Anh ứng dụng trong bài toán phân lớp băn bản. Kết quả thực nghiệm trên bộ dữ liệu Movie Reviews đã đạt đến độ chính xác lên đến 76,468% so với một số mô hình học sâu khác trong bài toán phân lớp văn bản được trình bày trong nghiên cứu.
15p tuongtrihoai 23-07-2024 3 2 Download
-
Bài viết này đề xuất một phương pháp phát hiện phát ngôn tiêu cực trên mạng xã hội sử dụng các kỹ thuật học sâu, trong đó kết hợp các kỹ thuật nhúng từ và nhúng ký tự khác nhau như charCNN, word2vec, BERT và mô hình BiLSTM. Đồng thời, chúng tôi cũng đề xuất phương pháp để tăng cường độ chính xác cho dữ liệu đầu vào là sửa lỗi chính tả tiếng Việt trong bước tiền xử lý dữ liệu.
8p vithomson 02-07-2024 4 1 Download
-
Luận án Tiến sĩ Kỹ thuật "Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản" trình bày các nội dung chính sau: Tổng quan về trích xuất thông tin tự động từ văn bản; Trích xuất khía cạnh và phân loại quan điểm cho tiếng Việt tận dụng nguồn dữ liệu đã được gán nhãn từ ngôn ngữ khác; Trích xuất thực thể và quan hệ trong văn bản pháp quy tiếng Việt sử dụng học máy truyền thống và học sâu.
158p vilazada 02-02-2024 13 3 Download
-
Bài viết "Tập dữ liệu tiếng Việt cho bài toán tìm câu hỏi tương đồng" trình bày một phương pháp xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng.Tác giả xây dựng được 7911 cặp câu hỏi được gán nhãn. Đồng thời, tập dữ liệu này cũng được thử nghiệm đánh giá trên một số mô hình học máy cơ bản.
5p phuong798 26-12-2023 12 4 Download
-
Luận văn "Ứng dụng máy học trong tạo sinh câu trả lời cho hệ thống hỏi đáp" sẽ nghiên cứu các mô hình máy học để xây dựng mô hình hệ thống trả lời tự động có chức năng tạo sinh câu trả lời bằng tiếng Việt cho người dùng.
24p trankora03 05-08-2023 7 4 Download
-
Bài viết Một số đánh giá về cuộc thi nhận dạng tiếng nói VLSP 2021 trình bày mô tả cuộc thi từ khâu chuẩn bị dữ liệu đến khi gửi kết quả cuối cùng của các đội tham gia. Trong đó Task1 tập trung vào việc phát triển mô hình ASR cho các bài giảng trực tuyến. Trong nhiệm vụ này, tập dữ liệu đã được phát hành để huấn luyện bao gồm cả dữ liệu có nhãn và chưa được gán nhãn.
3p vipettigrew 15-03-2023 9 3 Download
-
Bài viết Sơ lược chính sách giáo dục tiếng Hán tại Việt Nam năm 1874-1906 được nghiên cứu nhằm chỉ rõ sự khác nhau trong chính sách giáo dục khoa cử chữ Hán tại Nam Kỳ và Bắc-Trung Kỳ của chính quyền thực dân Pháp trước năm 1906. Bài viết thông qua phương pháp thu thập và xử lý dữ liệu như nghị định, quyết định, đã cho ra kết luận.
8p vichristinelagarde 11-07-2022 32 8 Download
-
Trong nghiên cứu này đề xuất một mô hình làm tăng dữ liệu văn bản dựa trên các câu bình luận áp dụng cho ngôn ngữ tiếng Việt. Một số kỹ thuật cơ bản được sử dụng nhằm sinh thêm số lượng bình luận như chèn từ, thay thế từ, xóa từ. Kết quả thực nghiệm đã cho thấy hiệu quả của mô hình này.
8p viellenkullman 13-05-2022 65 3 Download
-
Bài toán trả lời câu hỏi trực quan (VQA) là bài toán kết hợp thị giác máy tính và xử lý ngôn ngữ tự nhiên. Trong bài viết này, chúng tôi trình bày các chiến lược xây dựng bộ dữ liệu VQA mới bằng tiếng Việt, Flickr8k-ViQA, bằng cách sinh tự động các cặp câu hỏi – câu trả lời từ những chú thích của bộ dữ liệu Flickr8k.
10p vielonmusk 21-01-2022 54 2 Download
-
Nghiên cứu đã trình bày những nét chính về mặt ý tưởng, giải thuật; ưu, nhược điểm của một số giải thuật phân lớp dữ liệu được sử dụng phổ biến trong xử lý tiếng Việt như SVM, cây quyết định, giải thuật Bayes.
8p tomjerry008 11-12-2021 21 2 Download
-
Đồ án tìm hiểu về một số phương pháp biểu diễn từ bằng véc-tơ, một số phương pháp học sâu sử dụng đặc trưng véc-tơ từ làm đầu vào xử lý và úng dụng phương pháp LSTM sử dụng véc-tơ từ là đặc trưng cho bài toán phân loại quan điểm bình luận tiếng Việt.
62p spiritedaway36 26-11-2021 52 7 Download
-
Bài viết này đề xuất phương pháp dùng các giải thuật học sâu cho việc chẩn đoán ban đầu trong thử nghiệm nhận định một số bệnh. Phương pháp mà bài viết đề xuất ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên đối với tiếng Việt trong việc xây dựng kho dữ liệu huấn luyện hệ thống học sâu từ các bệnh án cũng như dựa trên sự tư vấn của bác sĩ chuyên môn.
5p visergeybrin 25-11-2021 26 4 Download
-
Mục tiêu chính của nghiên cứu là cho ra đời mô hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt, góp phần giảm bớt việc gán nhãn thủ công, giảm thiểu thời gian một cách ngắn nhất có thể.
7p vijihyo2711 25-09-2021 22 4 Download
-
Bài viết này đề xuất phương pháp dùng các mô hình học sâu cho việc chẩn đoán ban đầu giúp nhận định bệnh. Phương pháp mà bài báo đề xuất ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên đối với tiếng Việt trong việc xây dựng kho dữ liệu huấn luyện hệ thống học sâu từ các bệnh án điện tử. Kết quả thử nghiệm với mô hình CNN, LSTM và CNN-LSTM kết hợp là khá tốt khi nhận định 3 loại bệnh phổi, tiêu hóa, da liễu.
6p viaespa2711 31-07-2021 28 2 Download
-
Nhận diện giọng nói là một bài toán thu hút được quan tâm rộng rãi của nhiều nhà nghiên cứu trong lĩnh vực trí tuệ nhân tạo trong những năm gần đây. Chẳng hạn như bài toán xây dựng chương trình để robot có khả năng nhận biết giọng nói của con người, hay các thiết bị có thể hiểu và đối thoại trực tiếp với người cùng nói chuyện. Trong nghiên cứu này, 37 sinh viên của Học viện Nông nghiệp Việt Nam tham gia để thu thập dữ liệu phát âm liên tục 29 chữ cái trong bảng chữ cái tiếng Việt.
8p trinhthamhodang1219 06-05-2021 41 1 Download
-
Bài viết so sánh sự ảnh hưởng của các phương pháp tách từ lên hiệu quả phân lớp văn bản tiếng Việt, để từ đó chọn ra phương pháp hiệu quả nhất. Thực nghiệm trên tập dữ liệu 6,000 văn bản thuộc 10 chủ đề và tập dữ liệu 105,293 quyển sách thuộc 166 chủ đề với giải thuật máy học SVM cho thấy rằng kết quả phân lớp với các phương pháp tách từ khác nhau tuy có sự khác biệt nhưng không có ý nghĩa thống kê trong bài toán phân lớp văn bản tiếng Việt.
10p quenchua9 20-11-2020 40 4 Download
-
Trong bài viết đề xuất một giải pháp mới trong xử lý tiếng Việt bằng cách xây dựng mô hình chủ đề tiếng Việt. Phương pháp này sử dụng cách thức tìm một từ lõi và phát triển để tự sinh ra các từ khác trong chủ đề dựa trên Naive Bayes. Dựa trên tập dữ liệu huấn luyện, chúng tôi tính toán xác suất của các từ trong mô hình chủ đề tiếng Việt. Kết quả thực nghiệm cho thấy rằng, phương pháp của chúng tôi đề xuất có hiệu quả trong việc phân loại các văn bản tiếng Việt theo nhiều lớp chủ đề nhỏ hơn.
6p quenchua9 20-11-2020 82 3 Download
-
Bài viết trình bày việc sử dụng mạng Long Short Term Memory (LSTM) kết hợp với Word2vec để phân loại văn bản nhằm cải thiện hiệu suất và độ chính xác. Kết quả đánh giá mô hình trên bộ văn bản tiếng Việt VNTC đã cho thấy sự khả thi và hứa hẹn áp dụng trong thực tế.
13p vioklahoma2711 18-11-2020 149 14 Download
-
Luận văn đã trình bày các kiến thức cơ bản về phát hiện trùng lặp, phân loại tin tức, xác định từ khóa quan trọng và đề xuất câu tóm tắt cho tin tức trên miền dữ liệu tiếng Việt. Bên cạnh đó, luận văn đã trình bày chi tiết các phương pháp tiếp cận bài toán, cũng như hướng giải quyết và kết quả thực tế.
59p tamynhan0 04-07-2020 35 4 Download
-
Luận văn sẽ trình bày về lý thuyết mạng neural RNN và cải tiến của nó là LSTM cùng với một số thuật toán học máy quan trọng trong quá trình xử lý dữ liệu ngôn ngữ. Cuối cùng, luận văn sẽ mô tả việc áp dụng và kết quả khi sử dụng mô hình LSTM trong bài toán trích xuất thông tin quan điểm. Thuật toán sẽ được đánh giá dựa trên hai tập dữ liệu tiếng Anh và tiếng Việt.
24p tamynhan1 13-06-2020 56 6 Download