Xây dựng bộ dữ liệu tiếng Việt
-
Bài báo "Nhận dạng tiếng Việt trên hệ điều hành android" giới thiệu một phương pháp nhận dạng tiếng Việt từ ảnh chụp trên điện thoại di động sử dụng hệ điều hành Android. Phương pháp này sử dụng thư viện Tesseract của Google, xây dựng bộ dữ liệu hoàn chỉnh hơn so với gói dữ liệu sẵn có của Tesseract, cùng với thuật toán xử lí lỗi trên đoạn văn bản sau khi nhận dạng. Kết quả nhận dạng cho kết quả tương đối cao với độ chính xác 93%.
13p xuanphongdacy09 29-09-2024 1 1 Download
-
Bài viết "Xây dựng đồ thị tri thức thương mại điện tử tiếng Việt dựa trên trích xuất thông tin ngữ nghĩa với BERT" trình bày một quy trình đầu cuối xây dựng đồ thị tri thức trong lĩnh vực thương mại điện tử tiếng Việt. Cụ thể, bài báo xây dựng bộ dữ liệu tiếng Việt trong lĩnh vực thương mại điện tử cho các tác vụ NER và RE. Tiếp đó ứng dụng biến thể của mô hình BERT trong việc xác định thông tin các nút và cạnh của đồ thị.
6p phocuuvan0201 02-02-2024 12 3 Download
-
Tóm tắt Luận án Tiến sĩ Hệ thống thông tin "Nghiên cứu phát triển hệ thống thích nghi giọng nói trong tổng hợp tiếng Việt và ứng dụng" được nghiên cứu với mục tiêu: Nâng cao chất lượng tổng hợp tiếng nói dựa trên thích nghi bằng các đề xuất cải tiến về độ tự nhiên; Tổng hợp giọng nói mới mang các đặc trưng âm học của giọng nói đích với chất lượng và độ tương đồng cao trong khi chỉ cần sử dụng một lượng dữ liệu mẫu nhỏ; Tổng hợp giọng nói tức thì với lượng mẫu nhỏ mà không cần tốn chi phí huấn luyện lại.
27p vilazada 02-02-2024 8 2 Download
-
Luận án Tiến sĩ Hệ thống thông tin "Nghiên cứu phát triển hệ thống thích nghi giọng nói trong tổng hợp tiếng Việt và ứng dụng" trình bày các nội dung chính sau: Giới thiệu tổng quan về tổng hợp tiếng nói và tổng hợp tiếng nói với khả năng điều chỉnh đặc trưng đầu ra; Xây dựng bộ cơ sở dữ liệu (CSDL) tiếng Việt cho hệ thống tổng hợp và thích nghi và các quy trình kèm theo nhằm nâng cao chất lượng, giảm chi phí khi xây dựng bộ CSDL đa người nói cho các hệ thống tổng hợp tiếng Việt.
144p vilazada 02-02-2024 5 3 Download
-
Bài viết "Một số phương pháp phát hiện tin tức giả mạo trong ngôn ngữ tiếng Việt" nghiên cứu, xây dựng và đánh giá các mô hình học máy cũng như học sâu bao gồm: Naive Bayes (NB), Support Vector Machine (SVM), mạng hồi quy Long Short Term Memory (LSTM) để giải quyết bài toán phát hiện tin giả mạo trên bộ dữ liệu tiếng Việt.
12p kimphuong1141 16-11-2023 9 3 Download
-
Luận án "Định danh tự động một số làn điệu dân ca Việt Nam" tập trung nghiên cứu một số mô hình và đề xuất mô hình phù hợp dùng cho định danh tự động làn điệu dân ca Việt Nam, với bộ dữ liệu dùng cho định danh là các làn điệu phổ biến của Chèo và Quan họ. Ngoài ra, luận án cũng thực hiện phân lớp thể loại âm nhạc trên hai bộ dữ liệu nổi tiếng là GTZAN và FMA nhằm khẳng định khả năng tổng quát hoá của mô hình đề xuất, đồng thời đánh giá ảnh hưởng của các phương pháp tăng cường dữ liệu đến độ chính xác của mô hình.
123p kimphuong1135 18-10-2023 15 11 Download
-
Luận án "Định danh tự động một số làn điệu dân ca Việt Nam" tập trung nghiên cứu một số mô hình và đề xuất mô hình phù hợp dùng cho định danh tự động làn điệu dân ca Việt Nam, với bộ dữ liệu dùng cho định danh là các làn điệu phổ biến của Chèo và Quan họ. Ngoài ra, luận án cũng thực hiện phân lớp thể loại âm nhạc trên hai bộ dữ liệu nổi tiếng là GTZAN và FMA nhằm khẳng định khả năng tổng quát hoá của mô hình đề xuất, đồng thời đánh giá ảnh hưởng của các phương pháp tăng cường dữ liệu đến độ chính xác của mô hình.
24p kimphuong1135 18-10-2023 8 5 Download
-
Luận văn "Nhận dạng người nói theo tiếp cận máy học hiện đại" được hoàn thành với mục tiêu nhằm tìm hiểu tổng quan về nhận dạng người nói; Tìm hiểu các thuật toán trong việc nhận dạng người nói; Tìm hiểu và xây dựng bộ dữ liệu người nói dùng để làm đầu vào cho mô hình; Cài đặt thực nghiệm mạng Feedforward DNN cho nhận dạng người nói tiếng Việt.
27p trankora03 05-08-2023 10 5 Download
-
Luận văn "Ứng dụng máy học trong tạo sinh câu trả lời cho hệ thống hỏi đáp" sẽ nghiên cứu các mô hình máy học để xây dựng mô hình hệ thống trả lời tự động có chức năng tạo sinh câu trả lời bằng tiếng Việt cho người dùng.
24p trankora03 05-08-2023 6 4 Download
-
Bài viết trình bày trải nghiệm của một nhóm thực hiện một Đề tài cấp Bộ xây dựng phần mềm học tiếng Anh trực tuyến cho thanh thiếu niên ở Việt Nam. Sử dụng mô hình của Berge (1995) và mô hình của Stark và Lattuca để phân tích các nguồn dữ liệu khác nhau như biên bản cuộc họp, trao đổi qua thư, mạng xã hội, và trải nghiệm thực tế của các thành viên trong quá trình xây dựng bài học tiếng Anh di động trình độ A2 và B1 (tương đương với bậc 2 và 3 của Khung năng lực ngoại ngữ 6 bậc dùng cho Việt Nam).
14p phuong3676 03-07-2023 8 2 Download
-
Bài viết Phân tích ý kiến phản hồi của người học dựa trên phương pháp phân loại cảm xúc xây dựng mô hình phân tích các ý kiến phản người học thông qua việc tự động phân loại và gán nhãn các ý kiến phản hồi. Công việc chính gồm các bước sau: Xây dựng công cụ lấy dữ liệu từ trang thông tin phản hồi, làm sạch dữ liệu, xây dựng mô hình phân lớp dữ liệu dựa trên tập phản hồi người học. Tiến hành phân tích dựa trên bộ từ điển cảm xúc tiếng Việt.
7p vimelindagates 18-07-2022 30 5 Download
-
Để huấn luyện mô hình nhận dạng tiếng nói, yếu tố tiên quyết đó là dữ liệu huấn luyện. Với các hệ thống nhận dạng thương mại cần ít nhất hàng nghìn giờ dữ liệu huấn luyện. Bài viết trình bày việc xây dựng phương pháp giảm tỷ lệ bỏ qua trên Voicetrans.
3p viabigailjohnson 10-06-2022 21 3 Download
-
Bài viết trình bày này trình bày cơ sở khoa học xây dựng dữ liệu tiếng ồn tự động bằng phần mềm ANoise được xây dựng trong khuôn khổ đề tài nghiên cứu khoa học cấp bộ "Nghiên cứu xây dựng hệ thống quan trắc tiếng ồn trực tuyến tại khu vực đô thị bằng công nghệ WebGIS và truyền dẫn không dây", Mã số: TNMT.2018.07.06.
7p viirenerosenfeld 26-05-2022 34 3 Download
-
Mục tiêu của bài viết này nhằm xây dựng hệ thống đánh giá nhà hàng đạt hiệu quả phân lớp cao trong lĩnh vực du lịch. Để xây dựng hệ thống, chúng tôi sử dụng phương pháp khai phá quan điểm dựa trên từ vựng kết hợp với bộ từ điển quan điểm tiếng Việt thuộc lĩnh vực du lịch VietSentiWordNetPlus.
8p vikissinger 03-03-2022 34 3 Download
-
Bài nghiên cứu nhằm xác định mức độ hiểu biết tài chính của người trẻ tại Việt Nam và các nhân tố ảnh hưởng (bao gồm yếu tố nhân khẩu học, yếu tố cá nhân và các ảnh hưởng từ mối quan hệ xã hội). Dữ liệu sơ cấp được thu thập qua một khảo sát với bộ câu hỏi được xây dựng dựa trên nghiên cứu nổi tiếng của Lusardi và Michell. Mời các bạn tham khảo!
23p feriaonoda 13-02-2022 31 5 Download
-
Bài toán trả lời câu hỏi trực quan (VQA) là bài toán kết hợp thị giác máy tính và xử lý ngôn ngữ tự nhiên. Trong bài viết này, chúng tôi trình bày các chiến lược xây dựng bộ dữ liệu VQA mới bằng tiếng Việt, Flickr8k-ViQA, bằng cách sinh tự động các cặp câu hỏi – câu trả lời từ những chú thích của bộ dữ liệu Flickr8k.
10p vielonmusk 21-01-2022 53 2 Download
-
Mục tiêu nghiên cứu của đề tài này là áp dụng thư viện mã nguồn mở Tessaract tạo ra bộ dữ liệu từ điển tiếng Việt và tiếng Anh, từ đó khôi phục văn bản tiếng Anh và Việt thông qua máy quét. Mời các bạn cùng tham khảo!
43p bobietbay 22-12-2021 26 7 Download
-
Mục tiêu chính của nghiên cứu là cho ra đời mô hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt, góp phần giảm bớt việc gán nhãn thủ công, giảm thiểu thời gian một cách ngắn nhất có thể.
7p vijihyo2711 25-09-2021 22 4 Download
-
Bài viết giới thiệu, cung cấp những thông tin và dữ liệu cơ bản về 5 bộ giáo trình tiếng Nga mới được xây dựng theo các cấp độ từ A1 đến B2 (do các tác giả người Nga biên soạn) và được đề xuất đưa vào giảng dạy tại Khoa tiếng Nga Trường Đại học Hà Nội. Mời các bạn cùng tham khảo!
6p pulpfiction 16-09-2021 38 2 Download
-
Mục tiêu của bài viết này là đề xuất một mô hình bỏ phiếu để phân loại dữ liệu maketing ngân hàng. Mô hình bỏ phiếu được xây dựng từ ba mô hình phân loại trí tuệ nhân tạo nổi tiếng, bao gồm máy học vectơ hỗ trợ (SVM), Navie Bayes (NB) và Cây quyết định (DT). Mời các bạn cùng tham khảo!
6p wangxinling 23-07-2021 33 3 Download