Cơ sở dữ liệu audio video ảnh

Chia sẻ: Nguyễn Tuấn Sơn | Ngày: | Loại File: PPT | Số trang:14

Thêm vào BST

Báo xấu

226
lượt xem 56
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tìm kiếm văn bản nói: Mục tiêu: Cho phép tìm kiếm trên văn bản nói như văn bản bình thường. Tìm kiếm với độ chính xác cao. Cho phép duyệt kết quả trả về. Tìm nhanh đoạn mà người dùng muốn nghe hoặc xem. Tìm kiếm: Đoạn văn bản chứa nội dung nói. Bản tóm tắt của tài liệu nói. Các thông tin khác. Người nói. Các thông tin siêu dữ liệu.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Cơ sở dữ liệu audio video ảnh

Cơ sở dữ liệu audio Le Thi Lan MICA International Research Center MICA Multimedia, Information, Communication & Applications UMI 2954 Hanoi University of Technology 1 Dai Co Viet - Hanoi - Vietnam
Ngữ cảnh  Cơ sở dữ liệu tiếng nói Broadcast News Podcasts Academic Lectures Nhận dạng tiếng nói Tìm kiếm văn bản tiếng nói MICA 2010 2 2
Nhận dạng tiếng nói  Đưa ra câu gần giống nhất với đầu vào O  O được xem như một dãy quan sát  O = o1,o2,o3,…,ot  Xác định dãy các từ W = w ,w ,w ,…,w 1 2 3 n ˆ W = arg max P(W | O) W∈L Luật Bayes Wˆ = arg max P (O | W ) P(W ) W∈L P (O) Luật vàng ˆ W = arg max P (O | W ) P(W ) W∈L MICA 2010 3
Kiến trúc của hệ thống nhận dạng tiếng nói ˆ W = arg max P (O | W ) P(W ) W∈L O Feature W Decoding Speech Signals Extraction Word Sequence Network Construction HMM Acoustic Pronunciation Language Speech Estimation Model Model Model DB G2P Text Corpora LM Estimation MICA 2010 4
Trích chọn đặc trưng  Đặc trưng MFCC - The Mel-Frequency Cepstrum Coefficients (MFCC) Preemphasis/ FFT DCT Mel-scale MFCC X(n) Hamming (Fast Fourier log|.| (Discrete Cosine filter bank (12-Dimension) Window Transform) Transform)  Kích thước của cửa sổ : 25ms / Tốc độ : 10ms 25 ms 10ms ... a1 a2 a3 MICA 2010 5
Tìm kiếm văn bản nói  Mục tiêu:  Cho phép tìm kiếm trên văn bản nói như văn bản bình thường  Tìm kiếm với độ chính xác cao  Cho phép duyệt kết quả trả về  Tìm nhanh đoạn mà người dùng muốn nghe hoặc xem  Tìm kiếm:  Đoạn văn bản chứa nội dung nói  Bản tóm tắt của tài liệu nói  Các thông tin khác  Người nói  Các thông tin siêu dữ liệu  … MICA 2010 6
Đoạn văn bản chứa nội dung nói  Thủ công:  Tốn kém  Có nhiều lỗi  Theo nghiên cứu của MIT  Đoạn văn bản chuẩn bị thủ công có 10% khác so với nội dung thực sự Misspelled words Substitution Furui  Frewey errors Makhoul  McCool Fourier  for your Tukey  Tuki Kullback  callback Eigen  igan a priori  old prairie Gaussian  galsian resonant  resident cepstrum  capstrum affricates  aggregates palatal  powerful MICA 2010 7
Gán ngữ nghĩa  Con người thực hiện gán ngữ nghĩa trong thời gian gấp từ 10 đến 50 lần thời gian thực  Ghi lại toàn bộ nội dung đoạn âm thanh  Xác định người nói, thay đổi người nói  Xác định các sự kiện không có người nói và nhiễu nền  Phân đoạn và tóm tắt nội dung MICA 2010 8
Gán ngữ nghĩa  Mục tiêu: Tự động sinh ngữ nghĩa cho các đoạn âm thanh  Ghi lại nội dung (Từ đã được nói)  Xác định người nói và thời gian  Phân đoạn (theo chủ đề)  Tóm tắt  Chỉ số hóa  Tìm kiếm MICA 2010 9
Tìm kiếm  Tập hợp N tài liệu  “lớn” N: 10k-1M tài liệu  “bé” N: < 1-10k tài liệu  Câu truy vấn:  Tập có trật tự các từ trong từ vựng  Hạn chế ở việc tìm theo từ khóa, các hình thức khác cũng có thể thực hiện:  Đoạn tiếng nói/âm thanh truy vấn MICA 2010 10
Tìm kiếm văn bản tiếng nói với TREC  Text Retrieval Conference (TREC)  Đánh giá nhận dạng tiếng nói từ 1997-2000 (TREC-6 đếnTREC-9)  TREC-8 :  Bản tin, 22,000 bản tinh với 500 giờ âm thanh MICA 2010 11
Tìm kiểm văn bản tiếng nói - Bản tin  Được chuẩn bị kỹ, đọc bởi phát thanh viên chuyên nghiệp  Ngôn ngữ sử dụng giống với ngôn ngữ viết  Từ vựng có thể được học qua các bản tin hàng  Nhiều nội dung có sẵn phụ đề MICA 2010 12
Tìm kiếm văn bản tiếng nói khác  Các văn bản khác  Nội dung cuộc họp (Waibel et al, 2001)  Đọc thư (SCANMail, Bacchiani et al, 2001))  Bài giảng  Những khó khăn:  Tiếng nói tự nhiên, không chuẩn bị trước  Từ vựng và cách sử dụng ngôn ngữ tùy thuộc vào từng người và từng chủ đề  Không biết nội dung  Nhiều giọng điệu, vùng miền MICA 2010 13
Tìm kiếm văn bản tiếng nói khác  Phát hiện các từ (thuật ngữ ) được nói trong một cơ sở dữ liệu không đồng nhất STD (Spoken Term Detection) TREC STD Documents Broadcast News BN, Switchboard, Meeting Languages English English, Arabic, Mandarin Query Long Short (few words) System Ranked Relevant Location of the query in the audio Output documents Decision Score indicating how likely the term exists “Actual” decision as to whether the detected term is a hit  Mục tiêu  Đánh giá tốc độ và độ chính xác  Đánh giá khả năng phát hiện từ và âm  Đánh giá kỹ thuật cho 3 ngôn ngữ (Anh, Ả rập và Trung Quốc) MICA 2010 14