Tóm tắt luận văn Thạc sĩ: Tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng tại trường đại học văn hóa, thể thao và du lịch thanh hóa

Chia sẻ: Nguyễn Thị Thu Trang | Ngày: | Loại File: PDF | Số trang:26

Thêm vào BST

Báo xấu

148
lượt xem 23
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn thạc sĩ đề tài tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng tại trường Đại học Văn hóa, Thể thao và Du lịch Thanh Hóa, nhằm nghiên cứu về cơ sở dữ liệu đa phương tiện, các kỹ thuật tìm kiếm âm thanh trên cơ sở nội dung và xây dựng ứng dụng.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt luận văn Thạc sĩ: Tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng tại trường đại học văn hóa, thể thao và du lịch thanh hóa

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- TÀO NGỌC BIÊN ĐỀ TÀI: TÌM KIẾM ÂM NHẠC TRÊN CƠ SỞ NỘI DUNG VÀ ỨNG DỤNG TẠI TRƯỜNG ĐẠI HỌC VĂN HÓA, THỂ THAO VÀ DU LỊCH THANH HÓA CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012
Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS. TS ĐẶNG VĂN ĐỨC Phản biện 1: …………………………………………………………………………… Phản biện 2: …………………………………………………………………………... Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ............... Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông
1 MỞ ĐẦU Cùng với sự phát triển của Công nghệ thông tin thì khối lượng dữ liệu đa phương tiện được thu thập và lưu trữ ngày càng nhiều dẫn tới việc tìm kiếm dữ liệu đa phương tiện trở nên khó khăn. Do đó cần có các hệ thống tìm kiếm thông tin hỗ trợ người sử dụng tìm kiếm một cách chính xác và nhanh chóng các thông tin mà họ cần từ kho dữ liệu khổng lồ này. Hiện nay có một số hệ thống tìm kiếm như Google, Yahoo, MSN, DTSearch, Lucene, tuy nhiên các hệ thống này sử dung các kỹ thuật tìm kiếm đơn giản nên hiệu quả còn chưa cao. Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ thuật nâng cao tìm kiếm thông tin, cụ thể ở đây là tìm kiếm âm nhạc theo nội dung trong cơ sở dữ liệu đa phương tiện nhằm đáp ứng nhu cầu cấp thiết của thời đại bùng nổ thông tin điện tử hiện nay đồng thời ứng dụng vào trường đại học Văn hóa, Thể thao và Du lịch Thanh Hóa. Con người có khả năng phân biệt các kiểu âm thanh. Cho trước một đoạn âm thanh, ta có thể nói loại âm thanh đó (tiếng nói, âm nhạc hay nhiễu), tốc độ (nhanh hay chậm), tâm trạng (vui, buồn...) và xác định được tính tương đồng với đoạn âm thanh khác. Tuy nhiên, máy tính coi đoạn âm thanh như dãy giá trị mẫu. Cho đến hiện tại, phương pháp chung nhất để xâm nhập âm thanh dựa trên cơ sở tiêu đề và tên tệp. Do tên tệp và mô tả văn bản là không đầy đủ và chủ quan cho nên việc tìm ra đoạn âm thanh thõa mãn người sử dụng là rất khó khăn. Thêm nữa, kỹ thuật truy tìm này không hỗ trợ câu truy vấn như “tìm đoạn âm thanh tương tự đoạn đang nghe” (truy vấn theo thí dụ). Để giải quyết vấn đề này, các kỹ thuật truy tìm âm thanh trên cơ sở nội dung là cần thiết. Truy tìm âm thanh trên cơ sở nội dung đơn giản nhất sử dụng so sánh mẫu với mẫu giữa câu truy vấn và đoạn âm thanh lưu trữ. Tiệm cận này sẽ không hoạt động tốt vì tín hiệu âm thanh biến đổi và các đoạn âm thanh khác nhau có thể biểu diễn với tốc độ mẫu khác nhau và có thể sử dụng tổng số bit lấy mẫu khác nhau. Do vậy, truy tìm âm thanh trên cơ sở nội dung được thực hiện trên cơ sở tập các đặc tính âm thanh được trích chọn như cường độ trung bình hay phân bổ tần số.
2 Nhận thấy những tiện ích Cơ sở dữ liệu đa phương tiện cũng như việc tìm kiếm âm nhạc trên cơ sở nội dung, em lựa chọn và thực hiện đề tài “Tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng tại trường Đại học Văn hóa, Thể thao và Du lịch Thanh Hóa” nhằm nghiên cứu về cơ sở dữ liệu đa phương tiện, các kỹ thuật tìm kiếm âm thanh trên cơ sở nội dung và xây dựng ứng dụng. Cấu trúc luận văn Ch ơng 1: Tổng quan về Cơ sở dữ liệu âm thanh - Tình hình nghiên cứu trong và ngoài nước về CSDL đa phương tiện - Giới thiệu chung về hệ thống thông tin đa phương tiện. - Tổng quan về hệ quản trị CSDL đa phương tiện. - Các kỹ thuật chủ yếu tìm kiếm âm thanh trong cơ sở dữ liệu. - Các nguyên lý chung thiết kế cơ sở dữ liệu âm thanh - Tiến trình tìm kiếm dữ liệu Đa phương tiện - Các giai đoạn phát triển MDBMS Ch ơng 2: Kỹ thuật tìm kiếm cơ sở dữ liệu âm nhạc - Đặc trưng chính của âm thanh - Phân lớp âm thanh - Chỉ số hóa và truy tìm âm nhạc - Kỹ thuật đối sánh trong cơ sở dữ liệu âm thanh Ch ơng 3: Phát triển hệ thống thử nghiệm ứng dụng tại tr ờng Đại học Văn hóa, Thể thao và Du lịch Thanh Hóa - Nhu cầu tìm kiếm âm nhạc theo nội dung phục vụ giảng dạy - Trình bày các thuật toán tìm kiếm âm thanh theo nội dung. - Phân tích, thiết kế, xây dựng và cài đặt thử nghiệm Kết luận và h ớng phát triển
3 Ch ơng 1 - TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH 1.1 Tình hình nghiên cứu trong và ngoài n ớc về Cơ sở dữ liệu đa ph ơng tiện 1.2 Tổng quan về hệ quản trị CSDL đa ph ơng tiện. Trung tâm của một hệ thống thông tin đa phương tiện chính là hệ quản trị CSDL đa phương tiện (MDBMS - Multimedia Database Management System). Một CSDL MM là một tập các loại dữ liệu Multimedia như văn bản, hình ảnh, video, âm thanh, các đối tượng đồ hoạ…. Một hệ quản trị CSDL MM cung cấp hỗ trợ cho các loại dữ liệu MM trong việc tạo lập, lưu trữ, truy cập, truy vấn và kiểm soát. 1.2.1 Mục đích của MDBMS 1.2.2 Các yêu cầu của một MDBMS 1.2.2.1 Khả năng quản trị lưu trữ lớn Các yêu cầu về khả năng lưu trữ của các hệ thống MM có thể được đặc trưng bởi khả năng lưu trữ lớn và cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của hệ thống lưu trữ. Việc lưu trữ theo thứ bậc đặt các đối tượng dữ liệu MM trong một hệ thống phân bậc bao gồm các thiết bị khác nhau, có thể là trực tuyến (online), không trực tuyến (offline). Một cách tổng quát, mức cao nhất của hệ thống sẽ cho ta hiệu suất cao nhất, khả năng lưu trữ nhỏ nhất, chi phí cao nhất và sự cố định ít nhất. Các lớp cao trong hệ thống phân cấp này có thể sử dụng để lưu trữ các đối tượng tóm tắt nhỏ hơn của một dữ liệu MM hoàn chỉnh với mục đích cung cấp khả năng duyệt và xem trước nhanh đối với nội dung của dữ liệu. 1.2.2.2 Hỗ trợ truy vấn và khai thác dữ liệu. Truy vấn đối với dữ liệu MM bao gồm các kiểu dữ liệu khác nhau, các từ khoá, thuộc tính, nội dung vv…Do người dùng có thể có các cách suy nghĩ khác nhau về dữ liệu MM vì vậy kết quả thu được từ việc truy vấn dữ liệu MM có thể không hoàn toàn chính xác và có thể chỉ là các kết quả tương tự hoặc là một phần của kết quả hơn là các kết quả chuẩn xác.
4 1.2.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện Giả sử tính đa dạng của các kiểu dữ liệu đã được hỗ trợ, một MDBMS cũng phải cung cấp khả năng để tích hợp các loại dữ liệu này để tạo nên các kiểu dữ liệu MM mới và thể hiện các dữ liệu này khi có yêu cầu trong một khung thời gian yêu cầu. Độ phức tạp của việc tích hợp, tổng hợp và thể hiện bị tăng thêm bởi các đặc tính cơ bản của dữ liệu MM như tính liên tục (tạm thời) của dữ liệu MM đặc biệt là với các kiểu dữ liệu như video, hoạt hình hoặc âm thanh. 1.2.2.4 Giao diện và tương tác. Sự khác nhau về bản chất của các dữ liệu MM đòi hỏi phải có các giao diện khác nhau để tương tác với dữ liệu. Thông thường, mỗi loại dữ liệu có các phương thức truy nhập và thể hiện riêng của mình, ví dụ như dữ liệu video và âm thanh sẽ đòi hỏi các giao diện người dùng khác nhau để thể hiện và truy vấn. Đối với một vài ứng dụng MM, đặc biệt là sự có mặt của các loại dữ liệu có tính liên tục người dùng thường đòi hỏi phải có các khả năng tương tác với dữ liệu. 1.2.2.5 Hiệu suất. Hiệu suất là một vấn đề quan trọng cần được xem xét đối với một MDBMS. Các hệ thống CSDL MM tạo ra hiệu suất dựa trên sự tối ưu hoá việc truy nhập tới các media, lưu trữ, chỉ số hoá, khai thác và truy vấn . Sự có tham gia của nhiều kiểu dữ liệu khác nhau trong CSDL MM có thể đòi hỏi một số phương thức đặc biệt để tối ưu hoá việc truy cập, lưu trữ, chỉ số hoá và khai thác. Các yêu cầu này bao gồm hiệu quả, tính ổn định, đảm bảo và đồng bộ việc trao đổi dữ liệu, chất lượng của dịch vụ (QoS – Quality of service). 1.2.3 Các vấn đề của MDBMS 1.2.3.1 Mô hình hoá dữ liệu MM Có hai cách tiếp cận cơ bản trong việc mô hình hoá dữ liệu MM là: - Ph ơng pháp thứ nhất: xây dựng một mô hình dữ liệu MM trên nền tảng của mô hình dữ liệu của một CSDL truyền thống (thường là CSDL quan hệ hoặc
5 CSDL hướng đối tượng) bằng cách sử dụng các giao diện tương ứng đối với dữ liệu MM. Các vấn đề nẩy sinh với cách tiếp cận này là các cấu trúc bên dưới (của CSDL truyền thống) không được thiết kế dành cho dữ liệu MM, hơn nữa sự khác biệt cơ bản các yêu cầu của một CSDL truyền thống đối với CSDL MM khiến cho giao diện trở thành nơi nghẽn cổ chai trong toàn bộ hệ thống. Các vấn đề này dẫn tới cách tiếp cận thứ hai. - Ph ơng pháp thứ hai: phát triển các mô hình dữ liệu thực thụ dành cho dữ liệu MM từ đầu chứ không xây dựng trên cơ sở của các CSDL truyền thống, tuy nhiên mọi người đều nhất trí rằng các nỗ lực như vậy đều phải dựa trên kỹ thuật hướng đối tượng. 1.2.3.2 Lưu trữ đối tượng MM Lưu trữ vật lý các dữ liệu Multimedia đòi hỏi các phương thức để chuyển đổi, quản lý, trao đổi và phân phối một số lượng dữ liệu khổng lồ, các hệ thống Multimedia thông thường sử dụng phương thức phân cấp đối với các thiết bị lưu trữ. Với việc sắp xếp lưu trữ phân cấp, các đối tượng MM có thể được lưu trữ ở các mức độ khác nhau, khi mà tỷ lệ sử dụng các đối tượng dữ liệu MM thay đổi các đối tượng này cần phải được phân phối lại có thể là được lưu trữ trên các thiết bị khác, tại các mức khác nhau của hệ thống lưu trữ. 1.2.3.3 Tích hợp Multimedia, thể hiện và chất lượng của dịch vụ Khác với các dữ liệu truyền thống, dữ liệu MM đòi hỏi các ràng buộc về sự thể hiện điều này bắt nguồn từ đặc tính liên tục của một số kiểu dữ liệu MM mà chúng đòi hỏi thể hiện một số lượng nhất định dữ liệu trong một khoảng thời gian nhất định mà kết quả đem lai cho người dùng vẫn phải đảm bảo được đặc trưng của các kiểu dữ liệu đó. Khi mà dữ liệu MM được bố trí phân tán và truyền đi trên mạng thì các vấn đề về thể hiện càng trở nên cấp thiết hơn, chúng ta đã bắt gặp điều này trong trường hợp băng thông hạn chế.
6 1.2.3.4 Chỉ số hoá Multimedia Cũng như trong các CSDL truyền thống, các dữ liệu MM có thể được khai thác thông qua các định danh, các thuộc tính, các từ khoá và sự liên kết giữa chúng. Các từ khoá là phương thức chiếm ưu thế trong việc sử dụng để chỉ số hoá dữ liệu MM. Con người thường chọn các từ khoá từ một tập các từ vựng nhất định, điều này tạo ra một số khó khăn khi áp dụng đối với dữ liệu MM vì chúng thường được làm một cách thủ công và rất tốn thời gian và các kết quả thường là chủ quan và rất hạn chế phụ thuộc vào từ vựng. Một phương thức khác được sử dụng dựa trên việc truy cập nội dung, nó xem xét đến nội dung thực sự của dữ liệu MM hoặc xuất phát từ ngữ cảnh của thông tin. Trong thời gian gần đây, việc nghiên cứu chỉ số hoá dựa trên nội dung đã được tiến hành hết sức mạnh mẽ với mục đích là chỉ số hoá dữ liệu MM dựa trên các đặc trưng xác định thu được trực tiếp từ dữ liệu. Các đặc trưng khác nhau như mầu sắc, hình dạng, kết cấu bề mặt, các chuỗi đặc trưng và các đặc trưng khác đã được dùng để chỉ số hoá các ảnh. 1.2.3.5 Hỗ trợ truy vấn Multimedia, khai thác và duyệt qua. 1.2.3.6 Quản trị CSDL MM phân tán 1.2.3.7 Sự hỗ trợ của hệ thống 1.4 Các kỹ thuật chủ yếu tìm kiếm âm thanh trong cơ sở dữ liệu. 1.4.1 Đo tính tương tự 1.4.1.1 Thuật toán LSH (Locality Sensitve Hashing) Đưa ra một đoạn giai điệu được định nghĩa bởi điểm pi, chúng ta có thể tìm các đoạn tương tự trong chỉ mục bằng các tìm kiếm các hàng xóm gần nhất (NNs) của điểm pi. ví dụ tất cả các điểm mà khoảng cách nhỏ hơn một ngưỡng cụ thể r nào đó. Điều này có thể được làm bởi việc đo khoảng cách đơn giản pi đến tất cả các vector trong cơ sở dữ liệu.
7 Để thu được một thời gian tuyến tính dưới một cách phức tạp, chúng ta sử dụng vị trí của hàm băm miền nhạy cảm LSH là một thuật toán ngẫu nhiên cho việc tìm kiếm khoảng cách hàng xóm gần nhất trong không gian nhiều chiều. Thuật toán LSH là thuật toán tìm kiếm K hàng xóm gần nhất hoặc tìm kiếm xấp xỉ K hàng xóm gần nhất. 1.4.1.2 Thuật toán DTW(Dynamic Time Warping) Cho chuỗi âm tiết đầu vào w  w1, w2 ,...wL có độ dài L và có chuỗi vector đặc tính X  x 1, x 2 ,...xT , nhiệm vụ của hệ thống là phải nhận dạng xem chuỗi âm đầu vào là các ký tự gì và trong quá trình xử lý cần phải giảm thiểu tối đa các sai số quyết định. Mỗi tín hiệu âm tiết đầu vào Wl sẽ được so sánh với các mẫu Yl. Mỗi Yl là chuỗi các vector đặc tính của tín hiệu âm tiết Wl . Nhằm tăng khả năng nhận dạng, mỗi âm tiết có một tập hợp các mẫu khác nhau: Yl,1,...,Yl,M . Quá trình quyết l định âm tiết phù hợp với một mẫu dựa theo nguyên tắc sau: * l  argminmin D( X ,Yl,m ) l m Như vậy âm tiết Wl* là âm tiết phù hợp nhất với mẫu Yl tìm được. Khoảng cách D(X,Y) giữa dữ liệu đầu vào và dữ liệu mẫu Y=y1….ys có độ dài thời gian khác nhau S  T được xác định bằng tổng các khoảng cách cục bộ d ij  d(x i , y j ) trên cả đường đi của quá trình biến dạng thời gian. Khoảng cách tích luỹ D ij  D(x1...xi , y1... y j )được xác định theo công thức 0 I=J=0     ijjijiji I>0, J>0     dDDD ,,min Và khoảng cách tổng D(X,Y)=DTS. 1.4.1.3 Thuật toán HMM (Hidden Markov Model ) Mô hình Markov ẩn được sử dụng trong việc thống kê mô hình tạo âm thanh. Tính hiệu quả của mô hình được thể hiện trong việc mô tả tín hiệu âm thanh theo dạng toán học dễ dàng cho việc xử lý tín hiệu. Các trạng thái của HMM có được
8 trước khi thực hiện việc xử lý các trạng thái. Như thế đầu vào của HMM chính là chuỗi các thông số vector rời rạc theo thời gian. Mô hình Markov ẩn là một tập các trạng thái hữu hạn, mà mỗi trạng thái có liên quan đến hàm phân phối xác xuất. Việc chuyển tiếp giữa các trạng thái được định nghĩa bởi một tập xác suất được gọi là xác suất chuyển tiếp. 1.4.2 Các kiểu truy vấn 1.4.2.1 Truy vấn trên cơ sở meta-data 1.4.2.2 Truy vấn trên cơ sở mô tả 1.4.2.3 Truy vấn trên cơ sở mẫu hay đặc trưng 1.4.2.4 Truy vấn theo thí dụ 1.4.2.5 Truy vấn ứng dụng cụ thể 1.5 Các nguyên lý chung thiết kế cơ sở dữ liệu âm thanh. 1.5.1 Mô hình tổng quát của dữ liệu âm thanh 1.5.1.1 Biểu diễn nội dung âm thanh bằng metadata Tổng quát thì metadata được sử dụng để biểu diễn nội dung âm thanh được xem như tập các đối tượng trải dài theo đường thời gian, tương tự video. Các đối tượng, đặc trưng và hoạt động xảy ra trong âm thanh hoàn toàn tương tự như trong video. Sự khác biệt ở chỗ, âm thanh để nghe, còn video để cả nghe và nhìn. Như vậy, chúng ta có thể chỉ số hóa metadata kết hợp với âm thanh theo cách tương tự cách chỉ số hoá video, và kỹ thuật xử lý truy vấn video cũng được sử dụng lại ở đây. Phần lớn CSDL âm thanh đang tồn tại sử dụng lược đồ chỉ số hoá trên cơ sở metadata. 1.5.1.2 Nội dung âm thanh trên cơ sở tín hiệu CSDL âm thanh có thể có thể được chỉ số hóa bằng tín hiệu âm thanh theo cách sau đây:
9 Phân đoạn (Segmentation): Chia tín hiệu âm thanh thành các cửa sổ đồng nhất. Điều này có thể thực hiện bằng hai cách. Một khả năng là người phát triển ứng dụng có thể xác định kích thước cửa sổ w (đơn vị giây hay ms) và giả sử rằng các đặc tính sóng trong cửa sổ này có được bằng lấy trung bình. Khả năng thứ hai là người sử dụng có thể phân đoạn tín hiệu âm thanh tương tự phân đoạn ảnh nhờ thuộc tính tính đồng nhất H. Tách đặc trưng (Feature extraction): Một khi đã thực hiện phân ảnh tín hiệu âm thanh được xem như trình tự của n cửa sổ w1,...,wn. Với từng cửa sổ, chúng ta tách vài đặc trưng kết hợp với tín hiệu âm thanh. Nếu k đặc trưng được tách, thì tín hiệu âm thanh được xem như trình tự của n điểm trong không gian k-chiều. Chúng ta có thể chỉ số hóa trình tự của n điểm này. Một vài đặc trưng quen thuộc nhất và sử dụng rộng rãi để chỉ số hoá bao gồm: - Cường độ (Intensity): Cường độ của sóng được hiểu như năng lượng của tín hiệu do sóng phát sinh. Không đi chi tiết kỹ thuật để tính giá trị này, chúng ta xác định cường độ của tín hiệu âm thanh là: I=2 x 2 x f2 x  x a2 x v trong đó, f là tần số của sóng (tính bằng Hz),  là mật độ của vật liệu truyền dẫn sóng (tính bằng kg/m3), a là biên độ của sóng (tính bằng m), v là vận tốc của sóng (tính bằng m/s). Cường độ được tính bằng watt/m2.  I   L   0 log10x - Âm lượng (Loudness): Mặc dù các sóng có cường độ cao hơn được người nghe to hơn các sóng có cường độ thấp hơn nhưng âm lượng không tăng tuyến tính với cường độ. Giả sử rằng gọi L0 là âm lượng kết hợp với tần số thấp mà tai người có thể phân biệt (khoảng 15 Hz), giả sử ta quan sát sóng có cường độ I. Sau đó âm lượng của I tính bằng decibel như sau: Chú ý rằng khi I=L0 thì L = 10 x log(1) = 0. - Độ cao (Pitch): Độ cao p(f, a) của tín hiệu âm thanh được tính từ tần số f và biên độ a của tín hiệu.
10 - Độ trong (Brightness): Độ trong  của tín hiểutong cửa sổ w là thước đo độ “sạch” của âm thanh. Thí dụ, âm thanh ngẹt ít trong hơn âm thanh của kính vỡ. 1.5.2 Thu thập nội dung âm thanh thông qua biến đổi rời rạc Khi xem xét dải tần số con người nghe được từ 15 Hz đến 20 kHz, ngay cả đoạn ghi âm ngắn (khoảng 10 phút) đã có tới 100000 cửa sổ với giả sử rằng mỗi cửa sổ biểu diễn một tín hiệu tương đối trơn tru. 1.5.3 Chỉ số hóa dữ liệu âm thanh Chỉ số hoá dữ liệu âm thanh trên cơ sở tín hiệu có thể được thực hiện theo cách không phức tạp lắm. Giả sử chúng ta có tập 1,...,K của tín hiệu trong kho âm thanh. Gọi N là số nguyên xác định tổng số cửa sổ mà người phát triển ứng dụng muốn gán cho mỗi tín hiệu âm thanh i. Khi chọn N, có nghĩa rằng chúng ta muốn lưu trữ tập véctơ N chiều. Tuy nhiên, khi quan sát véctơ, ta thấy khó xác định nó được suy diễn từ tín hiệu âm thanh nào. Do vậy, ta giả sử rằng mỗi véctơ có độ dài (N+1). Trường phụ ở cuối chứa chỉ số i của tín hiệu i mà véctơ suy diễn từ nó. Bây giờ ta có thể phát triển CSDL âm thanh bằng các bước như sau đây, sử dụng quan niệm cây TV để chỉ số hoá dữ liệu nhiều chiều. Thuật toán CreateAudioIndex(K, N) Index = NIL; (*Ban đầu chỉ số có giá trị rỗng*) for i=1 to K do { i for j=0 to (N-1) do A [j]=DFT(i); Ai[N]=i; (*Chèn véctơ Ai[j] vào cây TV*) Index = Insert(Ai[j].Index) }
11 end 1.6 Tiến trình tìm kiếm dữ liệu Đa ph ơng tiện Queries Information Items Processing and feature extraction Preprocessing and indexing Query Indexed features information items Similarity computation Retrieval of similar items Hình 1.12 Mô hình tìm kiếm dữ liệu đa ph ơng tiện 1.7 Các giai đoạn phát triển MMDBMS
12 Ch ơng 2 - KỸ THUẬT TÌM KIẾM CƠ SỞ DỮ LIỆU ÂM NHẠC 2.1 Đặc tr ng chính của âm thanh 2.1.1 Đặc trưng trong miền thời gian. Biểu diễn trong miền thời gian hay thời gian - biên độ là kỹ thuật trình diễn tín hiệu cơ bản nhất, trong đó tín hiệu được biểu diễn như biên độ biến đổi theo thời gian. Giá trị tín hiệu có thể âm hay dương phụ thuộc vào áp suất âm thanh cao hơn hay thấp hơn áp suất cân bằng khi im lặng. Giả sử rằng sử dụng 16 bít để mã hóa mẫu audio, thì ta có giá trị tín hiệu sẽ trong khoảng từ 32767 đến -32767. Từ cách biểu diễn trên đây ta dễ dàng có được năng lượng trung bình, tốc độ vượt qua 0 (zero crossing rate) và tỷ lệ câm (silence ratio). 2.1.1.1 Năng lượng trung bình Năng lượng trung bình chỉ ra âm lượng (loudness) của tín hiệu audio. Có nhiều cách để tính nó. Một cách tính đơn giản như sau: N 1 2  x(n) N 0 E N trong đó, E là năng lượng trung bình của đoạn audio, N là tổng số mẫu trong đoạn audio, x(n) là giá trị của mẫu n. 2.1.1.2 Tốc độ vượt qua 0 Tốc độ vượt qua 0 chỉ ra tần số thay đổi của dấu biên độ tín hiệu. Nói cách khác nó chỉ ra tần số trung bình của tín hiệu. Tốc độ vượt qua 0 được tính như sau: Hình 2.1. Tín hiệuNâm thanh số trong miền thời gian  | sgn x(n)  sgn x(n  1) | n 1 ZC  2N trong đó, sgn x(n) là dấu của x(n) và có giá trị 1 nếu x(n) dương, giá trị -1 nếu x(n) có giá trị âm.
13 2.1.1.3 Tỷ lệ câm Tỷ lệ câm chỉ ra kích thước đoạn âm thanh câm. Câm được định nghĩa như chu kỳ trong đó giá trị biên độ tuyệt đối của một số mẫu nhỏ hơn ngưỡng nào đó. Có hai loại ngưỡng: ngưỡng biên độ và ngưỡng thới gian. Tỷ lệ câm được tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ dài của đoạn âm thanh. 2.1.2 Đặc trưng trong miền tần số. 2.1.2.1 Phổ âm thanh Biểu diễn miền thời gian không chỉ ra được các thành phần tần số và phân bổ tần số của tín hiệu âm thanh. Biểu diễn miền tần số suy diễn từ biểu diễn miền không gian bằng biến đổi Fourier. Biến đổi Fourier được xem như tách tín hiệu thành các thành phần tần số. Trong miền tấn số, tín hiệu được biểu diễn bởi biên độ biến đổi theo tần số, chỉ ra tổng năng lượng tại các tần số khác nhau. Biểu diễn miền tần số của tín hiệu được gọi là phổ của tín hiệu. Vì quan tâm đến tín hiệu số cho nên ta sử dụng DFT để suy diễn ra phổ tín hiệu. Công thức tính DFT như sau: N 1  jn k X (k)   x(n)e  n0 trong đó, k  2k , x(n) là tín hiệu rời rạc với N mẫu, k là DFT bin. N Nếu tần số lấy mẫu tín hiệu là fs Hz thì tần số fk của bin k sẽ là: k k fk  fs  fs 2 N Nếu x(n) có giới hạn thời gian là N thì nó có thể khôi phục hoàn toàn bằng IDFT của N mẫu tần số như sau: N 1 x(n)  1  X (k)e jnk N k0
14 Như nói trên, DFT làm việc với tín hiệu rời rạc có giới hạn độ dài (N). Thực tế, rất nhiều tín hiệu trong khoảng thời gian dài. Rất khó tính toán DFT với N rất lớn. Để giải quyết vấn đề này, người ta sử dụng STFT (Short Time Fourier Transform). Trong đó, tín hiệu với độ dài tùy ý được chia thành các khối gọi là frame và DFT áp dụng cho từng frame. Frame được hình thành bằng cách nhân tín hiệu gốc với hàm cửa sổ. Thông thường độ dài frame khoảng 10 đến 20 ms được sử dụng vào phân tích không gian. 2.1.2.2 Băng thông Băng thông chỉ ra dải tần số của âm thanh. Tín hiệu nhạc thường có băng thông cao hơn tín hiệu tiếng nói. Cách tính băng thông đơn giản nhất là lấy chênh lệch tần số giữa tần số cao nhất với tần số thấp nhất của các thành phần phổ khác không. Trong một số trường hợp, “nonzero” được xác định khoảng 3 dB trên mức câm. 2.1.2.3 Phân bổ năng lượng Từ phổ tín hiệu, chúng ta dễ dàng nhận thấy phân bổ tín hiệu theo các thành phần tần số. Việc tính toán năng lượng dải tần số cao và tần số thấp là cần thiết. Thực sự, khái niệm “low”, “high” phụ thuộc vào ứng dụng. Thí dụ tần số tín hiệu tiếng nói ít khi vượt qua 7 kHz. Do vậy, ta có thể chia toàn bộ phổ dọc theo đường ngang 7 kHz: nửa dưới thuộc tần số thấp và nửa trên thuộc tần số cao. Tổng năng lượng cho mỗi băng được tính bằng tổng năng lượng mỗi mẫu trong băng. Một đặc trưng quan trọng suy diễn từ phân bổ năng lượng là trọng tâm phổ (centroid). Nó là điểm giữa của phân bổ năng lượng phổ tín hiệu. Tiếng nói có trọng tâm thấp so với âm nhạc. Trọng tâm còn được gọi là độ chói (brightness). 2.1.2.4 Điều hòa Đặc trưng thứ hai trong miền tần số của âm thanh là điều hòa. Trong âm thanh điều hòa, các thành phần phổ là số lần nguyên của tần số thấp nhất và tần số thường xuyên cao nhất. Tần số thấp nhất được gọi là tần số cơ bản. Âm nhạc
15 thường điều hòa hơn âm thanh khác. Để xác định được âm thanh có điều hòa hay không hãy kiểm tra xem tần số của các thành phần trội là số lần tần số cơ bản hay không. Thí dụ, phổ âm thanh nốt G4 của tiếng sáo có dãy tần số cao độ (pitch) như sau: 400 Hz, 800 Hz, 1200 Hz, 1600 Hz... 2.1.2.5 Cao độ Đặc trưng thứ ba của miền tần số là cao độ. Thuộc tính cảm nhận các tần số âm thanh còn được gọi là pitch. Tần số càng cao thì pitch càng cao và bước sóng càng ngắn. Có thể xếp hàng âm thanh theo mức độ cao độ. Cao độ là đặc trưng chủ quan, nó quan hệ nhưng không tương đương với tần số cơ bản. Tuy nhiên, trong thực tế chúng ta sử dụng các tần số cơ bản để xấp xỉ cao độ. 2.1.3 Đặc trưng ảnh phổ. Biểu diễn âm lượng - thời gian và phổ là hai biểu diễn tín hiệu đơn giản nhất. Hạn chế của biểu diễn âm lượng - thời gian là không chỉ ra các thành phần tần số của tín hiệu và phổ, không chỉ ra khi nào các thành phần tần số khác nhau xuất hiện. Để giải quyết vấn đề này, biểu diễn tổ hợp hay còn gọi là ảnh phổ được sử dụng. Ảnh phổ của tín hiệu chỉ ra quan hệ giữa ba biến: nội dung tần số, thời gian và cường độ. Trong ảnh phổ, nội dung tần số được biểu diễn theo các trục tung, thời gian theo trục hoành. Cường độ (intensity, power) của các thành phần tần số khác nhau của tín hiệu được chỉ ra bằng độ xám, cường độ lớn hơn biểu diễn bởi mức độ xám cao hơn. 2.1.4 Đặc trưng âm thanh MFCC MFCC (Mel Frequency Cepstral Coefficients) là các hệ số biểu diễn phổ của phổ (spectrum-of-a-spectrum) của đoạn âm thanh. Các hệ số ceptral c(k) là cách thuận tiện cho việc mô hình hóa phân bổ năng lượng phổ. Các hệ số ceptral được tính toán cho mỗi khoảng thời gian ngắn của tín hiệu âm thanh.
16 Hệ số ceptral được sử dụng trong MMDBMS (tìm kiếm âm thanh) và trong nhận dạng tiếng nói. Mel là đơn vị độ cao âm thanh (pitch). Một cặp âm thanh cảm nhận có độ cao như nhau nếu giá trị mel của chúng như nhau. Mel-scale: Xấp xỉ tuyến tính dưới 1 kHz, và loga trên 1 kHz. 2.2 Phân lớp âm thanh 2.2.1 Đặc điểm chính của các lớp âm thanh Mọi phương pháp phân lớp âm thanh trên cơ sở tính toán các giá trị đặc trưng. Chúng khác nhau ở chỗ các đặc trưng được sử dụng như thế nào. Nhóm thứ nhất: mỗi đặc trưng được sử dụng riêng rẽ trong các bước phân lớp. Nhóm thứ hai: tập các đặc trưng được sử dụng chung như véctơ để tính toán mức độ “gần gũi” của đầu vào đến các tập huấn luyện. 2.2.2 Phân lớp âm thanh 2.2.2.1 Phân lớp âm thanh theo từng bước Trong phân lớp âm thanh theo từng bước, ta sử dụng riêng biệt mỗi đặc trưng audio để xác định âm thanh đó là âm nhạc hay tiếng nói. Mỗi đặc trưng được xem như tiêu chí lọc hay trích chọn. Tại mỗi bước lọc, đoạn âm thanh được xác định là kiểu này hay kiểu khác. Trước hết tính trọng tâm của của các đoạn âm thanh. Nếu trọng tâm cao hơn ngưỡng cho trước thì nó có thể là âm nhạc. Nếu không đoạn âm thanh có thể là tiếng nói hay âm nhạc (vì không phải mọi âm nhạc đều có trọng tâm cao). Tiếp theo tính tỷ lệ câm. Nếu đoạn âm thanh có tỷ lệ câm thấp thì chúng có thể là âm nhạc. Nếu không, nó là tiếng nói hay nhạc solo. Cuối cùng tính ZCR. nếu đoạn âm thanh có biến đổi ZCR rất cao, nó là tiếng nói. Nếu không nó là nhạc solo.
17 Trong tiệm cận phân lớp này, điều quan trọng là xác định trình tự trong đó các đặc trưng khác nhau được sử dụng để phân lớp. Trình tự thông thường được quyết định bởi độ phức tạp tính toán và khả năng phân biệt (differentiating power) của các đặc trưng khác nhau. Đặc trưng ít phức tạp, có khả năng phân biệt cao sẽ được sử dụng trước. Điều này làm giảm tổng số bước thực hiện lọc trên đoạn âm nhạc, dẫn tới làm giảm đáng kể tính toán đòi hỏi. 2.2.2.2 Phân lớp âm thanh theo vectơ đặc trưng Trong phân lớp âm thanh trên cơ sở véctơ đặc trưng, các giá trị của tập đặc trưng được tính toán và sử dụng như véctơ đặc trưng. Trong giai đoạn huấn luyện, véctơ đặc trưng trung bình được tìm ra cho mỗi lớp âm thanh. Trong quá trình phân lớp, véctơ đặc trưng của đoạn âm thanh vào được tính và những khoảng cách giữa véctơ đặc trưng vào và từng véctơ tham chiếu được tính toán. Âm thanh vào được phân lớp từ cái nào có khoảng cách nhỏ nhất đến véctơ đầu vào. Khoảng cách Euclit thường được sử dụng để tính toán khoảng cách véctơ đặc trưng. Tiệm cận này giả sử rằng, các đoạn âm thanh trong cùng lớp ở gần nhau trong không gian đặc trưng. Các đoạn âm thanh thuộc các lớp khác nhau ở xa nhau trong không gian đặc trưng. 2.2.2.3 Phân lớp âm thanh ứng dụng mạng nơron Mạng nơ ron nhân tạo (ANN - Artificial Neural Networks) được sử dụng rộng rãi vào nhận dạng mẫu. Một ANN là hệ thống xử lý thông tin mô phỏng tiến trình nhận thức của bộ não người. ANN bao gồm nhiều neuron nối với nhau bằng các liên kết có trọng số. Nhận dạng tiếng nói với ANN bao gồm hai giai đoạn: huấn luyện và nhận dạng. Trong giai đoạn huấn luyện, các véctơ đặc trưng của dữ liệu tiếng nói huấn luyện được sử dụng để huấn luyện ANN. Trong giai đoạn nhận dạng, ANN sẽ nhận ra âm vị có khă năng nhất trên cơ sở véctơ đặc trưng đầu vào. 2.2.3 Chỉ số hóa và truy tìm âm thanh Sau khi phân lớp âm thanh thành âm nhạc và tiếng nói, ta có thể áp dụng các kỹ thuật riêng cho từng lớp. Tiệm cận cơ bản của chỉ số hóa và truy tìm tiếng nói là
18 áp dụng các kỹ thuật nhận dạng tiếng nói để chuyển đổi tín hiệu tiếng nói thành văn bản và sau đó áp dụng các kỹ thuật IR để chỉ số hóa và tìm kiếm. 2.3 Chỉ số hóa và truy tìm âm nhạc. 2.3.1 Chỉ mục và truy tìm âm nhạc cấu trúc và các hiệu ứng âm thanh Âm nhạc cấu trúc và hiệu ứng âm thanh rất phù hợp truy vấn đòi hỏi đối sánh chính xác giữa câu truy vấn và các tệp âm thanh trong CSDL. Người sử dụng có thể chỉ ra trình tự các nốt làm câu truy vấn và nó tương đối dễ tìm ra các tệp âm thanh cấu trúc chứa trình tự các nốt nhạc này. Mặc dù tìm ra trình tự các nốt phù hợp hoàn toàn, nhưng âm thanh sinh ra từ tệp có thể chưa phải là cái mà người sử dụng mong đợi bởi vì cùng các tệp âm thanh ấu trúc có thể phát ra các âm khác nhau trên các thiết bị khác nhau. 2.3.2 Chỉ mục và truy tìm âm nhạc trên cơ sở mẫu 2.3.2.1 Truy tìm âm nhạc trên cơ sở tập các đặc trưng Trong tiệm cận truy tìm âm nhạc này, tập các đặc trưng âm học được trích chọn cho mỗi âm thanh. Tập N đặc trưng này được biểu diễn bởi N-véctơ. Tính tương tự giữa câu truy vấn và mỗi đoạn âm thanh lưu trữ được tính toán trên cơ sở khoảng cách gần nhất giữa các véctơ đặc trưng tương ứng của chúng. Tiệm cận này có thể áp dụng cho mọi loại âm thanh như âm nhạc, tiếng nói và hiệu ứng âm thanh. 2.3.2.2 Truy tìm âm thanh trên cơ sở độ cao Tiệm cận này tương tự truy tìm âm nhạc cấu trúc trên cơ sở độ cao. Sự khác nhau chính là độ cao của từng nốt phải được trích chọn và ước lượng trong trường hợp này. Trích chọn và ước lượng độ cao được gọi chung là tracking độ cao. Tracking là dạng đơn giản của việc tự động chuyển đổi âm nhạc thành biểu diễn ký tự. Ý tưởng chính của tiệm cận này khá đơn giản. Mỗi nốt nhạc được biểu diễn bởi độ cao của nó. Vậy, một đoạn nhạc được biểu diễn như trình tự hay xâu độ cao. Quyết định truy tìm dựa trên cơ sở tính tương tự giữa câu truy vấn và xâu ứng viên. Hai nhiệm vụ chính là tracking độ cao và đo tính tương tự của xâu.