Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
lượt xem 3
download
Bài báo này đề xuất phương pháp sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản để nâng cao chất lượng gom cụm kết quả tìm kiếm video. Mặc dù hướng tiếp cận kết hợp đa đặc trưng đã được giới thiệu trong các lớp bài toán như tìm kiếm video (video retrieval), phân lớp video (video classification) nhưng đóng góp chính của bài báo này là phân tích ưu điểm của từng loại đặc trưng cụ thể làm cơ sở cho việc kết hợp đa đặc trưng và là công trình đầu tiên sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản đi kèm video để giải quyết bài toán gom cụm kết quả tìm kiếm video. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản Nguyễn Quang Phúc, Nguyễn Thị Anh Thư, Ngô Đức Thành, Lê Đình Duy, Nguyễn Hoàng Tú Anh Phòng Thí nghiệm Truyền thông Đa phương tiện Đại học Công nghệ Thông tin, ĐHQG-HCM Thành phố Hồ Chí Minh, Việt Nam Email: {phucnq,thunta,thanhnd,ldduy,anhnht}@uit.edu.vn Tóm tắt—Bài báo này đề xuất phương pháp sử dụng loại, chủ đề khác nhau và gây khó khăn trong việc tìm kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông kiếm. Trường hợp xấu hơn xảy ra khi kết quả của các tin văn bản để nâng cao chất lượng gom cụm kết quả tìm chủ đề khác áp đảo chủ đề mà người dùng quan tâm. kiếm video. Mặc dù hướng tiếp cận kết hợp đa đặc trưng Trong kịch bản như vậy, việc gom cụm kết quả tìm kiếm đã được giới thiệu trong các lớp bài toán như tìm kiếm video (video retrieval), phân lớp video (video classification) video là cần thiết nhằm giúp người dùng dễ dàng xác nhưng đóng góp chính của bài báo này là phân tích ưu định video cần tìm. Nói cách khác, thay vì phải duyệt điểm của từng loại đặc trưng cụ thể làm cơ sở cho việc kết qua một danh sách phẳng kết quả tìm kiếm gồm nhiều hợp đa đặc trưng và là công trình đầu tiên sử dụng kết video thuộc nhiều chủ đề trộn lẫn với nhau thì người hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin dùng được cung cấp một cái nhìn trực quan hơn thông văn bản đi kèm video để giải quyết bài toán gom cụm kết quả tìm kiếm video. Các thí nghiệm được tiến hành trên qua kết quả gom cụm video theo từng chủ đề cụ thể. kết quả tìm kiếm video của YouTube với phương pháp kết Qua đó, người dùng có thể dễ dàng xác định được video hợp đề xuất cho kết quả tốt hơn so với việc chỉ áp dụng mà họ quan tâm một cách nhanh chóng và bỏ qua các từng loại đặc trưng riêng lẻ trong quá trình gom cụm cụm video không thích hợp. video. Tóm lại, với một danh sách video trả về từ kết quả Từ khóa—gom cụm video, đặc trưng âm thanh, đặc tìm kiếm của một truy vấn bất kỳ trên các kênh video trưng thị giác, độ tương tự kết hợp. trực tuyến, bài toán gom cụm kết quả tìm kiếm video là xác định các video có nội dung tương tự nhau và gom I. GIỚI THIỆU chúng lại trong cùng một cụm. Dữ liệu đầu vào và đầu Ngày nay, với sự phát triển mạnh mẽ của công nghệ ra của bài toán được minh họa trực quan ở Hình 1. Đầu truyền thông và kỹ thuật số cùng với sự bùng nổ của vào là danh sách video trả về từ kết quả tìm kiếm video mạng Internet, số lượng video được chia sẻ trên Web trên Web, đầu ra là các cụm video. ngày càng nhiều. Để tìm kiếm video trên Web, người Gom cụm kết quả tìm kiếm trên Web được nghiên cứu dùng phải cung cấp từ khóa tìm kiếm trên các công cụ rộng rãi trước đây. Các công trình chủ yếu tập trung vào tìm kiếm video (ví dụ như YouTube, Google Video). Kết dữ liệu văn bản (phổ biến là gom cụm trang Web) [6], quả tìm kiếm được trình bày như một danh sách phẳng [8], [9] và dữ liệu hình ảnh [3], [5], [11]. Gần đây, có với các video được xếp theo độ liên quan với từ khóa một số công trình nghiên cứu gom cụm kết quả tìm kiếm truy vấn. Để tìm được video mong muốn, người dùng video [1], [7], [12]. So với dữ liệu dạng văn bản hay hình phải “tốn công” duyệt qua toàn bộ danh sách. Hơn nữa, ảnh thì dữ liệu video có cấu trúc phức tạp hơn. Nội các kết quả tìm kiếm là rất đa đạng và thường bị phân dung của video chứa đựng đồng thời các đặc trưng về mảnh hoặc bị chi phối bởi các video không phù hợp âm thanh (audio), thị giác (visual) hay văn bản (textual). (đặc biệt trong những trường hợp như người dùng gửi Điều này đặt ra nhiều thách thức trong việc biểu diễn truy vấn quá ngắn hoặc truy vấn mơ hồ do tính đa nghĩa và so khớp video. Trong [12], tác giả biểu diễn video của từ khóa truy vấn). dựa trên đặc trưng thị giác. Cụ thể, mỗi frame được biểu Giả định người dùng đang quan tâm tới một vấn đề diễn thành một véc tơ đặc trưng trong không gian màu cụ thể nhưng không đưa ra được từ khóa phù hợp. Do HSV (Hue Saturation Value). Sau đó, video được biểu đó, kết quả tìm kiếm video trả về có thể thuộc nhiều thể diễn bởi một véc tơ đặc trưng được tính bằng cách lấy 130 ISBN: 978-604-67-0635-9 130
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) khai thác nội dung ngữ nghĩa được trích xuất từ thông tin văn bản đi kèm video có thể giúp gom các video tương đồng ngữ nghĩa về cùng một cụm. Do đó, đặc trưng thị giác và thông tin văn bản đi kèm video sẽ hỗ trợ, bổ sung cho nhau để biểu diễn video một cách hiệu quả giúp nâng cao chất lượng gom cụm video. Tuy nhiên, việc tận dụng nội dung ngữ nghĩa của thông tin văn bản đi kèm video sẽ thực sự hiệu quả khi chúng được mô tả đúng với nội dung thực sự của video. Dữ liệu video trên các kênh video trực tuyến thường được tải lên bởi nhiều người dùng, các thông tin văn bản đi kèm video cũng được người dùng khai báo. Trong thực tế, vì những mục đích riêng (ví dụ như thu hút lượt xem) hoặc do cảm nhận chủ quan, người dùng có thể mô tả các thông tin Hình 1. Minh họa trực quan dữ liệu đầu vào và đầu ra cho bài toán văn bản đi kèm không đúng với nội dung thực sự của gom cụm kết quả tìm kiếm video. video. Trong những trường hợp tương tự như vậy, chúng tôi tin rằng việc khai thác kết hợp đặc trưng âm thanh được trích xuất trực tiếp từ nội dung video (ví dụ như trung bình tất cả các véc tơ biểu diễn cho các frame của những video về ca nhạc thường có các âm thanh như video. Độ tương đồng giữa các video được quy về việc tiếng reo hò, tiếng vỗ tay; những video đua xe thì âm tính khoảng cách giữa các véc tơ biểu diễn chúng. Với thanh đi kèm là tiếng động cơ xe, ...) sẽ góp phần cải hướng tiếp cận này thì tính ngữ nghĩa trong thông tin thiện chất lượng gom cụm video. văn bản đi kèm video (ví dụ như tiêu đề (title), mô tả Để làm rõ những phân tích trên, một ví dụ minh họa (description), các thẻ từ khóa (tags)) không được xem được thể hiện ở Hình 2. Trong ví dụ này, cả bốn video xét. Trong [1], [7], các tác giả đã khai thác các thông đều giới thiệu về “xe hơi” nên sẽ được gom vào cùng tin được trích xuất từ đặc trưng thị giác và thông tin văn một cụm. Video 1 và video 3 có thể hiện thị giác tương bản đi kèm video nhằm cải thiện chất lượng gom cụm đối giống nhau nên việc khai thác đặc trưng thị giác sẽ video. Tuy nhiên, các phương pháp rút trích đặc trưng giúp gom 2 video này với nhau. Tuy nhiên, video 2 và biểu diễn video được sử dụng vẫn còn khá đơn giản và video 4 có thể hiện thị giác khác so với video 1 và video hiệu quả của từng loại đặc trưng trong quá trình gom 3. Khi đó, việc tận dụng thông tin văn bản đi kèm video cụm video chưa được phân tích rõ ràng. cùng với đặc trưng âm thanh được trích xuất từ nội dung Trong bài báo này, chúng tôi tập trung vào việc phân video (như tiếng động cơ xe) sẽ giúp gom video 2 và tích ưu điểm của từng loại đặc trưng cụ thể làm cơ sở video 4 vào chung cụm với video 1 và video 3. cho việc kết hợp đa đặc trưng. Từ đó, đề xuất phương Từ những phân tích trên, chúng tôi đề xuất mô hình pháp kết hợp đặc trưng âm thanh, đặc trưng thị giác và kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông thông tin văn bản đi kèm video nhằm nâng cao chất lượng gom cụm video. Các mục tiếp theo của bài báo được tổ chức như sau: mục II giới thiệu phương pháp kết hợp đặc trưng đề xuất, mục III trình bày các thực nghiệm, mục IV thảo luận về hướng phát triển. II. PHƯƠNG PHÁP ĐỀ XUẤT A. Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản Theo quan sát trực quan, các video có nội dung tương tự nhau thường có thể hiện thị giác (sự xuất hiện của các đối tượng, hình ảnh) giống nhau. Vì vậy, việc sử dụng đặc trưng thị giác để gom cụm video sẽ trở nên hiệu quả. Tuy nhiên, với sự đa dạng của dữ liệu video trên Web, những video thuộc cùng một chủ đề có thể có Hình 2. Minh họa cụm bốn video thuộc chủ đề “xe hơi” từ danh sách những đối tượng và hình ảnh khác nhau. Khi đó, việc kết quả tìm kiếm video của truy vấn “Aston”. 131 131
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hình 3. Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và Hình 5. Minh họa quá trình tính độ tương tự video dựa trên đặc trưng thông tin văn bản giải quyết bài toán gom cụm kết quả tìm kiếm video. thị giác (SIFT) được biểu diễn theo mô hình BoW. tin văn bản đi kèm video nhằm nâng cao chất lượng gom cụm video (xem Hình 3). bao gồm các bước chính là phát hiện và mô tả các điểm đặc trưng. Các điểm đặc trưng sẽ được phát hiện và mô B. Trích xuất đặc trưng, biểu diễn và so khớp video tả trên từng frame của mỗi video. Để phát hiện các điểm 1) Đặc trưng âm thanh (Audio): Như đã phân tích đặc trưng, chúng tôi sử dụng bộ phát hiện đặc trưng phổ ở trên, đặc trưng âm thanh đóng một vai trò quan biến Hessian-Affine [10]. Với mỗi đặc trưng, một véc trọng trong quá trình gom cụm video. Trong bài báo tơ 128 chiều được tạo ra từ bộ mô tả SIFT. Như vậy, này, chúng tôi sử dụng MFCC (Mel-Frequency Cepstral mỗi frame của video sẽ được biểu diễn bao gồm một Coefficients) [13] như là một loại đặc trưng âm thanh tập các véc tơ đặc trưng 128 chiều. Video được biểu được trích xuất từ video. Mượn ý tưởng từ mô hình BoW diễn bằng tập hợp tập các véc tơ đặc trưng biểu diễn (Bag-of-Words) trong biểu diễn dữ liệu văn bản, sau khi cho từng frame. đặc trưng âm thanh (biểu diễn dạng tập các véc tơ) được trích xuất từ tập dữ liệu video, quá trình gom cụm các Tương tự như quá trình biểu diễn video với đặc trưng đặc trưng tạo từ điển được tiến hành. Cuối cùng, mỗi âm thanh, chúng tôi cũng sử dụng mô hình BoW để biểu video sẽ được biểu diễn bởi một véc tơ đặc trưng với diễn và tính độ tương tự video theo đặc trưng thị giác. số chiều tương ứng với số từ trong từ điển. Độ tương tự Quá trình tính độ tương tự video dựa trên đặc trưng thị giữa các video được tính là khoảng cách giữa các véc giác được thể hiện ở Hình 5. tơ đại diện chúng. Quá trình tính độ tương tự video dựa 3) Thông tin văn bản (Textual): Thông tin văn bản đi trên đặc trưng âm thanh được thể hiện ở Hình 4. kèm video (ví dụ như tiêu đề (title), mô tả (description), các thẻ từ khóa (tags)) góp phần quan trọng thể hiện nội dung ngữ nghĩa video giúp cải thiện chất lượng gom cụm video. Tuy nhiên, vấn đề đặt ra là thông tin văn bản có ý nghĩa tương tự nhau nhưng có thể được diễn đạt với nhiều từ ngữ khác nhau (điều này chủ yếu là do tính linh hoạt vốn có của ngôn ngữ tự nhiên cho phép người dùng thể hiện cùng một nội dung nhưng với các ngôn từ khác nhau). Trong bài báo này, chúng tôi đề xuất sử dụng từ điển WordNet [2] để tính độ tương tự ngữ nghĩa giữa Hình 4. Minh họa quá trình tính độ tương tự video dựa trên đặc trưng các từ thể hiện trong thông tin văn bản đi kèm video. âm thanh (MFCC) được biểu diễn theo mô hình BoW. Sau khi nghiên cứu rộng rãi một số phương pháp, 2) Đặc trưng thị giác (Visual): Để tăng độ chính xác chúng tôi đề xuất sử dụng phương pháp của Li để tính so khớp video thì một trong những yêu cầu quan trọng độ tương tự ngữ nghĩa giữa các từ, phương pháp này có là các điểm đặc trưng cục bộ (local keypoint features) sự tương quan tốt nhất với sự đánh giá của con người về được rút trích từ các frame phải bất biến với những biến mức độ tương tự ngữ nghĩa giữa các từ như được trình đổi về độ sáng, tỉ lệ co giãn, phép xoay, .... Một trong bày trong báo cáo [15]. những phương pháp rút trích và mô tả các đặc trưng cục Độ tương tự giữa các video dựa trên thông tin văn bộ đáp ứng yêu cầu trên được sử dụng phổ biến nhất bản đi kèm sử dụng từ điển WordNet được thể hiện ở hiện nay là Scale-Invariant Feature Transform (SIFT) [4] Hình 6. 132 132
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Bảng I BỘ DỮ LIỆU VIDEO THỬ NGHIỆM Truy vấn Số video Số chủ đề 1. Aston 82 4 2. Cobra 92 5 3. Jaguar 86 4 4. Leopard 95 5 5. Lion 89 4 6. Lotus 91 6 Hình 6. Minh họa quá trình tính độ tương tự video dựa trên thông tin 7. Mustang 83 5 văn bản đi kèm sử dụng từ điển WordNet. 8. Scorpion 90 6 9. Venus 89 7 10. Viper 87 5 C. Gom cụm video Quá trình gom cụm video dựa trên sự kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản B. Phương pháp đánh giá được thực hiện qua 3 bước sau: Để đánh giá chất lượng gom cụm video. Chúng tôi Bước 1. Độ tương tự giữa các video theo từng đặc sử dụng 2 độ đo phổ biến là Entropy và Purity [14]. trưng cụ thể sẽ được tính theo các phương pháp được Entropy của mỗi cụm phản ánh sự phân tán video trình bày ở mục trước đó. thuộc các chủ đề trong mỗi cụm, giá trị Entropy đánh Bước 2. Với hai video bất kỳ X và Y , độ tương tự giá chất lượng gom cụm tổng thể được tính là trung bình kết hợp đa đặc trưng được tính theo công thức sau: cộng của tất cả các Entropy của các cụm. Với tập dữ liệu gồm n video thuộc k loại (chủ đề) được gán nhãn Sim (X, Y ) = wi ∗ Simi (X, Y ) (1) thủ công, ký hiệu là Cj , j = 1, ..., k và thuật toán gom mỗi đặc trưng i cụm n video vào k cụm Pi với i = 1, ..., k. Entropy đánh giá chất lượng gom cụm toàn cục cho tất cả các trong đó, Sim (X, Y ) là độ tương tự kết hợp đa đặc cụm được tính toán theo công thức sau: trưng giữa hai video X và Y , Simi (X, Y ) là độ tương ni nij nij tự giữa hai video X và Y theo đặc trưng i, wi là trọng Entropy = − log (2) n n i ni số của đặc trưng i. i j Bước 3. Áp dụng thuật toán gom cụm dữ liệu để thực trong đó ni là số video trong cụm Pi , nij là số video hiện gom cụm video dựa trên độ tương tự kết hợp đa trong cụm Pi thuộc chủ đề Cj và n là tổng số video đặc trưng. trong tất cả các cụm. Kết quả gom cụm là hoàn hảo nếu mỗi cụm chỉ chứa III. THỰC NGHIỆM video thuộc cùng một chủ đề duy nhất. Khi đó, giá trị Entropy sẽ bằng không. Nói một cách tổng quát, giá trị A. Bộ dữ liệu video Entropy càng nhỏ thì cho chất lượng gom cụm tốt hơn. Purity phản ánh độ tinh khiết của các cụm. Purity của Chúng tôi sử dụng phần mềm mã nguồn mở TubeKit1 một cụm được xác định dựa trên số video thuộc chủ đề để tải dữ liệu video thực từ YouTube thông qua YouTube mà xuất hiện nhiều nhất trong cụm đó. Purity đánh giá API. Chúng tôi tải về khoảng 80 đến 100 video (thời chất lượng gom cụm toàn cục cho tất cả các cụm được lượng mỗi video từ 2 đến 10 phút) cho mỗi truy vấn và tính toán theo công thức sau với các ký hiệu có ý nghĩa thực hiện loại bỏ một số video biệt lập, ít liên quan đến tương tự như trong công thức tính Entropy: truy vấn tìm kiếm. Sự loại bỏ này là hợp lý bởi vì chúng ni nij tôi đang thử nghiệm tính năng hậu xử lý gom cụm kết P urity = (maxj ) (3) quả tìm kiếm video chứ không phải là tìm kiếm chính i n ni xác của một công cụ tìm kiếm video. Ngược lại với Entropy, giá trị Purity càng lớn thì cho Thí nghiệm được tiến hành trên bộ dữ liệu gồm 884 kết quả gom cụm tốt hơn. video của 10 truy vấn với các từ khóa khác nhau. Thông tin chi tiết về bộ dữ liệu video được mô tả ở Bảng I. C. Cài đặt thực nghiệm Nhằm mục đích so sánh, đánh giá kết quả gom cụm 1 www.tubekit.org video với phương pháp đề xuất, chúng tôi tiến hành cài 133 133
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) đặt các thí nghiệm sau: • A (Audio): Gom cụm video dựa trên độ tương tự theo đặc trưng âm thanh. • V (Visual): Gom cụm video dựa trên độ tương tự theo đặc trưng thị giác. • T (Textual): Gom cụm video dựa trên độ tương tự theo thông tin văn bản đi kèm video. • A-V-T (Audio-Visual-Textual) (hướng tiếp cận của chúng tôi): Gom cụm video dựa trên độ tương tự kết hợp đặc trưng âm thanh, đặc trưng thị giác và theo thông tin văn bản đi kèm video. Để xem xét sự tương quan giữa các đặc trưng trong mô hình kết hợp, chúng tôi thử nghiệm phương pháp kết hợp đặc trưng đề xuất với các bộ trọng số khác nhau Hình 7. Kết quả gom cụm video được đánh giá theo Entropy. ứng với từng đặc trưng được thể hiện trong Bảng II. Bảng II TRỌNG SỐ KẾT HỢP CÁC ĐẶC TRƯNG tương tự nhau (thuộc cùng chủ đề) thường có những đối Âm tượng hình ảnh cụ thể và âm thanh tương tự nhau. Tuy Trọng Thị giác Văn bản thanh (Visual) (Textual) Tổng nhiên, kết quả thí nghiệm cũng cho thấy rằng mỗi đặc số (Audio) trưng đều có ưu thế riêng đối với mỗi bộ dữ liệu video tsA 0.60 0.30 0.10 1.00 của từng truy vấn. Phương pháp kết hợp đa đặc trưng tsB 0.35 0.50 0.15 1.00 của chúng tôi (A-V-T) được thử nghiệm với các bộ trọng tsC 0.20 0.60 0.20 1.00 số khác nhau cho mỗi đặc trưng đều cho kết quả gom cụm video tốt hơn so với các phương pháp sử dụng từng Để gom cụm video, chúng tôi sử dụng thuật toán K- đặc trưng riêng lẻ (A), (V), (T). Điều này chứng minh Medoids (một thuật toán gom cụm phổ biến) vì hai lý tính hiệu quả của việc kết hợp đặc trưng âm thanh, đặc do sau: (i) trọng tâm của cụm là một đối tượng cụ thể trưng thị giác và thông tin văn bản đi kèm video trong (tâm thật), (ii) độ tương tự giữa các đối tượng chỉ cần quá trình gom cụm video. Phương pháp A-V-T (tsA), A- tính một lần (điều này là phù hợp với đầu vào là độ đo V-T (tsB) cho kết quả gom cụm video tốt nhất (đạt giá tương tự kết hợp đa đặc trưng giữa các video được xử trị Entropy thấp nhất chứng minh xác suất phân bố các lý tính toán trước đó). video thuộc cùng một chủ đề vào các cụm khác nhau là Đối với bài toán gom cụm tổng quát thì số cụm được thấp nhất). Điều này cho thấy rằng trong chiến lược kết khai báo linh động bởi người dùng. Số cụm càng ít thì hợp đa đặc trưng giải quyết bài toán gom cụm kết quả tỷ lệ các đối tượng khác nhau được gom về cùng một tìm kiếm video thì đặc trưng âm thanh và đặc trưng thị cụm càng cao, số cụm càng nhiều thì tỷ lệ các đối tượng giác chiếm ưu thế hơn so với thông tin văn bản đi kèm giống nhau được gom vào các cụm khác nhau càng lớn. video. Trong bài báo này, để công bằng trong việc đánh giá Kết quả thể hiện ở Hình 8 cho thấy phương pháp A-V- giữa các phương pháp thực nghiệm, chúng tôi tiến hành T (tsA), A-V-T (tsB) cũng cho kết quả gom cụm video thử nghiệm thuật toán gom cụm với số cụm đầu vào tốt nhất (đạt giá trị Purity cao nhất chứng minh tỉ lệ tương ứng với số chủ đề của mỗi truy vấn. phân bố những video thuộc cùng một chủ đề vào cùng một cụm là cao nhất). D. Kết quả thực nghiệm Minh họa kết quả trực quan gom cụm video được thể Kết quả gom cụm video ứng với các truy vấn khác hiện ở Hình 9. nhau đánh giá theo Entropy và Purity được thể hiện ở Kết quả gom cụm video thể hiện ở Hình 9 bao gồm Hình 7 và Hình 8. 6 cụm video liên quan đến truy vấn “Scorpion”. Cụm Kết quả thể hiện ở Hình 7 cho thấy trên hầu hết các 1 bao gồm những video ca nhạc thể hiện bởi ban nhạc bộ dữ liệu video của các truy vấn, phương pháp sử dụng Scorpions. Cụm 2 bao gồm những video liên quan đến đặc trưng âm thanh (A) và đặc trưng thị giác (V) cho động vật (con bọ cạp). Cụm 3 bao gồm những video kết quả gom cụm video tốt hơn (đạt giá trị Entropy thấp game. Cụm 4 gồm những video giới thiệu về mũ bảo hơn) so với phương pháp sử dụng thông tin văn bản hiểm thương hiệu Scorpion. Cụm 5 gồm những video đi kèm (T). Điều này cho thấy xu hướng những video tập Yoga (Scorpion Pose). Cụm 6 gồm những video liên 134 134
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) thấy rằng phương pháp kết hợp đề xuất giúp cải thiện chất lượng gom cụm video so với các phương pháp sử dụng từng đặc trưng riêng lẻ. Hướng phát triển tiếp theo là có thể khai thác thêm các thông tin được trích xuất từ đặc trưng chuyển động (motion features) của video. Thử nghiệm và đánh giá kết quả gom cụm video dựa trên việc kết hợp các bộ đặc trưng khác nhau nhằm xây dựng bộ đặc trưng phù hợp cho bài toán gom cụm kết quả tìm kiếm video. LỜI CẢM ƠN Nghiên cứu được tài trợ bởi Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) trong khuôn khổ Đề tài mã số C2015-26-02. Hình 8. Kết quả gom cụm video được đánh giá theo Purity. TÀI LIỆU THAM KHẢO [1] A. Hindle, J. Shao, D. Lin, J. Lu and R. Zhang, “Clustering Web Video Search Results Based on Integration of Multiple Features,” In WWW, pp. 53-73, 2011. [2] C. Fellbaum, ed., “WordNet: An electronic lexical database,” Language, Speech, and Communication. MIT Press, Cambridge, USA, 1998. [3] D. Cai, X. He, Z. Li, W.Y. Ma, J.R. Wen, “Hierarchical clustering of www image search results using visual, textual and link information,” In ACM Multimedia, pp. 952-959, 2004. [4] D. G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints,” International Journal of Computer Vision, 60, 2, pp. 91-110, 2004. [5] F. Jing, C. Wang, Y. Yao, K. Deng, L. Zhang, W.Y. Ma, “Igroup: web image search results clustering,” In ACM Multimedia, pp. 377-384, 2006. [6] G. Mecca, S. Raunich, A. Pappalardo, “A new algorithm for clustering search results,” Data Knowl, Eng.62(3), pp. 504-522, 2007. [7] H. Huang, Y. Lu, F. Zhang, and S. Sun, “A multi-modal clustering method for web videos,” In Trustworthy Computing and Services, pp. 163-169, 2013. [8] H. Zeng, Q. He, Z. Chen, W. Ma, and J. Ma, “Learning to cluster web search results,” In Proceedings of ACM SIGIR ’04, 2004. Hình 9. Minh họa trực quan một phần kết quả gom cụm video với [9] J. Park, X. Gao, and P. Andreae, “Query directed web page truy vấn “Scorpion”. clustering using suffix tree and wikipedia links,” In Advanced Data Mining and Applications, pp. 91-99, 2012. [10] K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir, and L. Van Gool, “A comparison quan đến một loại xe chuyên dụng thu hoạch gỗ thông of affine region detectors,” International journal of computer (Ponsse Scorpion). Từ kết quả trực quan gom cụm video, vision, vol. 65, no. 1-2, pp. 43-72, 2005. [11] M. Rege, M. Dong, and J. Hua, “Clustering Web Images with chúng tôi quan sát thấy rằng đa số các video thuộc cùng Multi-modal Features,” In Proceedings of the 15th International chủ đề đều được gom trong cùng một cụm. Thông qua Conference on Multimedia, pp. 317-320, 2007. kết quả gom cụm video, người dùng có thể xác định [12] S. Liu, M. Zhu, Q. Zheng, “Mining similarities for clustering web video clips,” In CSSE (4), pp. 759-762, 2008. được những video mà họ quan tâm một cách dễ dàng [13] U. Srinivasan, S. Pfeiffer, S. Nepal, M. Lee, L. Gu, S. Barrass, hơn thay vì phải duyệt qua một danh sách phẳng các kết “A Survey of Mpeg-1 Audio, Video and Semantic Analysis quả tìm kiếm như trước đây. Techniques,” Multimedia Tools and Applications, 27(1), pp. 105- 141, 2005. [14] Y. Zhao, G. Karypis, “Criterion functions for document clus- IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN tering: experiments and analysis,” Technical Report TR01-40, Department of Computer Science, University of Minnesota, 2001. Trong bài báo này, chúng tôi đề xuất phương pháp kết [15] Y.H. Li, Z. Bandar and D. McLean, “An approach for measuring hợp đặc trưng âm thanh, đặc trưng thị giác được trích semantic similarity using multiple information sources,” IEEE xuất trực tiếp từ nội dung video cùng với các thông tin Transactions on Knowledge and Data Engineering, vol. 15, no. 4, pp. 871-882, 2003. văn bản đi kèm video dựa trên những phân tích về ưu điểm của từng loại đặc trưng. Kết quả thí nghiệm cho 135 135
CÓ THỂ BẠN MUỐN DOWNLOAD
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn