Задачи музыкального поиска, связанные с анализом...

Post on 26-May-2015

13.390 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Задачи музыкального поиска связанные с

анализом аудио сигнала

План доклада

● Вступление● Обзор существующих задач● Введение в обработку сигналов● Примеры задач, которыми мы занимаемся

Вступление

С какими данными мы работаем?

Вступление

● Метаданные музыкального трека

Вступление

● Метаданные музыкального трека● Тексты песен

Вступление

● Метаданные музыкального трека● Тексты песен● Данные о прослушиваниях

Вступление

● Метаданные музыкального трека● Тексты песен● Данные о прослушиваниях● Непосредственно аудио сигнал

Вступление

Какие задачи можно решать анализируя аудио сигнал?

Обзор существующих задач

● Распознавание музыки по фрагменту записанному на микрофон

Обзор существующих задач

● Распознавание музыки по фрагменту записанному на микрофон

● Распознавание по напеванию

Обзор существующих задач

● Распознавание музыки по фрагменту записанному на микрофон

● Распознавание по напеванию

● Поиск нечетких дубликатов

Обзор существующих задач

● Распознавание музыки по фрагменту записанному на микрофон

● Распознавание по напеванию

● Поиск нечетких дубликатов

● Поиск кавер-версий и ремиксов

Обзор существующих задач

● Распознавание музыки по фрагменту записанному на микрофон

● Распознавание по напеванию

● Поиск нечетких дубликатов

● Поиск кавер-версий и ремиксов

● Выделение мелодии из полифонического сигнала

Обзор существующих задач

● Распознавание музыки по фрагменту записанному на микрофон

● Распознавание по напеванию

● Поиск нечетких дубликатов

● Поиск кавер-версий и ремиксов

● Выделение мелодии из полифонического сигнала

● Классификация музыки

Обзор существующих задач

● Распознавание музыки по фрагменту записанному на микрофон

● Распознавание по напеванию

● Поиск нечетких дубликатов

● Поиск кавер-версий и ремиксов

● Выделение мелодии из полифонического сигнала

● Классификация музыки

● Автотегирование

Обзор существующих задач

● Распознавание музыки по фрагменту записанному на микрофон

● Распознавание по напеванию

● Поиск нечетких дубликатов

● Поиск кавер-версий и ремиксов

● Выделение мелодии из полифонического сигнала

● Классификация музыки

● Автотегирование

● Поиск похожих/рекомендации

Введение в обработку аудио сигналов

Как анализировать аудио сигнал?

Введение в обработку аудио сигналов

● Как выглядит аудио-сигнал глазами компьютера?

Введение в обработку аудио cигналов

● Как выглядит аудио-сигнал глазами компьютера?

Введение в обработку аудио сигналов

● Как выглядит аудио-сигнал глазами компьютера?

Введение в обработку аудио сигналов

● Как выглядит аудио-сигнал глазами компьютера?

Введение в обработку аудио сигналов

● Как выглядит аудио-сигнал глазами компьютера?

Введение в обработку аудио сигналов

● Как выглядит аудио-сигнал глазами компьютера?

Введение в обработку аудио сигналов

● Как выглядит аудио-сигнал глазами компьютера?

Введение в обработку аудио сигналов

● Что мы имеем по сути?

Введение в обработку аудио сигналов

● Что мы имеем по сути?– Зависимость амплитуды колебаний от времени

Введение в обработку аудио сигналов

● Что мы имеем по сути?– Зависимость амплитуды колебаний от времени

● Какую важную характеристику звука мы забыли?

Введение в обработку аудио сигналов

● Что мы имеем по сути?– Зависимость амплитуды колебаний от времени

● Какую важную характеристику звука мы забыли?– Частота колебаний (высота звука)

Введение в обработку аудио сигналов

● Пример музыкального фрагмента и его разделение на три полосы частот

Введение в обработку аудио сигналов

● Как преобразовать сигнал из временного домена в частотный?

Введение в обработку аудио сигналов

● Как преобразовать сигнал из временного домена в частотный?– Преобразование Фурье (Fourier transform)

Введение в обработку аудио сигналов

● Как преобразовать сигнал из временного домена в частотный?– Преобразование Фурье (Fourier transform) —

позволяет разложить периодическую функцию в сумму гармонических с разными частотами.

Введение в обработку аудио сигналов

● Как преобразовать сигнал из временного домена в частотный?– Преобразование Фурье (Fourier transform)

– Вейвлет преобразование (Wavelet transform)

Введение в обработку аудио сигналов

● Как преобразовать сигнал из временного домена в частотный?– Преобразование Фурье (Fourier transform)

– Вейвлет преобразование (Wavelet transform)

Вейвлет – это математическая функция, позволяющая анализировать различные частотные компоненты данных.

Введение в обработку аудио сигналов

● Как преобразовать сигнал из временного домена в частотный?– Преобразование Фурье (Fourier transform)

– Вейвлет преобразование (Wavelet transform)

– Константное Q преобразование (Constant Q transform)

Введение в обработку аудио сигналов

● Хочется при этом сохранить временную составляющую сигнала– Оконное преобразование Фурье (Short-time

Fourier transform)

Введение в обработку аудио сигналов

Введение в обработку аудио сигналов

Введение в обработку аудио сигналов

Введение в обработку аудио сигналов

Введение в обработку аудио сигналов

Классификация признаков

● По временному масштабу– Frame-level

– Segment-level

– Global-level

● По уровню представления – Low-level

– Middle-level

– High-level

Low-level

● Zero Crossing Rate – позволяет неплохо различать музыку и речь

● Short-time energy – отражает изменение энергии во времени

Low-level

● Spectral Centroid – центр масс спектра

● Spectral Bandwidth – разброс относительно центра масс

● Spectral Flatness Measure – характеризует «гладкость» спектра. Помогает отличать сигнал похожий на шум от сигналов с выраженной тональностью

Low-level

● Что-нибудь более сложное?– Mel-frequency Cepstral Coefficient

(MFCC) (вольный перевод — Коэффициенты кепструма в мел масштабе)

– По сути это спектр спектра

– Изначально использовались в распознавании речи

Middle-level

● Beat Tracker● Pitch Histogram● Rhythm Patterns

High-level

● Музыкальные жанры● Настроение: веселая, грустная, агрессивная,

спокойная.● Вокальная / Инструментальная● Ощущаемая скорость музыки (медленная,

быстрая, средняя)● Пол вокалиста

Обобщение признаков

● Как перейти на более общий уровень — уровень трека?

– Вычисление статистик по шкале времени (среднее/дисперсия)

– Попытка более сложного моделирования распределения значений признаков, например Гауссовы смеси

Сравнение

● Как сравнивать признаковые описания?● Вычисление меры близости

– Расстояние Хэмминга при побитовом сравнении

– Евклидово расстояние

– Манхэттенское расстояние

● Оценка максимального правдоподобия

Примеры наших задач

● Распознавание музыки по фрагменту записи

Примеры наших задач

● Распознавание музыки по фрагменту записи● Поиск нечетких дубликатов

Примеры наших задач

● Распознавание музыки по фрагменту записи● Поиск нечетких дубликатов● Классификация/музыкальные рекомендации

Распознавание музыки

● В качестве базовых признаков — пики энергии в спектрограмме

● Пики объединяются в пары

Распознавание музыки

● Двухэтапный поиск– Быстрый поиск в «облегченном» индексе

– Более точный поиск среди TopN лучших

Отсечение ложных срабатываний

Отсечение ложных срабатываний

Распознавание музыки

● База 6М треков● Двухуровневый поисковый кластер

Поиск нечетких дубликатов

● В основе лежит метод построения сигнатур — Chromaprint

● Исходное представление сигнала в виде хромограммы

Поиск нечетких дубликатов

● Основная идея — рассматривать хромаграммы как изображения

● Сравнивать используя методы компьютерного зрения

● Используется набор фильтров

Поиск нечетких дубликатов

● Как выглядит сигнатура?

Поиск нечетких дубликатов

● Разница между оригинальной и инструментальной версией трека

Классификация музыки

● Что можно классифицировать?– Жанры

– Настроения

– Пол вокалиста

– И т.д.

Классификация музыки

● В качестве исходных данных — MFCC (еще можно спектрограмму)

● Обучаем глубокую сверточную нейронную сеть

● Смотрим что получилось

Классификация музыки

● Пример трека, размеченного как Pop● Что предсказывает нейронная сеть?

Классификация музыки

● Пример трека, размеченного как Pop● Что предсказывает нейронная сеть?

– Metal 0.45

– Punk 0.23

– Rock 0.17

Классификация музыки

● Еще один пример, снова Pop● Что предсказывает нейронная сеть?

Классификация музыки

● Еще один пример, снова Pop● Что предсказывает нейронная сеть?

– Rap 0.48

– RnB 0.16

– Pop 0.09

Музыкальные рекомендации

● Есть методы коллаборативной фильтрации, которые неплохо работают

● В чем преимущества подхода основанного на анализе аудио сигнала?– Лучше для новых треков

– Лучше для мало популярных треков

Спасибо за внимание!

Вопросы?

top related