Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

По какому принципу работает приложение Shazam?

Технологии
Marina Mel'nikova
  · 66,6 K
Первый

Как уже было сказано, создается своеобразный "отпечаток" звуковой композиции. Представляет собой он трехмерный график зависимости* интенсивности звука от его частоты и от времени. То есть в каждый момент времени определяется интенсивность звука каждой из возможных частот. (Интенсивность звука - количество звуковой энергии, проходящей через единичный кусочек площади в пространстве, расположенный перпендикулярно направлению распространения энергии, за единичное время; а если объяснять по-простому, то такая характеристика, как громкость является субъективным восприятием интенсивности). Разумеется, на практике значения обеих характеристик наносятся на график через малые равные промежутки времени.

Теперь в каждый момент времени можно найти частоту, обладающую наибольшей интенсивностью (частоту пика интенсивности). Соответственно составляется таблица: времени, прошедшему от начала композиции, ставится в соответствие определенная частота.

(На самом деле каждому моменту времени соответствуют две частоты: частота пика интенсивности и еще частота в некоторой опорной точке)

Это проделывается для огромного количества звуковых дорожек, составляется база данных. Приложение на вашем устройстве создает аналогичный отпечаток небольшого фрагмента песни, название которой вы хотите узнать. Затем программа ищет соответствие (цель - найти композицию, в которой за какое-то время картина изменения частот пика интенсивности максимально похожа на ту, что была получена на вашем отпечатке).

Стоит добавить, что получающийся график в идеале должен бы быть гладким, но обычно к отпечатку добавляется еще отпечаток окружающих шумов. Если я верно понимаю, то иногда они представляют собой очень резкие скачки частот и в таких случаях автоматически игнорируются при создании таблицы.

--------------------

  • Разумеется, устройство не строит для себя график, а сразу анализирует данные, но подобная визуализация помогает понять принцип работы программы.
Бакалавр МИРЭА, Ведущий менеджер по качеству данных, программист, любитель техники Apple  · 27 мар 2015
У Shazam есть доступ практически ко всем композициям мира. Каждая песня представлена в виде 2D-спектрограммы, которую компьютер анализирует и составляет так называемые «аудио-отпечатки» (acoustic fingerprints) конкретной композиции. Эти отпечатки являются практически индивидуальными для каждой песни (поэтому их называют отпечатками — по аналогии с отпечатками пальцев)... Читать далее

Все равно не понятно. Что за отпечатки, откуда берутся, как создаются.

искусствовед, кинорежиссер  · 21 нояб 2016

Товарищи попытались нас надурить своей технической белибердой, но мы-то с вами все прекрасно знаем, что, нажимая кнопку в приложении, пользователь Shazam связывается с мобильным аналитическим гном-центром, где трудятся тысячи гномов-меломанов, которые готовы помочь каждому узнать автора и название "вот этой крутой песенки".

Я думаю все таки это Величественная расса Эльфов. Потому что гномы любят музыку менее, чем Эльфы)

Анонимный ответ11 июня 2018

В каждом устройстве живут фиксики, как всем известно. В телефонах, где установлен Shazam живут фиксики-меломаны, они слушают музыку и говорят что это за песня.

Любопытно, что данную программу разработал один крупный медиагигант для того, чтобы отслеживать плагиатчиков, которые использовали музыку или даже семплы без "разрешения". Во время разработки приложения мыслей о выходе его в массы даже не было.

Программист, активно тренируюсь и выступаю в ездовом спорте и велоспорте.  · 27 мар 2015

Shazam превращает 10 секундный отрывок аудио в «отпечаток», основанный на спектрограммах (частотно-временной график). Он отправляет этот отпечаток на сервер, где уже имеется база таких отпечатков. Сравнивает их и находит нужную песню.