Explorando a Identificação Musical através do Fingerprint de Áudio

Em um recente artigo Escrito por Brais, Chefe de Comunicação BMAT, O nosso lema é “Nós ouvimos tudo em todos os lugares e contamos para todos que querem saber”. Algo que nem sempre mencionamos, mas do qual nos orgulhamos igualmente, é como fazemos isso: através do fingerprint de áudio. É literalmente o nosso sinal de identidade, o sistema que nos permite identificar 52 anos de áudio contra 72 milhões de gravações sonoras todos os dias.

O fingerprint de áudio é o processo de condensação digital de um sinal de áudio, gerado pela extração de características acústicas relevantes de um conteúdo de áudio.

Tempo: Uma Característica Distintiva na Música

O tempo é uma característica distintiva na música. Em alguns gêneros, como o clássico, ele ajuda um especialista a distinguir entre as performances de Glenn Gould das Variações Goldberg de Bach em 1955 e 1981. Elas soam semelhantes, mas há diferenças sutis (no timbre, na textura e no fluxo de um movimento para outro) que as tornam duas gravações sonoras diferentes.

Por outro lado, quando um DJ toca música eletrônica em uma boate, mudanças de tempo são aplicadas às gravações originais através de efeitos como scratching ou alteração de velocidade. Elas definitivamente afetam a forma como dançamos e sentimos, mas a maioria das melodias permanece identificável. O tempo é diferente, mas a gravação sonora continua a mesma.

Se você precisasse projetar uma representação única de uma música, teria que levar em consideração elementos como timbre, intensidade, melodia, tempo… Portanto, se a projetasse apenas para o clássico, capturaria estritamente o tempo, já que qualquer variação sutil poderia implicar em uma performance diferente. No entanto, para gêneros eletrônicos, seria necessário menos atenção ao tempo e mais à captura do timbre e da melodia, já que a mesma música tocada em diferentes velocidades ainda produz a mesma gravação sonora. Este é um dilema desafiador a ser resolvido e está conectado a uma questão mais complexa: quando duas gravações sonoras são iguais? Como definir o limite exato onde uma música se torna outra?

Depende de que forma aplicamos esses efeitos. “Stáralfur”, do Sigur Ros, mostra o impacto que os efeitos sonoros têm em uma música.

Fingerprint de Áudio: A Solução para Identificação Musical em Escala

Um fingerprint de áudio é um resumo digital condensado de um sinal de áudio, gerado pela extração de características acústicas relevantes de um conteúdo de áudio. Junto com algoritmos de correspondência, essa assinatura digital permite identificar diferentes versões de uma única gravação com o mesmo título.

Quando uma música é inserida em nosso banco de dados, geramos e armazenamos automaticamente seu fingerprint, que usaremos posteriormente para identificar os áudios que gravamos em TVs, rádios e locais. Assim como as impressões digitais humanas, podemos comparar o fingerprint de uma gravação com um banco de dados global de músicas e localizar sua correspondência em segundos.

A Sensibilidade Humana Determina o Limite

Acreditamos que a percepção humana determina esse limite e treinamos nossa tecnologia para desenvolver a mesma sensibilidade. Portanto, quando nós humanos não conseguimos reconhecer uma música, nosso algoritmo de correspondência também não a identifica.

Uma Família de Fingerprint de Áudio

Existem vários cenários em que a identificação musical apresenta particularidades. Otimizamos nosso fingerprint para cada caso de uso, de modo que seja o mais preciso possível e ao menor custo computacional. Foi assim que criamos toda uma família de fingerprint.

Começando do básico, identificar um áudio em um cenário ideal, como sua gravação original, é o requisito mais simples para um fingerprint. Isso é o que o FFP (fingerprint rápido) faz. No entanto, a música normalmente não é reproduzida em circunstâncias ideais. Nem mesmo em estações de rádio, onde efeitos como a compressão de faixa dinâmica padronizam a qualidade do som. Nosso fingerprint padrão é o nosso ganha-pão. Muito leve e ágil, ele é mais tolerante e retorna positivo mesmo quando há ligeiras modificações de tempo, altura, sobreposição de voz…

Depois de assistir TV por horas, descobrimos que um dos artefatos sonoros mais comuns – e mais perturbadores para um sistema de identificação musical – é o ruído de fundo. Este fingerprint desenvolveu uma grande habilidade para prestar atenção à música de fundo, não importa quão baixo seja o volume. Não será surpresa saber que é o mais pesado e caro em termos de custo computacional.

Com escolhas de vida muito diferentes, o festeiro da BMAT tem a audição mais refinada. O HPCPFP: o fingerprint do perfil de classes de altura harmônica retorna verdadeiro quando as duas músicas que estamos comparando têm estruturas harmônicas e de altura predominantes altamente semelhantes. Usamos isso para detectar covers, apresentações ao vivo, edições…

Estas são as principais áreas que nos mantiveram ocupados até agora, mas continuamos pesquisando e experimentando para encontrar novas soluções eficientes para os desafios que a música nos apresenta. A família continuará crescendo.

Hot Hits Brasil