Como experimentar uma audição em 3D

Matthias Scholz, PhD da Brüel & Kjær, comenta sobre audição em 3D e como podemos implementá-la.

Uma das habilidades marcantes do sistema auditivo é a localização das fontes sonoras com precisão. Isto é vital em muitas situações da vida, tais como o deslocamento seguro no trânsito. Mas as propriedades espaciais do som são tão importantes quanto para se atingir um ambiente acústico realístico em sistemas para games e home theater. Então, como isto funciona e o que é necessário para recriar uma experiência autêntica? Como localizamos o som?

A primeira referência utilizada pela audição é a diferença de tempo interaural (fig. 1a). O som de uma fonte à frente ou atrás chegará simultaneamente aos dois ouvidos. Se a fonte se mover à esquerda ou à direita, o sistema auditivo identifica que o som chegou a ambos os ouvidos, porém com um certo atraso; ou, de outra maneira, os dois ouvidos captaram diferentes fases do mesmo sinal.

Quando o som incide pela frente, a diferença de tempo interaural é zero (esquerda). Quando incide pelos lados, com a cabeça com 20cm de diâmetro e velocidade do som de 340 m/s, a diferença máxima de tempo é de 0,58 ms (direita).

As diferenças de fase são interpretadas com mais facilidade nas baixas frequências. Nas altas frequências, os comprimentos de onda são tão pequenos quando comparados à cabeça que o padrão se repete, e ambos os ouvidos podem captar coincidentemente a mesma fase (fig. 1b).

Enquanto normalmente os ouvidos podem sentir uma diferença de fase (esquerda), dependendo da frequência e do ângulo de incidência eles podem detectar uma falsa igualdade de fase (direita).

Felizmente, o sistema auditivo conta também com a “sombra acústica” criada pela cabeça quando o som chega pelas laterais, um fenômeno que se acentua com a frequência. Nas baixas frequências, o tamanho da cabeça é pequeno quando comparado ao comprimento de onda no ar. Consequentemente, a pressão sonora é a mesma no ouvido esquerdo e no direito, independente da direção de onde o som chega.

Porém, com o aumento da frequência o comprimento de onda diminui e o tamanho da cabeça não é mais desprezível. Esta agora se torna um obstáculo que bloqueia e reflete o som, havendo a atenuação do conteúdo de alta frequência no ouvido oposto ao ouvido que está em frente a uma fonte sonora.

O formato da pina também fornece uma míriade de indicações espectrais (dependente da frequência). Tal como a sombra acústica da cabeça, a pina funciona como um escudo ao atenuar as altas frequências não provenientes diretamente área frontal. O ouvinte pode experimentar isto ao se afastar e depois se aproximar novamente da fonte. Sentirá uma pequena mudança nas altas frequências, algo que normalmente ele não prestaria atenção.

Além disto, e dependendo da frequência e da direção de incidência, o formato da pina afeta o som ao ser refletido no canal auditivo, realçando algumas frequências e atenuando outras.

Audição e reprodução binaurais

Geralmente, necessitamos de dois ouvidos (binaural) para uma experiência espacial acústica precisa, dado que a comparação entre ouvido esquerdo e direito dá as indicações mais fortes sobre a localização das fontes. Não é de surpreender que existe maior dificuldade ao localizar as fontes no plano médio, onde não há quase nenhuma diferença interaural.

Porém, muito do senso de direção é desenvolvido a partir da experiência, que está ligada à fisiologia – tamanho e formato da cabeça, pinas e canais auditivos. Com o tempo, o sistema auditivo constrói um repositório de referências, tal como a observação de que o som vindo de trás soa um pouco mais amorfo.

Então, para se criar uma experiência espacial convincente,  onde é possível sentir as posições exatas das fontes sonoras, a reprodução tem de fornecer toda a informação que o sistema auditivo está acostumado. Existem basicamente duas maneiras de fazer isso.

1: Gravação binaural
         Pode ser feita com um par de microfones posicionados próximo aos ouvidos ou, como mais usualmente implementado, com uma cabeça artificial e os microfones posicionados na entrada dos canais auditivos. Tal gravação deve ser reproduzida diretamente com fones de ouvido de alta qualidade, ou seja, o som é reproduzido o mais próximo possível do ponto onde foi captado. Sua reprodução através de alto-falantes convencionais e sem um processamento adicional de sinal, como o cancelamento via cross-talk, não funciona, uma vez que o sinal é enviado para todo o ambiente e ao redor da cabeça do ouvinte, criando uma experiência completamente diferente.

2: Arranjo de microfones
Esta abordagem utiliza um arranjo de microfones posicionados de forma compacta e tridimensional, que por sua vez grava o som em um ponto juntamente com informações espaciais sobre a sua direção incidente. Com o auxílio de algoritmos sofisticados, é possível reproduzir um campo sonoro similar ao campo captado através de um arranjo de alto-falantes ao redor do ouvinte. O resultado é ainda melhor se o ambiente de audição for altamente absorsor, de modo que o som, uma vez que atingiu o ouvinte, não será refletido. Caso contrário, as características acústicas do ambiente são adicionadas (fig. 2). Esta técnica exige que o ouvinte se mantenha em uma posição fixa, ou pelo menos em uma região limitada. A experiência, porém, é autêntica; a aproximação dos diferentes alto-falantes causa a sensação do ouvinte estar em frente às fontes sonoras originais.

A reprodução exata de campos sonoros tridimensionais com alto-falantes requer ambientes altamente absorsores para se evitar as reflexões.

Função Transferência Relativa à Cabeça

Pode-se combinar ambas as técnicas e reproduzir o som através de fones de ouvido, mesmo tendo a gravação sido realizada com um arranjo de microfones. Esta técnica também requer algum processamento para converter a gravação em binaural. Para tal, é necessário considerar a presença da cabeça do ouvinte e como a mesma influencia o som incidente de várias direções.

Medição da HRTF para uma fonte a um dado ângulo.

Esta relação é descrita pela função transferência relativa a cabeça (HRTF, em inglês). Uma HRTF descreve como um som gerado em um ponto específico do espaço será percebido pelo ouvido direito ou esquerdo. Pode-se considerá-la como uma impressão digital acústica da cabeça e do torso do ouvinte. Para levantar uma HRTF, um alto-falante é posicionado no espaço e um microfone é posicionado no ouvido (fig. 3). Embora a medição para algumas posições do alto-falante seja uma tarefa facilmente realizável, o ensaio com todos os ângulos possíveis requer um conjunto vasto de HRTFs, sendo um subconjunto para cada ouvido (fig. 4), mas o resultado é gratificante.

Para processar o som de qualquer direção, a medição da HRTF tem que ser repetida para muitos pontos ao redor da cabeça.

Quando comparado a uma gravação binaural direta, a vantagem de se utilizar um sinal obtido com arranjo de microfones e processado através uma HRTF é que o sistema de reprodução pode incorporar sensores para captar a orientação da cabeça do ouvinte e corrigir o processamento de acordo. Por exemplo, ao girar a cabeça para a esquerda, uma fonte sonora que estava originalmente à frente será reproduzida à direita, e vice-versa. Este efeito dá a sensação de “estar presente” experimentada com alto-falantes, porém sem as limitações de se estar em um ambiente especial, já que o som vai direto dos fones de ouvido para os ouvidos.

Este artigo foi publicado originalmente na revista Waves, que é publicada pela Brüel & Kjær, em https://bksv.com/en/about/waves.

*Alexandre Algranti é o Chief Headphone Officer do site fonesdeouvido.com.br. Leitores deste blog tem 10% de desconto em qualquer compra no site com o código HT2018.

htbest

htbest