domingo, 29 de julho de 2018

Transcrição de áudio e transcrição de entrevistas


A transcrição de entrevistas é uma das formas de transcrição. Existe transcrição de documentos somente existentes em papel, onde o conteúdo do documento antigo é digitado. Existe também a transcrição de vídeo que além de digitação pode ser encomendada a descrição da cena em que ocorre o diálogo. Finalmente a transcrição de áudio, que consiste em digitar os diálogos dos falantes.
E aí mora a grande diferença entre o que chamamos de transcrição de entrevista e transcrição de áudio: na transcrição de entrevistas o entrevistado sabe que está sendo gravado, há um consentimento ao registro em um gravador do diálogo a ser obtido. Já a transcrição de áudio envolve escutas telefônicas oficiais ou clandestinas, assim como sessão de julgamento de tribunal e outros eventos que não tratam de entrevista, como palestras.
A atividade de entrevistar alguém para depois transcrever faz do transcritor um parceiro de quem grava. A boa e correta transcrição depende de uma boa gravação, além do conhecimento do transcritor do assunto que está sendo tratado. Assim sendo, quanto maior a experiência do profissional sobre o assunto, melhor será a qualidade da transcrição, qualidade esta somente percebida quando o entrevistador ou o cliente recebe o material transcrito e confere o que foi digitado ouvindo o conteúdo do áudio.
A transcrição de áudio automática
Já de alguns anos para cá tem muito vídeo no YouTube e há a proliferação de APPs que são capazes de reconhecer a fala dos falantes. É de onde surge a legendagem automática do próprio YouTube e o uso do API de reconhecimento de fala do Google que funciona somente em Android e Google Chrome.
Existem dois problemas importantes com relação à transcrição automática de áudio. O primeiro grande obstáculo à automatização da transcrição é a qualidade da gravação e a dicção das pessoas que devem ser quase perfeitas e sem muitos termos estrangeiros.
Ambos, YouTube e API de reconhecimento de fala, usam o que chamamos de motor de reconhecimento de fala do Google, que está em um excelente momento de proliferação através de celulares e do próprio Google Chrome. Muitos aplicativos como Dictanote, Speech to Text, Áudio To Text e outros circulam baseados no motor Google, mas esbarram na qualidade do áudio.
A legendagem automática por sua vez acaba por escrever tudo com letras minúsculas, o que exige uma revisão exaustiva e demorada, muitas vezes compensando transcrever por digitação.
Já o API Google tenta reconhecer palavras de acordo com o contexto e em nomes próprios, nomes de países, cidades e outras palavras consegue colocar a legra maiúscula corretamente. Isso às vezes pode atrapalhar, pois acabam ocorrendo erros na programação linguística e palavras que não deveriam estar com letras capituladas (letras maiúsculas) ocorrem sem necessidade.
Mas ambos têm um ponto fraco, não conseguem reconhecer a pontuação, que ocupa entre 15 a 20% de um texto escrito, o que acaba elevando a necessidade de intervenções do revisor. A depender do nível de erros, onde se demora 5-6 segundos para fazer cada correção, o tempo gasto nessa etapa pode ser tão grande quanto a transcrição de áudio por digitação.
Transcrição de áudio por digitação
Ainda não inventaram melhor forma de transcrever um áudio do que um ser humano ficar digitando por horas a fio em longas jornadas para produzir 60 a 80 minutos de transcrição diária. A depender da experiência e do capricho da pessoa, como também o estado emocional,dela, a transcrição frequentemente apresenta altos índices de qualidade superiores a 99% de acertos. Para isso é preciso paciência, disciplina e capricho.
A transcrição de entrevistas desfavorece a transcrição automática
Esta é uma má notícia para quem alega que transcrever é fácil. Primeiro, o Google não reconhece bem quando há duas ou mais vozes dentro de uma gravação. São necessários alguns segundos para o mecanismo Google reconhecer uma pessoa. Como a velocidade da fala varia entre 2 a 4 palavras por segundo, alguns segundos podem gerar várias palavras sem transcrever, pois o aplicativo para de transcrever automaticamente.
Assim não ocorre uma transcrição de entrevista de forma automática, mas é necessário ter um operador que acompanhe a digitação automática. De todos os transcritores que conheço,nenhum deles se mostrou satisfeito com o índice de acertos do Google quando este é posto para transcrever automaticamente entrevistas.
A existência de duas ou mais vozes inviabiliza a transcrição de entrevistas automaticamente.
Transcrição automática de telefonemas
Call centers geram horas e horas de áudio a serem transcritos. Seria muito caro fazer a transcrição humana digitando tudo. Neste caso de call center, é possível automatizar a transcrição da ligação da seguinte forma: gravar o diálogo entre os dois em canais separados. Então o mecanismo reconheceria uma voz de cada vez e depois mesclaria de acordo com o tempo decorrido. De outra forma, não consigo visualizar como daria certo uma transcrição automática de telefonemas em call centers.
Transcrição de entrevistas e transcrição de áudio
Falamos um pouco de cada um deles, a transcrição de entrevistas é um desafio para a transcrição por máquina devido à diferença de vozes, mas também ao fenômeno de sobreposição de falas: duas pessoas podem falar juntas. E aí pelo menos por enquanto somente o transcritor humano consegue reconhecer a fala de cada um e transcrever separadamente cada fala, mesmo que isso acabe custando mais tempo para realizar a transcrição.
A comunicação oral é repleta de nuances como sotaque, interação entre as partes, falhas de gravação, má qualidade dos áudios gravados entre inúmeros outros fatores.
Mas o que mais gerará qualidade em uma transcrição de entrevistas é o revisor fazer corretamente o seu trabalho de orientar o transcritor e treiná-lo para que este também se desenvolva nessa atividade absolutamente artesanal que é a transcrição de áudio em texto.

Nenhum comentário:

Postar um comentário

Exemplo de transcrição de áudio supereditada

A transcrição de áudio supereditada traz cortes e intervenções mais vigorosas do transcritor-revisor sobre o conteúdo do áudio a ser trans...