segunda-feira, 30 de julho de 2018

Formas de fazer transcrição de áudio

Identifico três formas de fazer transcrição de áudio de acordo com ordem crescente de tecnologia: (1) a transcrição por digitação; (2) a transcrição por ditado; e (3) a transcrição automática de áudio que também é chamado de transcrição por máquina. Vamos comparar a produtividade de cada uma das formas de transcrição de áudio levando em conta o modus operandi de transcrever-revisar-revsar que faz parte do protocolo de manutenção de qualidade de transcrição de áudio de Transcritor.
Este artigo contém 890 palavras aproximadamente. O tempo de leitura deve ser 5 minutos.
Projeto Paul Singer de medição de transcrição
O Projeto Paul Singer de medição de transcrição foi realizado em julho de 2018. Um transcritor sênior foi convidado e transcreveu um programa da TV Senado de 53,8 minutos (incluindo as vinhetas). O tempo de produção foi medido, o tempo de revisão foi medido e anotados os erros. Por extrapolação obtivemos (dados arredondados) as seguintes informações.
180 minutos – transcrição
150 minutos – tempo de revisão 1
70 minutos – tempo de revisão 2
1300 erros corrigidos na 1ª revisão
270 erros corrigidos na 2ª revisão
5 segundos foi o tempo necessário para corrigir cada erro em média
50 erros restantes – acerto de 99,4%
É importante salientar que o programa foi dividido em três blocos com diferentes tempos de duração e que os profissionais envolvidos no projeto mediram o tempo sem interrupção no trabalho. Entre cada bloco houve um período de descanso, pois cada bloco com isso produzido e revisão em dias diferentes, porquanto é impossível alguém digitar 180 minutos sem parar com velocidade de 50 palavras por minuto.
Nesse trabalho o transcritor usou e abusou de técnicas de digitação por atalho (com o recurso do Word chamado AutoCorreção), tendo cadastrado 28 mil palavras.
Transcrição de áudio por ditado
A transcrição de áudio por ditado usou a Técnica do Papagaio, que é ouvir o áudio e repetir no microfone o que foi falado. Somente assim é possível inserir a pontuação durante a Digitação por Voz disponível no Google Docs (ver menu Ferramentas – Digitação por voz). Portanto trata-se de uma transcrição por ditado, onde declaramos a pontuação dizendo onde ocorrem as vírgulas e os pontos finais,entre outros elementos.
A velocidade de transcrição aumentou para 30 minutos por hora, porém o índice de erros cresceu para 20%. O número de erros foi maior e consequentemente maior o tempo de revisão (os números são projeções baseadas nas medições do Projeto Paul Singer):
120 minutos – transcrição
210 minutos – tempo de revisão 1
90 minutos – tempo de revisão 2
1800 erros corrigidos na 1ª revisão
360 erros corrigidos na 2ª revisão
5 segundos foi o tempo necessário para corrigir cada erro em média
90 erros restantes – acerto de 99%
Comparando-se o tempo de produção de uma transcrição de áudio digitada de forma turbinada com a digitação por ditado temos:
Transcrição – 180 X 120
Revisão 1 – 150 X 210
Revisão 2 – 70 X 90
Total T+R1+R2 – 400 exemplo 420
Aqui chega-se a conclusão de que os dois processos são equivalentes em tempo total de produção com diferença de 5% no tempo total de trabalho empregado. Entretanto, a transcrição por ditado tem a vantagem de poupar os dedos, o que não é desprezível. Na quantidade de erros, a transcrição de áudio por digitação é francamente superior.
Nota importante: esse nível de erros só foi possível devido a uma série de rotinas dentro do Word que têm por finalidade corrigir 700 erros-padrão do Google cadastrados e a pontuação ditada que foi transformada em sinais de pontuação. Ao se falar a pontuação, o Word substitui a palavra por símbolos adequados e promove a capitulação através de macros em determinada ordem de execução. O uso da tecnologia favorece o transcritor dedicado a estudar e aprender sore seu ofício.
Transcrição automática de áudio
A transcrição automática de áudio, também conhecida como transcrição por máquina, tem como exemplo máximo a legendagem automática do YouTube. Esse recurso reconhece as falas dos falantes separadamente mesmo que gravados em monocanal.
A sua desvantagem é que 15 minutos de gravação gera mais de 1.250 mil linhas de pequenas frases que aparecem na tela. Todas elas têm que ser consolidadas, gerando daí pelo menos 5 mil segundos para ajuste. A transcrição de áudio ocorre instantaneamente, mas a ausência de pontuação e a necessidade de capitular as letras e corrigir os erros leva a 40% de erros (15% vem da pontuação e 25% de correções).
1 minuto – extração da legenda
4.050 erros são estimados
400 minutos – tempo de revisão 1
125 minutos – tempo de revisão 2
4050 erros corrigidos na 1ª revisão
810 erros corrigidos na 2ª revisão
5 segundos foi o tempo necessário para corrigir cada erro em média
160 erros restantes – acerto de 98,8%
Os 4 mil erros que encontramos na revisão 1 que levaria 400 minutos praticamente, já compromete a produtividade da legendagem automática. Esse resultado foi para um áudio muito bom gravado em estúdio com 3 falantes, produzindo 150 palavras por minuto.
Além de ter levado 525 minutos, contra os 400 minutos da transcrição por digitação turbinada e 420 minutos da transcrição por ditado, apresentou um erro residual provável de 1,8%, o que o cliente pode entender como uma transcrição ruim pois a cada 50 palavras ele terá que fazer uma intervenção, gastando cerca de 74 minutos em sua revisão final, quando o ideal seria ele gastar 63 minutos. 

Quantidade de palavras em transcrição de entrevistas


Quantidade de palavras em transcrição de entrevista

A quantidade de palavras em transcrição de entrevista difere da quantidade de palavras de outros tipos de transcrição de áudio. Sua estrutura difere de uma conversa telefônica ou uma conversa informal em gravação oculta. A transcrição de entrevista tem uma dinâmica própria e aqui nos atemos aos números levantados em uma entrevista de programa de televisão: o Agenda Econômica da TV Senado.

Vamos falar de quantidade de palavras em transcrição de entrevista, ou seja quantas palavras por minuto uma pessoa fala e quantas palavras conseguimos anotar em diferentes formas de produzir uma transcrição de áudio.

A transcrição de áudio pode ser produzida por digitaç , automática e por ditado. Farei considerações sobre a facilidade que encontrei para cada forma de produzir a transcrição na transcrição de entrevista.

Número de palavras em transcrição de entrevistas


O número de palavras produzidas em uma entrevista varia de acordo com a velocidade de fala dos presentes, o número de falantes e finalmente e da frequência de sobreposição de vozes dos falantes na entrevista. Nesse caso dependerá do tipo de entrevista (se estruturada ou apenas um bate-papo ou misto) e do grau de intimidade entre o entrevistador e o entrevistado, além do bom humor de ambos. A familiaridade entre falantes tende a tornar maior a sobreposição de vozes.

O número de palavras por minuto de entrevista tem variado entre as seguintes faixas:

Faixa 120 – 120 palavras por minuto – 7,2 mil palavras por hora

Faixa 130 – 130 palavras por minuto – 7,8 mil palavras por hora para digitar

Faixa 140 – 140 palavras por minuto – 8,2 mil palavras por hora para digitar

Faixa 150 – 150 palavras por minuto – 9,0 mil palavras por hora para digitar

Faixa 160 – 160 palavras por minuto – 9,6 mil palavras por hora para digitar

Faixa 170 – 170 palavras por minuto – 10,2 mil palavras por hora para digitar

Faixa 180 – 180 palavras por minuto – 10,8 mil palavras por hora para digitar

As entrevistas de faixa 120-130 são entrevistas em que em geral os respondentes falam de forma lenta e ainda parecem pensar muito antes de falar. São pessoas normalmente experientes que por força do cargo tendem a se manter na defensiva. Pelo que eu entendo essas faixas ocorrem principalmente em assuntos mais delicados onde se exige mais reflexão para falar algo. Pessoas mais reflexivas parecem ocupar cargos mais importantes ou vice-versa, não sei o que vem primeiro.

Já um dono de empresa apaixonado pelo negócio que ocupa o cargo máximo na organização apresentam maior velocidade de fala pela empolgação e paixão com que trata o assunto, o que não acontece com pessoas que estão subordinados a ele, mesmo os filhos tomam mais cuidado com o que vão falar. Considero interessante esse fato.

A velocidade de digitação já vai depender do tipo de transcrição e do tipod entrevista a ser transcrita. Isso requer sintonia entre o transcritor e o assunto que está sendo tratado, além da forma como a entrevista é estruturada, sendo a entrevista semiestruturada ou estruturada. Existe uma afinidade natural entre a forma como a entrevista transcorreu e o tipo de transcrição de áudio que vá se adotar.

Formas de produzir transcrição de áudio


Identifico três formas de transcrever áudio: (1) transcrição automática; (2) transcrição por ditado; e (3) transcrição automática de áudio. s:

O primeiro tipo é a transcrição de áudio automática em que a legendagem automática do YouTube é o exemplo máximo. Em seguida vem a transcrição por ditado que é dependente de uma conexão com a internet estável e superior ou igual a 4M, além do Google Chrome pois é um API que depende do Motor de Reconhecimento de Fala do Google. Finalmente temos a transcrição de áudio por digitação, que pode ser na sua forma natural ou turbinada (por aplicativos expansores de texto). Cada tipo de transcrição de áudio merece uma postagem específica. Hoje trataremos só das transcrições realizadas por digitação.

Número de palavras digitadas por minuto na transcrição por digitação


O número de palavras digitadas por minuto na transcrição por digitaç tem variado entre 10 palavras por minuto a 60 palavras por minuto. Classifico os digitadores como :

Digitador 10 – 10 palavras por minuto – 600 palavras por hora

Digitador 20 – 20 palavras por minuto – 1,2 mil palavras por hora

Digitador 30 – 30 palavras por minuto – 1,8 mil palavras por hora

Digitador 40 – 40 palavras por minuto – 2,4 mil palavras por hora

Digitador 50 – 50 palavras por minuto – 3,0 mil palavras por hora

Digitador 60 – 60 palavras por minuto – 3,6 mil palavras por hora

Em cursos de datilografia se contavam os toques por minuto que uma pessoa conseguia produzir por minuto. Eram considerados excelentes datilógrafos em máquinas manuais aqueles que produzissem 180 toques por minuto. Ou seja, produzissem 40 palavras por minuto. Mantivemos essa classificação.

Porém a velocidade de digitação não basta no caso da transcrição de áudio: é necessário também ouvir o áudio e entender o que está sendo dito, interpretar, para depois digitar. Portanto, um digitador 40 seria o nível de velocidade mínima  necessária de velocidade para uma pessoa começar a transcrever.

Vamos supor que um transcritor consiga entender tudo o que está sendo dito sem necessidade de repetir o trecho do áudio, ou seja, voltar trechos para escutar de novo:

Nesse caso um digitador 40 com uma entrevista faixa 120 necessitaria de 3 minutos de digitação para cada minuto de áudio. Essa marca é excelente, seria possível fazer transcrição de entrevista em apenas 3 horas. Mas as notícias são ruins: é relativamente raro ocorrer uma entrevista faixa 120.

Vamos analisar o número de horas necessárias para digitar uma transcrição de áudio.

Transcritor digitador 40

Faixa 120 – 3h00min de digitação contínua

Faixa 130 – 3h15min de digitação contínua

Faixa 140 – 3h30min de digitação contínua

Para cada faixa acima o transcritor digitador 40 levará 15 minutos a mais de digitação para a mesma hora de transcrição. Já o transcritor digitador 50 gastará 12 minutos a mais enquanto o transcritor digitador 60 gastará 10 minutos a mais.

Assevero entretanto que transcritor digitador 40 já é um transcritor nível profissional, com pelo menos 200 horas transcritas. Um transcritor iniciante dificilmente passaria de digitador 20 isto porque precisamos gastar um tempo para ouvir o áudio e depois o tempo necessário para digitar o que foi ouvido sem errar, o que é uma tarefa quase impossível. E digo mais, é impossível uma pessoa digitar continuamente por três horas seguidas, a cada 45-50 minutos é recomendável parar para fazer exercícios para aliviar os ossos, tendões e músculos das mãos. Caso contrário os danos à saúde serão permanentes e a vida útil do transcritor diminuirá rapidamente prejudicando sua saúde.

Entrevistas ideais para transcrição de áudio por digitação


As entrevistas ideais para digitação são todas. Qualquer tipo de entrevista é ideal para digitação e a velocidade do trabalho de transcrição de áudio está limitada à experiência do transcritor e à sua velocidade de digitação. Portanto não há contraindicação para essa forma de transcrever.

Entrevistas ideais para a transcrição de áudio automática


Raras são as entrevistas ideais para a transcrição automática de áudio. Indicaria palestras muito bem gravadas ou aulas muito bem dadas. A legendagem automática se sairá melhor quando houver a transcrição automática de um falante apenas. Separar as falas dos falantes por si já tomaria um tempo a mais na revisão. É necessário ainda pontuar e corrigir palavras. Isso afetará o tempo de produção do revisor, que no caso é o profissional mais interessante para uma empresa de transcrição de áudio.

Uma legendagem de um vídeo no YouTube é feita em menos de 1 minuto, portanto a velocidade de digitação é estratosférica. O problema será aqui a velocidade da revisão e a quantidade de erros a corrigir, mais uma vez.

Entrevistas recomendadas para transcrição por ditado


A transcrição por ditado rende melhor quando a entrevista é semiestruturada e as respostas tendem a ser longas (acima de 2 minutos por resposta) além de haver pouca sobreposição de vozes. É necessário sinalizar os falantes, então há tempo gasto nisso. Muito bate-volta de perguntas e respostas rápidas acabam atrapalhando na hora da transcrever.

Palestras também são muito boas para transcrição por ditado ou até mesmo para transcrição automática´ de áudio, a depender da dicção do palestrante e da qualidade da gravação.

Conclusão


A transcrição de áudio por digitação é a panaceia para todas as transcrições de entrevistas. Ela pode ser exercida por uma pessoa de boa digitação, digitador 40 para cima. Gostaria de recomendar que você procurasse um site para medir sua capacidade de digitar palavras e verifique quantas palavras ou quantos toques você consegue fazer por minuto de digitação antes de se aventurar na transcrição de áudio.

Porém mesmo excelentes digitadores podem não se adaptar à atividade de transcrição de áudio.
Considero importante o digitador obter os seguintes conceitos: o conceito de expansor de texto – em inglês text expander – que é uma espécie de taquigrafia no teclado, e o uso da AutoCorreção, recurso presente no Word para programar uma série de atalhos para turbinar a sua digitação. Por exemplo "oqq. Ao digitar "oqq, em qualquer texto no Word, a configuração da AutoCorreção me traz como resultado "o que é que. Portanto digitei apenas três letras para resultar em quatro palavras com 9 toques. A digitação turbinada permite economizar 20% do tempo, o que permite ao digitador pular pelo menos uma faixa, passando de digitador 30 para 40 (turbinado) ou 40 para 50 (turbinado).


domingo, 29 de julho de 2018

A evolução de um transcritor de áudio



A evolução de um transcritor


A evolução de um transcritor vem com o tempo de experiência que ele vai acumulando em seu trabalho. Com a repetição da tarefa de digitar, o corpo começa a trabalhar sozinho, o corpo aprende a digitar. Também aprende a ouvir, começa a surgir uma misteriosa mas eficaz intuição ao ouvir as pessoas e parece que ganhamos o poder de adivinhar as próximas frases ditas pelos falantes. Neste artigo pretendo abordar os diferentes estágios de evolução pelo qual eu próprio passei. Então falarei de mim na primeira pessoa.
Este artigo contém 1.320 palavras aproximadamente e deve levar 7-8 minutos para ser lido.
Hora cheia e hora útil
Aqui acho importante chamar a sua atenção para o termo hora cheia e hora útil. Hora cheia é o período de 60 minutos efetivamente trabalhados, em que não largo o teclado. Hora útil é o período de 45 minutos em que não largo o trabalho, reservando 15 minutos para descanso. Portanto, a hora cheia tem 60 minutos e a hora útil tem 45 minutos de trabalho para 15 de descanso.
Transcritor iniciante
Quando comecei a acumular as primeiras horas de transcrição as horas parece que passavam rápido para o que eu conseguia digitar. Era um usuário do Pacote Office já há um bom tempo – usei muito Word e Excel na vida – era bom datilógrafo e sabia manejar o Windows Media Player.
Através das teclas Alt+Tab trocava as janelas do Word e do Windows Media Player para a cada vez digitar algumas palavras. O mouse acionava os botões stop, play e rexind, respectivamente parar, tocar e voltar, e o Alt+Tab me colocava de volta na tela do Word. Não sabia regular velocidade do Windows Media Player então o trabalho se arrastava lentamente.
Com a adoção de tão pouca tecnologia era natural que eu sofresse na hora de transcrever e produzisse algo em torno de 2 a 3 minutos por hora de trabalho nas primeiras transcrições.
Trabalhava 12 horas para receber por dia de trabalho para produzir decepcionantes 60 minutos transcritos e revisados. Minha produtividade era baixa e o nível de acertos girava em torno de 60-70%, o que me obrigava a revisar mais de uma vez o meu trabalho.
Converso com algumas pessoas eventualmente pelo Facebook e as pessoas me dizem anos depois que ainda gostariam de transcrever. Quando pergunto quais as ferramentas que eles usam, ainda estão parados no Windows Media Player pois conseguiram um emprego na época e pararam de transcrever. Agora, desempregados, voltam à atividade. Provavelmente na primeira oportunidade voltarão para o mercado de trabalho, pois não se ganha muito sendo freelancer em transcrição de áudio. Resultados parciais são alcançados para esforços parciais; teremos chance de ter uma recompensa quando cavamos a fundo. Existem minas de diamante com quilômetros de profundidade.
Resumindo a tecnologia utilizada, Word (editor de textos da Microsoft), Windows Media Player (Microsoft) e internet. Produtividade: 2-3 minutos por hora cheia de trabalho. Taxa de acertos 60-70% na transcrição.
Caso: a transcritora que copiava
Certa vez passou por mim uma pessoa muito boazinha mas que não era tão boa transcritora. Passei a dar feedbacks das minhas revisões colorindo os erros que ela estava cometendo de amarelo e de verde os acertos que estava promovendo. Ela errava bastante mas como era boa pessoa não conseguia suspender o serviço dela. Para a minha surpresa após esse feedback detalhado a transcrição dela passou por uma revolução, a qualidade subiu bastante. Intrigado fui perguntar e para a minha surpresa, a solução que ela achara foi a seguinte. Primeiro ela transcrevia a caneta (na mão) para depois digitar. Era um processo extremamente desgastante e pouco rentável mas a qualidade melhorou. Tempos depois ela sumiu e voltou anos mais tarde. Curioso perguntei que softwares estava usando para transcrever e a resposta foi "Windows Media Player, e Word. Com tanta inocência pedi que ela fizesse nosso curso de transcrição de áudio que oferecia na época antes de fazer o exame de reingresso. Ela nunca topou fazer o exame, mas ainda mantém boa relação comigo.
Transcritor pleno
O transcritor pleno já descobriu os benefícios do Express Scribe, um tocador de áudio da www.nch.com.au (NCH Software). Percebendo que é possível trabalhar sem precisar usar a tecla Alt+Tab para ficar intercalando janelas entre Word e Express Scribe, pois o whorkshop permite através das teclas F1-F12 tomar o comando das teclas play, pouse, stop, rewind, foward e outras tarefas como a marcação de minutos automática, minha produtividade passou de 2-3 minutos por hora cheia para 8-10 minutos por hora cheia. Foi uma revolução na minha vida de transcritor.
Ao mesmo tempo tomei contato com o conceito de expansor de texto – em inglês é text expander – em que ao digitar "vc, pex, aparecia "você. É o que fazemos ao mandar mensagens pelo celular, abreviamos tudo. O expansor de textos permitia atribuir palavras ou frases inteiras (assinaturas com negrito e tudo mais) acionando a sequência desejada de teclas.
Por exemplo, "oqqvq, eu uso para "o que é que você quer, economizando um bom número de toques. Com isso passei a digitar 40% menos e ganhei 20% de velocidade de digitação. Foi necessário gastar horas para cadastrar todos os atalhos para cada palavra recorrente que aparece em minhas transcrições, hoje estou na casa de 28. Mil atalhos cadastrados.
O resultado de toda essa tecnologia adicionada fez a velocidade de produção chegar a 15 minutos por hora cheia trabalhada. Durante um tempo o índice de erros piorou devido aos erros de cadastro de atalhos, mas subiu de modo geral para 70-80% de acertos.
Caso: tive que desinstalar o Windows e perdi os atalhos
Isso aconteceu comigo algumas vezes. O Windows andou muito instável nos primeiros meses das versões 7-8-10 e as reinstalações eram de certa forma frequentes. Existem pastas de arquivos DLL que podem ser copiadas para um pendrive para resguardar seus atalhos. Vale a pena pesquisar sobre isso, para se necessário reinstalar o Word novamente, ter essas DLLs salvas para copiar por cima da DLL reinstalada de modo a restaurar os atalhos.
Resumindo, o transcritor pleno, já munido com maior tecnologia embarcada em seu notebook – Express Scribe, Word e recursos de atalho manualmente adicionados – tem como recompensa uma digitação mais rápida e menor quantidade de erros por hora transcrita. Minha produtividade passou de 10-12 para 12-15 minutos por hora útil.
Transcrição sênior
Ao transcritor sênior já aconteceu de quase tudo, viu quase tudo o que pode aparecer de desafios na transcrição de áudio, desde áudios muito bons até áudios péssimos. Sua intuição de escuta aperfeiçoada durante anos de trabalho, a digitação mais leve, a descoberta de equipamentos novos que diminuem a fadiga (teclados mecânicos e pedais de transcritor) assim como a descoberta de funcionalidades interessantes tanto no Express Scribe como Word me elevaram a produção a 15-20 minutos por hora útil, ou seja a cada 45 minutos consigo realizar até 20 minutos de transcrição.
Os índices de acerto tem variado entre 85-92% na fase de transcrição, e o que uso hoje para transcrever inclusive o recurso de Digitação Por Voz do Google Docs – que muita gente chama de transcrição automática – e coleciono macros, recursos do Visual Basic para fazer AutoCorreções padrão necessárias para ajustar vários erros que o Google comete na hora de transcrever.
A tecnologia e o know how acumulados permitem hoje não ganhar mais dinheiro, mas sobrar mais tempo para continuar a pesquisar um assunto fascinante que parece que não tem fim: a transcrição automática vem ganhando poderosas ferramentas tanto no IOS quanto no Android e fico animado para o que vem pela frente.
Transcritor do futuro
cada vez mais a digitação estará relegado ao segundo plano. O avanço da transcrição automática e o aperfeiçoamento dos algoritmos de reconhecimento de fala reduziram significativamente o tempo de produção de uma transcrição de áudio, mas existe a contrapartida, aumentará o trabalho de revisão. Boa notícia para nós, que sempre nos esforçamos em revisar bem o material entregue ao cliente.

Transcrição de áudio e transcrição de entrevistas


A transcrição de entrevistas é uma das formas de transcrição. Existe transcrição de documentos somente existentes em papel, onde o conteúdo do documento antigo é digitado. Existe também a transcrição de vídeo que além de digitação pode ser encomendada a descrição da cena em que ocorre o diálogo. Finalmente a transcrição de áudio, que consiste em digitar os diálogos dos falantes.
E aí mora a grande diferença entre o que chamamos de transcrição de entrevista e transcrição de áudio: na transcrição de entrevistas o entrevistado sabe que está sendo gravado, há um consentimento ao registro em um gravador do diálogo a ser obtido. Já a transcrição de áudio envolve escutas telefônicas oficiais ou clandestinas, assim como sessão de julgamento de tribunal e outros eventos que não tratam de entrevista, como palestras.
A atividade de entrevistar alguém para depois transcrever faz do transcritor um parceiro de quem grava. A boa e correta transcrição depende de uma boa gravação, além do conhecimento do transcritor do assunto que está sendo tratado. Assim sendo, quanto maior a experiência do profissional sobre o assunto, melhor será a qualidade da transcrição, qualidade esta somente percebida quando o entrevistador ou o cliente recebe o material transcrito e confere o que foi digitado ouvindo o conteúdo do áudio.
A transcrição de áudio automática
Já de alguns anos para cá tem muito vídeo no YouTube e há a proliferação de APPs que são capazes de reconhecer a fala dos falantes. É de onde surge a legendagem automática do próprio YouTube e o uso do API de reconhecimento de fala do Google que funciona somente em Android e Google Chrome.
Existem dois problemas importantes com relação à transcrição automática de áudio. O primeiro grande obstáculo à automatização da transcrição é a qualidade da gravação e a dicção das pessoas que devem ser quase perfeitas e sem muitos termos estrangeiros.
Ambos, YouTube e API de reconhecimento de fala, usam o que chamamos de motor de reconhecimento de fala do Google, que está em um excelente momento de proliferação através de celulares e do próprio Google Chrome. Muitos aplicativos como Dictanote, Speech to Text, Áudio To Text e outros circulam baseados no motor Google, mas esbarram na qualidade do áudio.
A legendagem automática por sua vez acaba por escrever tudo com letras minúsculas, o que exige uma revisão exaustiva e demorada, muitas vezes compensando transcrever por digitação.
Já o API Google tenta reconhecer palavras de acordo com o contexto e em nomes próprios, nomes de países, cidades e outras palavras consegue colocar a legra maiúscula corretamente. Isso às vezes pode atrapalhar, pois acabam ocorrendo erros na programação linguística e palavras que não deveriam estar com letras capituladas (letras maiúsculas) ocorrem sem necessidade.
Mas ambos têm um ponto fraco, não conseguem reconhecer a pontuação, que ocupa entre 15 a 20% de um texto escrito, o que acaba elevando a necessidade de intervenções do revisor. A depender do nível de erros, onde se demora 5-6 segundos para fazer cada correção, o tempo gasto nessa etapa pode ser tão grande quanto a transcrição de áudio por digitação.
Transcrição de áudio por digitação
Ainda não inventaram melhor forma de transcrever um áudio do que um ser humano ficar digitando por horas a fio em longas jornadas para produzir 60 a 80 minutos de transcrição diária. A depender da experiência e do capricho da pessoa, como também o estado emocional,dela, a transcrição frequentemente apresenta altos índices de qualidade superiores a 99% de acertos. Para isso é preciso paciência, disciplina e capricho.
A transcrição de entrevistas desfavorece a transcrição automática
Esta é uma má notícia para quem alega que transcrever é fácil. Primeiro, o Google não reconhece bem quando há duas ou mais vozes dentro de uma gravação. São necessários alguns segundos para o mecanismo Google reconhecer uma pessoa. Como a velocidade da fala varia entre 2 a 4 palavras por segundo, alguns segundos podem gerar várias palavras sem transcrever, pois o aplicativo para de transcrever automaticamente.
Assim não ocorre uma transcrição de entrevista de forma automática, mas é necessário ter um operador que acompanhe a digitação automática. De todos os transcritores que conheço,nenhum deles se mostrou satisfeito com o índice de acertos do Google quando este é posto para transcrever automaticamente entrevistas.
A existência de duas ou mais vozes inviabiliza a transcrição de entrevistas automaticamente.
Transcrição automática de telefonemas
Call centers geram horas e horas de áudio a serem transcritos. Seria muito caro fazer a transcrição humana digitando tudo. Neste caso de call center, é possível automatizar a transcrição da ligação da seguinte forma: gravar o diálogo entre os dois em canais separados. Então o mecanismo reconheceria uma voz de cada vez e depois mesclaria de acordo com o tempo decorrido. De outra forma, não consigo visualizar como daria certo uma transcrição automática de telefonemas em call centers.
Transcrição de entrevistas e transcrição de áudio
Falamos um pouco de cada um deles, a transcrição de entrevistas é um desafio para a transcrição por máquina devido à diferença de vozes, mas também ao fenômeno de sobreposição de falas: duas pessoas podem falar juntas. E aí pelo menos por enquanto somente o transcritor humano consegue reconhecer a fala de cada um e transcrever separadamente cada fala, mesmo que isso acabe custando mais tempo para realizar a transcrição.
A comunicação oral é repleta de nuances como sotaque, interação entre as partes, falhas de gravação, má qualidade dos áudios gravados entre inúmeros outros fatores.
Mas o que mais gerará qualidade em uma transcrição de entrevistas é o revisor fazer corretamente o seu trabalho de orientar o transcritor e treiná-lo para que este também se desenvolva nessa atividade absolutamente artesanal que é a transcrição de áudio em texto.

Exemplo de transcrição de áudio supereditada

A transcrição de áudio supereditada traz cortes e intervenções mais vigorosas do transcritor-revisor sobre o conteúdo do áudio a ser trans...