segunda-feira, 30 de julho de 2018

Formas de fazer transcrição de áudio

Identifico três formas de fazer transcrição de áudio de acordo com ordem crescente de tecnologia: (1) a transcrição por digitação; (2) a transcrição por ditado; e (3) a transcrição automática de áudio que também é chamado de transcrição por máquina. Vamos comparar a produtividade de cada uma das formas de transcrição de áudio levando em conta o modus operandi de transcrever-revisar-revsar que faz parte do protocolo de manutenção de qualidade de transcrição de áudio de Transcritor.
Este artigo contém 890 palavras aproximadamente. O tempo de leitura deve ser 5 minutos.
Projeto Paul Singer de medição de transcrição
O Projeto Paul Singer de medição de transcrição foi realizado em julho de 2018. Um transcritor sênior foi convidado e transcreveu um programa da TV Senado de 53,8 minutos (incluindo as vinhetas). O tempo de produção foi medido, o tempo de revisão foi medido e anotados os erros. Por extrapolação obtivemos (dados arredondados) as seguintes informações.
180 minutos – transcrição
150 minutos – tempo de revisão 1
70 minutos – tempo de revisão 2
1300 erros corrigidos na 1ª revisão
270 erros corrigidos na 2ª revisão
5 segundos foi o tempo necessário para corrigir cada erro em média
50 erros restantes – acerto de 99,4%
É importante salientar que o programa foi dividido em três blocos com diferentes tempos de duração e que os profissionais envolvidos no projeto mediram o tempo sem interrupção no trabalho. Entre cada bloco houve um período de descanso, pois cada bloco com isso produzido e revisão em dias diferentes, porquanto é impossível alguém digitar 180 minutos sem parar com velocidade de 50 palavras por minuto.
Nesse trabalho o transcritor usou e abusou de técnicas de digitação por atalho (com o recurso do Word chamado AutoCorreção), tendo cadastrado 28 mil palavras.
Transcrição de áudio por ditado
A transcrição de áudio por ditado usou a Técnica do Papagaio, que é ouvir o áudio e repetir no microfone o que foi falado. Somente assim é possível inserir a pontuação durante a Digitação por Voz disponível no Google Docs (ver menu Ferramentas – Digitação por voz). Portanto trata-se de uma transcrição por ditado, onde declaramos a pontuação dizendo onde ocorrem as vírgulas e os pontos finais,entre outros elementos.
A velocidade de transcrição aumentou para 30 minutos por hora, porém o índice de erros cresceu para 20%. O número de erros foi maior e consequentemente maior o tempo de revisão (os números são projeções baseadas nas medições do Projeto Paul Singer):
120 minutos – transcrição
210 minutos – tempo de revisão 1
90 minutos – tempo de revisão 2
1800 erros corrigidos na 1ª revisão
360 erros corrigidos na 2ª revisão
5 segundos foi o tempo necessário para corrigir cada erro em média
90 erros restantes – acerto de 99%
Comparando-se o tempo de produção de uma transcrição de áudio digitada de forma turbinada com a digitação por ditado temos:
Transcrição – 180 X 120
Revisão 1 – 150 X 210
Revisão 2 – 70 X 90
Total T+R1+R2 – 400 exemplo 420
Aqui chega-se a conclusão de que os dois processos são equivalentes em tempo total de produção com diferença de 5% no tempo total de trabalho empregado. Entretanto, a transcrição por ditado tem a vantagem de poupar os dedos, o que não é desprezível. Na quantidade de erros, a transcrição de áudio por digitação é francamente superior.
Nota importante: esse nível de erros só foi possível devido a uma série de rotinas dentro do Word que têm por finalidade corrigir 700 erros-padrão do Google cadastrados e a pontuação ditada que foi transformada em sinais de pontuação. Ao se falar a pontuação, o Word substitui a palavra por símbolos adequados e promove a capitulação através de macros em determinada ordem de execução. O uso da tecnologia favorece o transcritor dedicado a estudar e aprender sore seu ofício.
Transcrição automática de áudio
A transcrição automática de áudio, também conhecida como transcrição por máquina, tem como exemplo máximo a legendagem automática do YouTube. Esse recurso reconhece as falas dos falantes separadamente mesmo que gravados em monocanal.
A sua desvantagem é que 15 minutos de gravação gera mais de 1.250 mil linhas de pequenas frases que aparecem na tela. Todas elas têm que ser consolidadas, gerando daí pelo menos 5 mil segundos para ajuste. A transcrição de áudio ocorre instantaneamente, mas a ausência de pontuação e a necessidade de capitular as letras e corrigir os erros leva a 40% de erros (15% vem da pontuação e 25% de correções).
1 minuto – extração da legenda
4.050 erros são estimados
400 minutos – tempo de revisão 1
125 minutos – tempo de revisão 2
4050 erros corrigidos na 1ª revisão
810 erros corrigidos na 2ª revisão
5 segundos foi o tempo necessário para corrigir cada erro em média
160 erros restantes – acerto de 98,8%
Os 4 mil erros que encontramos na revisão 1 que levaria 400 minutos praticamente, já compromete a produtividade da legendagem automática. Esse resultado foi para um áudio muito bom gravado em estúdio com 3 falantes, produzindo 150 palavras por minuto.
Além de ter levado 525 minutos, contra os 400 minutos da transcrição por digitação turbinada e 420 minutos da transcrição por ditado, apresentou um erro residual provável de 1,8%, o que o cliente pode entender como uma transcrição ruim pois a cada 50 palavras ele terá que fazer uma intervenção, gastando cerca de 74 minutos em sua revisão final, quando o ideal seria ele gastar 63 minutos. 

Nenhum comentário:

Postar um comentário

Exemplo de transcrição de áudio supereditada

A transcrição de áudio supereditada traz cortes e intervenções mais vigorosas do transcritor-revisor sobre o conteúdo do áudio a ser trans...