Pular para o conteúdo principal

Formas de fazer transcrição de áudio

Identifico três formas de fazer transcrição de áudio de acordo com ordem crescente de tecnologia: (1) a transcrição por digitação; (2) a transcrição por ditado; e (3) a transcrição automática de áudio que também é chamado de transcrição por máquina. Vamos comparar a produtividade de cada uma das formas de transcrição de áudio levando em conta o modus operandi de transcrever-revisar-revsar que faz parte do protocolo de manutenção de qualidade de transcrição de áudio de Transcritor.
Este artigo contém 890 palavras aproximadamente. O tempo de leitura deve ser 5 minutos.
Projeto Paul Singer de medição de transcrição
O Projeto Paul Singer de medição de transcrição foi realizado em julho de 2018. Um transcritor sênior foi convidado e transcreveu um programa da TV Senado de 53,8 minutos (incluindo as vinhetas). O tempo de produção foi medido, o tempo de revisão foi medido e anotados os erros. Por extrapolação obtivemos (dados arredondados) as seguintes informações.
180 minutos – transcrição
150 minutos – tempo de revisão 1
70 minutos – tempo de revisão 2
1300 erros corrigidos na 1ª revisão
270 erros corrigidos na 2ª revisão
5 segundos foi o tempo necessário para corrigir cada erro em média
50 erros restantes – acerto de 99,4%
É importante salientar que o programa foi dividido em três blocos com diferentes tempos de duração e que os profissionais envolvidos no projeto mediram o tempo sem interrupção no trabalho. Entre cada bloco houve um período de descanso, pois cada bloco com isso produzido e revisão em dias diferentes, porquanto é impossível alguém digitar 180 minutos sem parar com velocidade de 50 palavras por minuto.
Nesse trabalho o transcritor usou e abusou de técnicas de digitação por atalho (com o recurso do Word chamado AutoCorreção), tendo cadastrado 28 mil palavras.
Transcrição de áudio por ditado
A transcrição de áudio por ditado usou a Técnica do Papagaio, que é ouvir o áudio e repetir no microfone o que foi falado. Somente assim é possível inserir a pontuação durante a Digitação por Voz disponível no Google Docs (ver menu Ferramentas – Digitação por voz). Portanto trata-se de uma transcrição por ditado, onde declaramos a pontuação dizendo onde ocorrem as vírgulas e os pontos finais,entre outros elementos.
A velocidade de transcrição aumentou para 30 minutos por hora, porém o índice de erros cresceu para 20%. O número de erros foi maior e consequentemente maior o tempo de revisão (os números são projeções baseadas nas medições do Projeto Paul Singer):
120 minutos – transcrição
210 minutos – tempo de revisão 1
90 minutos – tempo de revisão 2
1800 erros corrigidos na 1ª revisão
360 erros corrigidos na 2ª revisão
5 segundos foi o tempo necessário para corrigir cada erro em média
90 erros restantes – acerto de 99%
Comparando-se o tempo de produção de uma transcrição de áudio digitada de forma turbinada com a digitação por ditado temos:
Transcrição – 180 X 120
Revisão 1 – 150 X 210
Revisão 2 – 70 X 90
Total T+R1+R2 – 400 exemplo 420
Aqui chega-se a conclusão de que os dois processos são equivalentes em tempo total de produção com diferença de 5% no tempo total de trabalho empregado. Entretanto, a transcrição por ditado tem a vantagem de poupar os dedos, o que não é desprezível. Na quantidade de erros, a transcrição de áudio por digitação é francamente superior.
Nota importante: esse nível de erros só foi possível devido a uma série de rotinas dentro do Word que têm por finalidade corrigir 700 erros-padrão do Google cadastrados e a pontuação ditada que foi transformada em sinais de pontuação. Ao se falar a pontuação, o Word substitui a palavra por símbolos adequados e promove a capitulação através de macros em determinada ordem de execução. O uso da tecnologia favorece o transcritor dedicado a estudar e aprender sore seu ofício.
Transcrição automática de áudio
A transcrição automática de áudio, também conhecida como transcrição por máquina, tem como exemplo máximo a legendagem automática do YouTube. Esse recurso reconhece as falas dos falantes separadamente mesmo que gravados em monocanal.
A sua desvantagem é que 15 minutos de gravação gera mais de 1.250 mil linhas de pequenas frases que aparecem na tela. Todas elas têm que ser consolidadas, gerando daí pelo menos 5 mil segundos para ajuste. A transcrição de áudio ocorre instantaneamente, mas a ausência de pontuação e a necessidade de capitular as letras e corrigir os erros leva a 40% de erros (15% vem da pontuação e 25% de correções).
1 minuto – extração da legenda
4.050 erros são estimados
400 minutos – tempo de revisão 1
125 minutos – tempo de revisão 2
4050 erros corrigidos na 1ª revisão
810 erros corrigidos na 2ª revisão
5 segundos foi o tempo necessário para corrigir cada erro em média
160 erros restantes – acerto de 98,8%
Os 4 mil erros que encontramos na revisão 1 que levaria 400 minutos praticamente, já compromete a produtividade da legendagem automática. Esse resultado foi para um áudio muito bom gravado em estúdio com 3 falantes, produzindo 150 palavras por minuto.
Além de ter levado 525 minutos, contra os 400 minutos da transcrição por digitação turbinada e 420 minutos da transcrição por ditado, apresentou um erro residual provável de 1,8%, o que o cliente pode entender como uma transcrição ruim pois a cada 50 palavras ele terá que fazer uma intervenção, gastando cerca de 74 minutos em sua revisão final, quando o ideal seria ele gastar 63 minutos. 

Comentários

Postagens mais visitadas deste blog

Exemplo de transcrição de áudio acadêmica

O que é transcrição de áudio literal acadêmica? Trata-se de uma adaptação da transcrição de áudio literal jurídica. Apenas adotamos os cortes de "né", "tá", e gaguejos são minimizados. Frases incompletas são cortadas se percebemos que não trazem contribuição ao contexto. Este artigo tem 770 palavras aproximadamente e deve levar 4 minutos para ser lido. Transcrição de áudio literal acadêmica A transcrição de áudio literal acadêmica não permite corte de "né", "tá", assim como corte de gaguejos (minimizando-as ou suprimindo-as) e frases incompletas são suprimidas. A exemplo dos cortes de "expressões de assentimentos demonstrando compreensão, do juiz também promovemos esses cortes. Já "pra, e "pro, são convertidos para a forma ortográfica correta "para, e "para o. Essas são as diferenças entre transcrição de áudio literal jurídica e transcrição de áudio literal acadêmica. Representação dos falantes

Quantidade de palavras em transcrição de entrevistas

Quantidade de palavras em transcrição de entrevista A quantidade de palavras em transcrição de entrevista difere da quantidade de palavras de outros tipos de transcrição de áudio. Sua estrutura difere de uma conversa telefônica ou uma conversa informal em gravação oculta. A transcrição de entrevista tem uma dinâmica própria e aqui nos atemos aos números levantados em uma entrevista de programa de televisão: o Agenda Econômica da TV Senado. Vamos falar de quantidade de palavras em transcrição de entrevista, ou seja quantas palavras por minuto uma pessoa fala e quantas palavras conseguimos anotar em diferentes formas de produzir uma transcrição de áudio. A transcrição de áudio pode ser produzida por digitaç , automática e por ditado. Farei considerações sobre a facilidade que encontrei para cada forma de produzir a transcrição na transcrição de entrevista. Número de palavras em transcrição de entrevistas O número de palavras produzidas em uma entrevista varia de acord

Exemplo de transcrição de áudio supereditada

A transcrição de áudio supereditada traz cortes e intervenções mais vigorosas do transcritor-revisor sobre o conteúdo do áudio a ser transcrito. Concordância nominal e verbal recebem atenção adequada, assim como são eliminados os gaguejos, os "né", "tá", e expressões do cotidiano como o "tá bom" é trocado por "está bem". Este artigo tem 450 palavras e você deve levar em torno de 2,5 minutos para ler. O desencanto dos leitores O desencanto dos leitores ao receberem o conteúdo da gravação transcrita transpareceu algumas vezes para nós. Assim como já expressaram alguns supervisores que tive que me aconselharam a não usar "pra" e "pro", porque segundo eles "o leitor disse que não fala errado". E foi por esta razão que passamos a adotar a versão da transcrição de áudio supereditada. A expressão "a gente faz" por exemplo é trocada por "nós fazemos", "promoveu elas" por "pr