Nova geração do StepAudio 2.5 ASR revoluciona a transcrição de áudio com IA
A empresa chinesa Jueyue Xingchen (阶跃星辰) anunciou o lançamento do StepAudio 2.5 ASR, sua nova geração de modelo de reconhecimento automático de fala (ASR). A grande inovação reside na aplicação de tecnologias de aceleração de inferência de grandes modelos de linguagem (LLMs) ao campo do reconhecimento de voz, resultando em melhorias significativas tanto na velocidade de processamento quanto na precisão da transcrição. O foco principal é atender a cenários como transcrição de reuniões, interação por voz, métodos de entrada de texto, processamento de conteúdo de mídia e reconhecimento de áudio de longa duração.
Os modelos tradicionais de reconhecimento de voz, limitados por mecanismos de geração auto-regressivos, processam o áudio token por token, o que os torna relativamente lentos. O StepAudio 2.5 ASR adota uma arquitetura de fusão profunda ASR+MTP-5, integrando a tecnologia MTP (Multi-Token Prediction – previsão de múltiplos tokens) – anteriormente utilizada no modelo Flash Step 3.5 – ao domínio do reconhecimento de voz. Essa técnica permite que o modelo preveja múltiplos tokens candidatos simultaneamente e, através de um mecanismo de verificação paralela, confirme rapidamente os resultados, superando a ineficiência da abordagem auto-regressiva tradicional.
Testes práticos demonstram um aumento de 400% na velocidade de inferência, uma redução de 60% na latência, com picos de inferência atingindo 500 tokens por segundo. O custo de inferência também diminuiu drasticamente, em 80%. Com um arquivo de áudio ou vídeo de aproximadamente 5 minutos, a transcrição em tempo real se torna uma realidade.
Em termos de precisão, o StepAudio 2.5 ASR alcançou níveis de precisão SOTA (State-of-the-Art – estado da arte) em diversos conjuntos de testes de referência em inglês e chinês, abrangendo notícias, entrevistas e ambientes com ruído intenso. A taxa de erro geral em 10 conjuntos de testes abertos em inglês e chinês, como o LibriSpeech, foi inferior à de seus concorrentes.
Um dos desafios históricos no reconhecimento de voz é o processamento de áudio de longa duração. A solução comum, “dividir-transcrever-juntar”, envolve a segmentação do áudio em partes menores, a transcrição individual de cada parte e, em seguida, a concatenação dos resultados. No entanto, essa abordagem pode levar à perda de informações contextuais, pois o modelo pode “esquecer” o início do áudio ao transcrever as partes finais. O StepAudio 2.5 ASR aproveita a capacidade nativa de janela de contexto de 32K dos grandes modelos de linguagem, permitindo a leitura de até 30 minutos de áudio contínuo de ponta a ponta, sem a necessidade de segmentação. Em testes com 30 minutos de áudio, o modelo não apresentou perda de precisão ao longo do tempo.
O preço do StepAudio 2.5 ASR é de apenas 0,15 yuan por hora, aproximadamente um décimo do custo do Step ASR 2. Atualmente, o modelo está totalmente disponível na plataforma aberta Jueyue Xingchen e no Step Plan, permitindo que desenvolvedores o experimentem através do site oficial.
Você pode conferir mais sobre as novidades do mundo da tecnologia em nosso site. Veja, por exemplo, as previsões sobre os novos produtos da Apple.
📝 Nota do Especialista Tec Arena
O StepAudio 2.5 ASR representa um avanço significativo no campo do reconhecimento de voz, especialmente pela aplicação de técnicas de otimização de LLMs. A capacidade de processar áudio de longa duração sem perda de contexto é um diferencial importante, e o preço competitivo o torna uma opção atraente para desenvolvedores. No entanto, é crucial ressaltar que, até o momento, não há informações sobre a disponibilidade oficial do StepAudio 2.5 ASR no Brasil. A empresa Jueyue Xingchen é chinesa e a expansão para o mercado brasileiro ainda não foi anunciada. Portanto, desenvolvedores e empresas brasileiras interessadas precisarão monitorar a situação ou entrar em contato diretamente com a empresa para verificar a possibilidade de acesso ao serviço.
Via: IT之家

