
1. O gargalo da IA por turno
2. O que são Interaction Models?
3. Mira Murati e a aposta da Thinking Machines Lab
4. Como a arquitetura dos Interaction Models funciona
5. Funcionalidades nativas que mudam a colaboração
6. Benchmarks: a latência que separa mundos
7. O que isso significa para empresas
Os Interaction Models chegam como a primeira grande aposta pública da Thinking Machines Lab: uma classe de sistemas de IA projetados para colaborar em tempo real, sem as pausas do modelo por turno que domina o mercado.
Durante anos, os laboratórios de IA mediam progresso por um único eixo, o da ineligência. Mais parâmetros, mais dados, mais contexto. O resultado foram modelos capazes de resolver problemas complexos, mas que ainda operam como uma caixa postal: você envia uma mensagem, aguarda a resposta, corrige e envia outra. Para sistemas que prometem colaborar com equipes humanas, isso é um paradoxo difícil de ignorar.
A Thinking Machines Lab, startup liderada por Mira Murati — ex-CTO da OpenAI e uma das principais responsáveis pelo lançamento do ChatGPT, DALL-E e Sora — apresentou em maio de 2026 um research preview dessa nova abordagem. A proposta: sistemas de IA que processam áudio, vídeo e texto em tempo real, percebem contexto, interrompem quando necessário e agem em paralelo enquanto a conversa acontece.
A proposta não é construir um chatbot mais esperto. É repensar como humanos e máquinas trabalham juntos, e esse passo pode redefinir o que chamamos de interface de IA.
Os modelos de linguagem atuais operam em uma lógica sequencial: o usuário fala ou digita, o modelo processa e o modelo responde. Enquanto gera sua resposta, a percepção do modelo congela, ou seja, ele não recebe novas informações até terminar ou ser interrompido. É o equivalente digital de tentar resolver uma crise por troca de e-mails: funcional, mas distante do que a colaboração real exige.
Esse formato cria o que a Thinking Machines Lab chama de "gargalo de colaboração". Em situações de trabalho real, os usuários raramente conseguem especificar todos os requisitos de uma tarefa antes de iniciá-la. Bons resultados dependem de um processo contínuo de ajuste, correção e feedback ao longo do caminho. Os modelos atuais, ao exigir instruções completas antes de agir, acabam empurrando o humano para fora do processo.
O paradoxo é profundo: quanto mais complexa a tarefa, mais a IA deveria precisar da presença humana, mas o design atual a remove exatamente nesses casos. Agentes que rodam de forma autônoma por horas podem produzir resultados expressivos, mas qualquer desvio de rota durante a execução só é corrigido quando o usuário revisa o output final. Quem trabalha com IA agêntica reconhece esse ciclo: instrução, espera, revisão, correção.
O problema não é que os modelos sejam lentos. É que a interface não tem espaço para a presença humana, e esse é fundamentalmente um problema de design, não de inteligência.
Interaction Models são sistemas de IA treinados nativamente para interatividade em tempo real. Em outras palavras, eles incorporam essa função em sua base, diferente de modelos adaptados externamente para simular essa capacidade. A distinção é técnica, mas as consequências práticas são significativas.
Segundo a Thinking Machines Lab, modelos convencionais incorporam interatividade via harness: componentes externos costurados para emular interrupções, multimodalidade ou simultaneidade. Esse é um atalho de engenharia que funcionou até agora, mas que impõe limites estruturais ao que a colaboração pode ser. Mais importante: sistemas construídos com harnesses não escalam da mesma forma que modelos nativos. À medida que os modelos ficam mais inteligentes, a inteligência adicional não se traduz automaticamente em melhor interatividade.
Nesses novos sistemas, a interatividade é parte do próprio modelo desde o treinamento. O mecanismo processa entradas contínuas de áudio, vídeo e texto em micro-turnos de 200 milissegundos, percebendo e respondendo em loop, sem as pausas de alternância de turno características dos concorrentes. Para dimensionar a diferença: enquanto a média humana de troca de turno em conversa é de 200ms, o Interaction-Small da Thinking Machines opera a 400ms, ante 590ms do GPT-realtime-1.5 e 570ms do Gemini-3.1-flash-live.
Leia também: Inteligência Artificial: entenda tudo sobre o assunto
Mira Murati foi CTO da OpenAI por cinco anos, período em que supervisionou o desenvolvimento do ChatGPT, do DALL-E e do Sora — três dos produtos de IA mais influentes da última década. Ao fundar a Thinking Machines Lab em 2024, ela carregou uma hipótese central: os modelos ficaram mais inteligentes, mas a forma como interagimos com eles não evoluiu na mesma proporção.
A empresa levou 18 meses trabalhando em silêncio antes de fazer seu primeiro anúncio público. O research preview dos Interaction Models é, portanto, o primeiro posicionamento explícito da Thinking Machines Lab sobre onde enxerga a maior oportunidade não explorada do campo.
Murati sintetizou a filosofia por trás dessa escolha ao afirmar que "a forma como trabalhamos com IA importa tanto quanto o quão inteligente ela é". Mais do que um princípio de design, essa frase indica uma aposta estratégica direta contra a tendência dominante de medir progresso quase exclusivamente por benchmarks de raciocínio e autonomia.
A arquitetura da solução opera em dois níveis. O modelo de interação principal processa os fluxos contínuos de entrada e responde em tempo real, mantendo a conversa ativa. Um segundo modelo, rodando em segundo plano, cuida de tarefas que exigem raciocínio mais aprofundado: pesquisa, uso de ferramentas, navegação na web e geração de interfaces. Os resultados desse trabalho paralelo são integrados à conversa conforme ficam prontos.
Essa separação entre velocidade de resposta e profundidade de processamento resolve um dos maiores dilemas da IA conversacional: ser rápido sem sacrificar capacidade. O modelo principal mantém o ritmo da conversa; o modelo auxiliar amplia o que pode ser feito enquanto essa conversa acontece. É uma arquitetura que entrega velocidade e profundidade em paralelo, superando outras ferramentas que geralmente se limitam a escolher um desses atributos.
O design em micro-turnos de 200ms é especialmente relevante do ponto de vista técnico. Modelos sequenciais estão limitados pela duração de cada turno: quanto mais longo o input, maior a latência antes de qualquer resposta. O novo sistema processa continuamente, o que significa que começa a perceber e reagir ao que está acontecendo muito antes de o usuário terminar de falar.
Por ter a interatividade integrada ao próprio treinamento, os Interaction Models desbloqueiam capacidades que seriam difíceis ou inviáveis de implementar via camadas externas:
Gestão de diálogo integrada. O modelo percebe implicitamente se o usuário está pensando, cedendo a palavra, se corrigindo ou esperando uma resposta — sem componente separado de gestão de diálogo. A conversa flui como uma troca humana, não como um sistema de tickets.
Intervenções verbais e visuais. O sistema intervém no momento contextualmente adequado, não apenas quando o usuário termina de falar. Ele detecta postura, expressão e sinais não verbais capturados pelo vídeo para calibrar quando e como reagir.
Fala simultânea. Usuário e modelo podem falar ao mesmo tempo, o que abre espaço para aplicações como tradução simultânea em tempo real — algo estruturalmente inviável em sistemas por turno.
Consciência temporal. O modelo tem uma percepção direta do tempo decorrido, permitindo reações programadas por tempo, como alertas durante uma apresentação ou sugestões calibradas pela duração de uma tarefa.
Uso de ferramentas em paralelo. Enquanto conversa, o modelo pode pesquisar na web, navegar em páginas e gerar interfaces de usuário, integrando os resultados à interação conforme ficam disponíveis.
O efeito combinado dessas capacidades cria uma experiência que parece mais com colaboração do que com prompting — e essa diferença de percepção tem implicações diretas para a adoção corporativa de IA.
Leia também: Claude Design: o que é, como funciona e o que muda para times de produto
A Thinking Machines Lab publicou comparações de latência de alternância de turno entre os principais modelos de IA em tempo real. Os dados revelam uma diferença expressiva entre o Interaction-Small e os concorrentes:
ModeloLatência de turnoMédia humana (10 idiomas)200msThinking Machines Interaction-Small400msGemini-3.1-flash-live570msGPT-realtime-1.5590msGemini-3.1-flash-live (thinking)940msGPT-realtime-2.0 (thinking)1.630msQwen 3.5 OMNI2.140ms
A latência de alternância de turno mede o tempo que um modelo leva para começar a responder após o usuário terminar de falar. A diferença entre 400ms e 2.140ms pode parecer pequena em termos absolutos, mas em uma conversa fluida ela é perceptível. Sistemas acima de um segundo de latência introduzem uma pausa que quebra o ritmo natural da interação. O Interaction-Small opera a 400ms — o dobro da referência humana, mas ainda dentro de uma faixa percebida como natural pelo interlocutor.
Para organizações que estão construindo ou adotando sistemas de IA, o anúncio da Thinking Machines Lab levanta uma questão estratégica direta: o que acontece com as interfaces e os fluxos de trabalho projetados para um modelo de prompts quando a IA começa a operar em tempo real?
A caixa de prompt foi, por anos, o centro da experiência com IA. Ela define como equipes treinam colaboradores, como desenvolvedores projetam integrações e como gestores pensam em automação. Esses novos sistemas sugerem que esse centro pode se deslocar — em direção a camadas de colaboração ao vivo, onde o usuário não apenas instrui, mas orienta, interrompe e redireciona a execução enquanto ela acontece.
Isso não torna os agentes autônomos obsoletos. Significa que o espectro de modos de trabalho com IA se amplia. Saber onde aplicar colaboração em tempo real, onde usar automação autônoma e onde combinar os dois torna-se uma decisão estratégica, não apenas uma escolha de ferramenta. Quem está no processo de escalar projetos de IA dentro da empresa precisa contemplar essa nova dimensão no planejamento.
Segundo um relatório da McKinsey de 2024 sobre o estado da IA, organizações que integram IA de forma colaborativa, com presença humana ativa no loop, reportam resultados consistentemente superiores aos de organizações que adotam IA apenas em modo autônomo. Essa evidência reforça a aposta da Thinking Machines Lab: a colaboração em tempo real não é um nicho, é a próxima fronteira.
Empresas que compreenderem essa mudança antes dos concorrentes terão vantagem na hora de estruturar fluxos de trabalho mais eficientes e adaptáveis. E para isso, a estratégia vem antes da ferramenta.
Os Interaction Models representam uma mudança de orientação importante no desenvolvimento de IA: de modelos que esperam instruções para modelos que participam ativamente da execução. A Thinking Machines Lab, ao treinar interatividade como parte do modelo em vez de adicioná-la como camada externa, aponta para uma direção que tende a influenciar outros laboratórios e produtos nos próximos meses.
O AI Strategy do Distrito foi desenvolvido para ajudar organizações a navegar exatamente esse tipo de inflexão: identificar onde novas capacidades de IA se encaixam na operação, construir o roadmap adequado e garantir que as decisões de adoção sejam estratégicas, não reativas. Conheça o AI Strategy e estruture sua abordagem de IA antes que o mercado force essa agenda.