뉴스/정보
Thinking Machines 오디오·비디오·텍스트를 실시간으로 동시에 받아들이고, 생각하고, 말하고, 행동할 수 있는 모델 발표
작성자
하이룽룽
작성일
2026-05-12 08:23
조회
8
https://thinkingmachines.ai/blog/interaction-models/
Thinking Machines는 이를 해결하기 위해 interaction model, 즉 오디오·비디오·텍스트를 실시간으로 동시에 받아들이고, 생각하고, 말하고, 행동할 수 있는 모델을 연구하고 있다고 발표했습니다.
쉽게 말하면, 지금의 AI가 “프롬프트를 받고 답하는 시스템”이라면, interaction model은 “사람과 같은 공간에서 대화하고 보고 듣고 끼어들며 협업하는 AI”에 가깝습니다.
좋은 결과는 보통 다음 과정을 통해 나옵니다.
사람이 설명하고, AI가 이해하고, 중간 결과를 보여주고, 사람이 수정하거나 반박하고, AI가 다시 조정하는 식의 협업입니다.
그런데 현재 AI 인터페이스는 이런 실시간 협업에 적합하지 않습니다. 사람이 말하는 도중 AI가 상황을 파악하거나, 화면을 보며 먼저 문제를 발견하거나, 사용자가 말을 고치는 것을 이해하는 능력이 제한적입니다.
사용자 입력 → 모델 출력 → 사용자 입력 → 모델 출력
이 구조에서는 다음 문제가 생깁니다.
AI는 사용자가 말하는 동안 대기합니다.
AI가 답변하는 동안에는 새로운 사용자 입력이나 시각 정보를 잘 반영하지 못합니다.
중간에 끼어들거나, 동시에 듣고 말하거나, 화면 변화를 보고 먼저 말하는 것이 어렵습니다.
실시간 대화처럼 자연스러운 협업이 힘듭니다.
즉, 모델이 현실을 하나의 순차적 텍스트 흐름처럼 처리하기 때문에, 실제 인간 협업에서 중요한 침묵, 겹쳐 말하기, 끼어들기, 시각적 단서 등이 잘 반영되지 않습니다.
이를 위해 모델은 multi-stream, micro-turn design을 사용합니다.
즉, 오디오·비디오·텍스트 입력과 모델의 출력이 하나의 긴 턴으로 처리되는 것이 아니라, 약 200ms 단위의 아주 짧은 마이크로 턴으로 나뉘어 계속 처리됩니다.
그래서 모델은 다음을 할 수 있습니다.
사용자가 말하는 중에도 듣고 반응하기
사용자가 말을 고치거나 머뭇거리는 것을 이해하기
화면이나 영상의 변화를 보고 먼저 말하기
사용자와 동시에 말하기
실시간 번역처럼 듣는 동시에 말하기
도구 호출, 검색, UI 생성 등을 대화 중 병렬로 수행하기
첫 번째는 Interaction Model입니다.
사용자와 실시간으로 대화하고, 듣고, 보고, 즉각적으로 반응하는 역할을 합니다.
두 번째는 Background Model입니다.
더 깊은 추론, 검색, 도구 사용, 장기 작업 같은 무거운 일을 비동기로 처리합니다.
중요한 점은, Background Model이 작업하는 동안에도 Interaction Model은 사용자와 계속 대화할 수 있다는 것입니다. 즉, AI가 “생각 중이니 기다리라”고 멈추는 대신, 계속 대화하면서 필요한 순간에 배경 작업 결과를 자연스럽게 섞어 전달합니다.
자연스러운 대화 관리
사용자가 생각 중인지, 말을 끝냈는지, 스스로 고치는 중인지, 답변을 원하는지 등을 별도 시스템 없이 모델이 직접 파악합니다.
말과 영상 기반 끼어들기
사용자가 말을 끝내지 않아도 필요한 순간에 모델이 끼어들 수 있습니다. 예를 들어 “내가 틀린 말을 하면 바로 알려줘” 같은 요청을 처리할 수 있습니다.
동시 발화
사용자와 모델이 동시에 말할 수 있습니다. 예를 들어 실시간 통역에서 사용자가 말하는 동안 모델이 번역을 시작할 수 있습니다.
시간 인식
모델이 시간이 얼마나 흘렀는지 직접 인식합니다. 예를 들어 “4초마다 숨을 들이마시라고 알려줘” 같은 요청을 처리할 수 있습니다.
시각적 능동성
사용자가 화면이나 영상을 보여주면, 모델이 말을 기다리지 않고 시각적 변화에 반응할 수 있습니다. 예를 들어 운동 횟수를 세거나, 코드 화면에서 버그를 발견하면 말할 수 있습니다.
동시 도구 사용
사용자와 대화하면서 동시에 웹 검색, 도구 호출, UI 생성 등을 수행하고 결과를 대화에 반영할 수 있습니다.
주요 기술 요소는 다음과 같습니다.
Time-Aligned Micro-Turns
입력과 출력을 200ms 단위로 나눠 처리합니다. 이 덕분에 사용자의 말, 침묵, 끼어들기, 화면 변화 등이 실시간 맥락으로 유지됩니다.
Encoder-free Early Fusion
오디오와 비디오를 별도의 큰 인코더로 처리한 뒤 합치는 방식이 아니라, 비교적 가벼운 전처리 후 모델 내부에서 함께 학습합니다. 오디오, 이미지, 텍스트가 처음부터 함께 통합되는 구조입니다.
Streaming Sessions
실시간 입력을 처리할 때 매번 새 요청처럼 다루면 지연이 커집니다. 그래서 서버가 GPU 메모리 안에 지속적인 세션을 유지하고, 200ms 단위 입력을 계속 이어 붙이는 방식으로 최적화했습니다.
Trainer-Sampler Alignment
학습 과정과 실제 추론 과정이 최대한 일치하도록 커널과 연산을 정렬해 안정성과 디버깅 가능성을 높였습니다.
이 모델은 “작은 모델”이라고 부르지만, 실제로는 276B 파라미터 MoE 모델이며, 활성 파라미터는 12B입니다.
평가 결과 글에서는 다음을 주장합니다.
TML-Interaction-Small은 실시간 상호작용 품질에서 기존 모델보다 강한 성능을 보입니다.
응답 지연 시간도 짧습니다.
오디오 기반 지능 평가에서도 즉시 응답 모델 중 경쟁력 있는 성능을 냅니다.
특히 기존 모델들이 거의 수행하지 못하는 실시간 시각·음성 능동성 과제에서 의미 있는 성능을 보입니다.
대표적인 벤치마크로는 FD-bench, Audio MultiChallenge, BigBench Audio, IFEval 등이 언급됩니다.
TimeSpeak
모델이 사용자가 지정한 시간에 맞춰 말할 수 있는지 평가합니다.
CueSpeak
사용자의 말 속 특정 단서가 나오면 적절한 순간에 동시에 말할 수 있는지 평가합니다.
RepCount-A
영상에서 반복 동작을 보고 운동 횟수를 실시간으로 세는 능력을 평가합니다.
ProactiveVideoQA
영상 속 답이 특정 순간에 등장할 때, 모델이 그 순간을 보고 적절히 답하는지 평가합니다.
Charades
영상에서 특정 행동이 시작되고 끝나는 시점을 모델이 말로 알려줄 수 있는지 평가합니다.
글에 따르면 기존 실시간 모델들은 이런 과제에서 대부분 침묵하거나 부정확한 답을 내지만, TML-Interaction-Small은 의미 있는 성능을 보였습니다.
긴 세션 문제
오디오와 비디오를 계속 받으면 맥락이 빠르게 커집니다. 장시간 대화에서는 효율적인 컨텍스트 관리가 필요합니다.
컴퓨팅과 배포 문제
낮은 지연시간으로 실시간 오디오·비디오를 처리하려면 좋은 네트워크와 높은 시스템 안정성이 필요합니다.
안전성과 정렬 문제
실시간 대화에서는 거절, 오버리퓨절, 장기 대화 중 안전성 유지가 더 어렵습니다. 그래서 별도 안전 학습과 자동 레드팀 데이터를 활용했다고 설명합니다.
모델 크기 확장 문제
더 큰 모델은 지능은 높을 수 있지만, 현재는 실시간 서비스하기에 너무 느립니다. 향후 더 큰 모델을 공개할 계획이라고 합니다.
배경 에이전트 개선
Interaction Model과 Background Model이 더 자연스럽게 협업하도록 만드는 것도 앞으로의 주요 과제입니다.
현재 AI는 사용자가 입력을 끝내면 답하는 식의 턴 기반 시스템이지만, 실제 인간 협업은 훨씬 더 동시적이고 실시간적입니다. Thinking Machines는 이를 해결하기 위해 오디오, 비디오, 텍스트를 계속 받아들이고 200ms 단위로 반응하는 Interaction Model을 만들었습니다.
이 모델은 사용자가 말하는 도중에도 듣고, 화면을 보며 먼저 반응하고, 동시에 말하고, 시간 흐름을 인식하며, 필요하면 배경 모델에게 깊은 추론이나 도구 작업을 맡길 수 있습니다.
결국 이 연구의 핵심 메시지는 다음과 같습니다.
AI가 사람을 대체해 혼자 일하는 방향만이 아니라, 사람이 계속 참여한 상태에서 더 자연스럽고 빠르게 협업할 수 있는 방향으로도 발전해야 한다는 것입니다.
1. 핵심 주장
현재 대부분의 AI는 턴 기반입니다. 사용자가 말하거나 입력을 끝내면 모델이 답하고, 모델이 답하는 동안에는 새 정보를 거의 받지 못합니다. 이 방식은 이메일처럼 느리고 단절된 협업에 가깝습니다.Thinking Machines는 이를 해결하기 위해 interaction model, 즉 오디오·비디오·텍스트를 실시간으로 동시에 받아들이고, 생각하고, 말하고, 행동할 수 있는 모델을 연구하고 있다고 발표했습니다.
쉽게 말하면, 지금의 AI가 “프롬프트를 받고 답하는 시스템”이라면, interaction model은 “사람과 같은 공간에서 대화하고 보고 듣고 끼어들며 협업하는 AI”에 가깝습니다.
2. 왜 필요한가: 협업 병목 문제
현재 AI 업계는 모델이 혼자 오래 작업하는 자율 에이전트 능력을 중요하게 봅니다. 하지만 실제 업무에서는 사람이 처음부터 모든 요구사항을 완벽하게 설명하고 떠나는 경우가 드뭅니다.좋은 결과는 보통 다음 과정을 통해 나옵니다.
사람이 설명하고, AI가 이해하고, 중간 결과를 보여주고, 사람이 수정하거나 반박하고, AI가 다시 조정하는 식의 협업입니다.
그런데 현재 AI 인터페이스는 이런 실시간 협업에 적합하지 않습니다. 사람이 말하는 도중 AI가 상황을 파악하거나, 화면을 보며 먼저 문제를 발견하거나, 사용자가 말을 고치는 것을 이해하는 능력이 제한적입니다.
3. 기존 모델의 한계
기존 모델은 보통 다음과 같은 구조입니다.사용자 입력 → 모델 출력 → 사용자 입력 → 모델 출력
이 구조에서는 다음 문제가 생깁니다.
AI는 사용자가 말하는 동안 대기합니다.
AI가 답변하는 동안에는 새로운 사용자 입력이나 시각 정보를 잘 반영하지 못합니다.
중간에 끼어들거나, 동시에 듣고 말하거나, 화면 변화를 보고 먼저 말하는 것이 어렵습니다.
실시간 대화처럼 자연스러운 협업이 힘듭니다.
즉, 모델이 현실을 하나의 순차적 텍스트 흐름처럼 처리하기 때문에, 실제 인간 협업에서 중요한 침묵, 겹쳐 말하기, 끼어들기, 시각적 단서 등이 잘 반영되지 않습니다.
4. Interaction Model의 핵심 아이디어
Thinking Machines는 AI가 실시간 상호작용을 “외부 장치나 보조 시스템”으로 흉내 내는 것이 아니라, 모델 자체가 상호작용을 기본 능력으로 가져야 한다고 주장합니다.이를 위해 모델은 multi-stream, micro-turn design을 사용합니다.
즉, 오디오·비디오·텍스트 입력과 모델의 출력이 하나의 긴 턴으로 처리되는 것이 아니라, 약 200ms 단위의 아주 짧은 마이크로 턴으로 나뉘어 계속 처리됩니다.
그래서 모델은 다음을 할 수 있습니다.
사용자가 말하는 중에도 듣고 반응하기
사용자가 말을 고치거나 머뭇거리는 것을 이해하기
화면이나 영상의 변화를 보고 먼저 말하기
사용자와 동시에 말하기
실시간 번역처럼 듣는 동시에 말하기
도구 호출, 검색, UI 생성 등을 대화 중 병렬로 수행하기
5. 시스템 구조
이 시스템은 크게 두 부분으로 나뉩니다.첫 번째는 Interaction Model입니다.
사용자와 실시간으로 대화하고, 듣고, 보고, 즉각적으로 반응하는 역할을 합니다.
두 번째는 Background Model입니다.
더 깊은 추론, 검색, 도구 사용, 장기 작업 같은 무거운 일을 비동기로 처리합니다.
중요한 점은, Background Model이 작업하는 동안에도 Interaction Model은 사용자와 계속 대화할 수 있다는 것입니다. 즉, AI가 “생각 중이니 기다리라”고 멈추는 대신, 계속 대화하면서 필요한 순간에 배경 작업 결과를 자연스럽게 섞어 전달합니다.
6. Interaction Model의 주요 기능
글에서 강조하는 새로운 기능은 다음과 같습니다.자연스러운 대화 관리
사용자가 생각 중인지, 말을 끝냈는지, 스스로 고치는 중인지, 답변을 원하는지 등을 별도 시스템 없이 모델이 직접 파악합니다.
말과 영상 기반 끼어들기
사용자가 말을 끝내지 않아도 필요한 순간에 모델이 끼어들 수 있습니다. 예를 들어 “내가 틀린 말을 하면 바로 알려줘” 같은 요청을 처리할 수 있습니다.
동시 발화
사용자와 모델이 동시에 말할 수 있습니다. 예를 들어 실시간 통역에서 사용자가 말하는 동안 모델이 번역을 시작할 수 있습니다.
시간 인식
모델이 시간이 얼마나 흘렀는지 직접 인식합니다. 예를 들어 “4초마다 숨을 들이마시라고 알려줘” 같은 요청을 처리할 수 있습니다.
시각적 능동성
사용자가 화면이나 영상을 보여주면, 모델이 말을 기다리지 않고 시각적 변화에 반응할 수 있습니다. 예를 들어 운동 횟수를 세거나, 코드 화면에서 버그를 발견하면 말할 수 있습니다.
동시 도구 사용
사용자와 대화하면서 동시에 웹 검색, 도구 호출, UI 생성 등을 수행하고 결과를 대화에 반영할 수 있습니다.
7. 기술적 접근
이 모델은 오디오와 비디오를 실시간으로 다루기 위해 처음부터 그렇게 설계되었습니다.주요 기술 요소는 다음과 같습니다.
Time-Aligned Micro-Turns
입력과 출력을 200ms 단위로 나눠 처리합니다. 이 덕분에 사용자의 말, 침묵, 끼어들기, 화면 변화 등이 실시간 맥락으로 유지됩니다.
Encoder-free Early Fusion
오디오와 비디오를 별도의 큰 인코더로 처리한 뒤 합치는 방식이 아니라, 비교적 가벼운 전처리 후 모델 내부에서 함께 학습합니다. 오디오, 이미지, 텍스트가 처음부터 함께 통합되는 구조입니다.
Streaming Sessions
실시간 입력을 처리할 때 매번 새 요청처럼 다루면 지연이 커집니다. 그래서 서버가 GPU 메모리 안에 지속적인 세션을 유지하고, 200ms 단위 입력을 계속 이어 붙이는 방식으로 최적화했습니다.
Trainer-Sampler Alignment
학습 과정과 실제 추론 과정이 최대한 일치하도록 커널과 연산을 정렬해 안정성과 디버깅 가능성을 높였습니다.
8. 성능 평가
Thinking Machines의 모델 이름은 TML-Interaction-Small입니다.이 모델은 “작은 모델”이라고 부르지만, 실제로는 276B 파라미터 MoE 모델이며, 활성 파라미터는 12B입니다.
평가 결과 글에서는 다음을 주장합니다.
TML-Interaction-Small은 실시간 상호작용 품질에서 기존 모델보다 강한 성능을 보입니다.
응답 지연 시간도 짧습니다.
오디오 기반 지능 평가에서도 즉시 응답 모델 중 경쟁력 있는 성능을 냅니다.
특히 기존 모델들이 거의 수행하지 못하는 실시간 시각·음성 능동성 과제에서 의미 있는 성능을 보입니다.
대표적인 벤치마크로는 FD-bench, Audio MultiChallenge, BigBench Audio, IFEval 등이 언급됩니다.
9. 새롭게 평가한 상호작용 능력
기존 벤치마크가 실시간 상호작용의 질을 충분히 측정하지 못한다고 보고, 내부적으로 새로운 평가도 만들었습니다.TimeSpeak
모델이 사용자가 지정한 시간에 맞춰 말할 수 있는지 평가합니다.
CueSpeak
사용자의 말 속 특정 단서가 나오면 적절한 순간에 동시에 말할 수 있는지 평가합니다.
RepCount-A
영상에서 반복 동작을 보고 운동 횟수를 실시간으로 세는 능력을 평가합니다.
ProactiveVideoQA
영상 속 답이 특정 순간에 등장할 때, 모델이 그 순간을 보고 적절히 답하는지 평가합니다.
Charades
영상에서 특정 행동이 시작되고 끝나는 시점을 모델이 말로 알려줄 수 있는지 평가합니다.
글에 따르면 기존 실시간 모델들은 이런 과제에서 대부분 침묵하거나 부정확한 답을 내지만, TML-Interaction-Small은 의미 있는 성능을 보였습니다.
10. 한계와 향후 과제
아직 한계도 명확합니다.긴 세션 문제
오디오와 비디오를 계속 받으면 맥락이 빠르게 커집니다. 장시간 대화에서는 효율적인 컨텍스트 관리가 필요합니다.
컴퓨팅과 배포 문제
낮은 지연시간으로 실시간 오디오·비디오를 처리하려면 좋은 네트워크와 높은 시스템 안정성이 필요합니다.
안전성과 정렬 문제
실시간 대화에서는 거절, 오버리퓨절, 장기 대화 중 안전성 유지가 더 어렵습니다. 그래서 별도 안전 학습과 자동 레드팀 데이터를 활용했다고 설명합니다.
모델 크기 확장 문제
더 큰 모델은 지능은 높을 수 있지만, 현재는 실시간 서비스하기에 너무 느립니다. 향후 더 큰 모델을 공개할 계획이라고 합니다.
배경 에이전트 개선
Interaction Model과 Background Model이 더 자연스럽게 협업하도록 만드는 것도 앞으로의 주요 과제입니다.
11. 전체 요약
이 글은 AI의 다음 발전 방향을 단순히 “더 똑똑한 모델”이 아니라 더 잘 협업하는 모델로 제시합니다.현재 AI는 사용자가 입력을 끝내면 답하는 식의 턴 기반 시스템이지만, 실제 인간 협업은 훨씬 더 동시적이고 실시간적입니다. Thinking Machines는 이를 해결하기 위해 오디오, 비디오, 텍스트를 계속 받아들이고 200ms 단위로 반응하는 Interaction Model을 만들었습니다.
이 모델은 사용자가 말하는 도중에도 듣고, 화면을 보며 먼저 반응하고, 동시에 말하고, 시간 흐름을 인식하며, 필요하면 배경 모델에게 깊은 추론이나 도구 작업을 맡길 수 있습니다.
결국 이 연구의 핵심 메시지는 다음과 같습니다.
AI가 사람을 대체해 혼자 일하는 방향만이 아니라, 사람이 계속 참여한 상태에서 더 자연스럽고 빠르게 협업할 수 있는 방향으로도 발전해야 한다는 것입니다.
전체 0