Deep Research와 멀티 에이전트 시스템의 최신 동향

Pasted image 20250221182116.png

Pasted image 20250221133141.png

Pasted image 20250221133218.png

Pasted image 20250221133159.png

Intro

최근 AI 연구 분야에서 가장 주목받고 있는 영역 중 하나는 ‘Deep Research’ LLM 서비스와 멀티 에이전트 시스템입니다. 이 글에서는 ChatGPT, Perplexity, Gemini, Grok 등 우후죽순으로 발표되고 있는 Deep Research LLM 서비스들의 작동 원리와 멀티 에이전트 시스템과의 관계를 심층적으로 탐구해보고자 합니다.

참고: 본 글에서 공유하는 내용 중 일부는 Deepseek를 제외하고는 공개된 자료가 많지 않아 추정에 기반한 분석임을 미리 밝힙니다.

DeepResearch 방식 해체 분석

Deep Research LLM 서비스들은 공통적으로 계획 → 검색 → 답변생성이라는 3단계 워크플로우를 따릅니다. 여기서 서비스별로 가장 큰 차이점은 첫 번째 ‘계획’ 단계에서 나타납니다. (일부 서비스에서는 이를 ‘Thinking’이라고 표현하기도 하지만, 이 글에서는 보다 포괄적인 의미의 ‘계획 단계’라는 용어를 사용하겠습니다.)

1. 계획 단계

Deepseek의 Thinking 수행 Deepseek의 Thinking 프로세스

최근 발표된 Deepseek-R1 논문에 따르면, 이 모델은 <THINK> 토큰을 활용하여 사용자 질문에 대한 사고 과정을 우선적으로 수행한 후 이를 바탕으로 답변을 생성합니다. 이는 Transformer 모델의 Auto-regressive 특성을 활용한 방식으로, 논리적 사고 과정을 먼저 생성함으로써 최종 답변의 품질을 향상시키는 전략입니다.

Auto-regressive 방식의 동작 원리

다른 Deep Research 서비스들도 유사한 방식을 채택했을 가능성이 높지만, 공식 자료가 부족하여 정확한 메커니즘은 확인하기 어렵습니다. 가능성이 높은 대안적 접근법으로는 “사용자 질문을 읽고 연구를 위한 워크플로우를 설계하세요”와 같은 연구 지향적 프롬프트를 통해 계획 단계를 수행하는 방식이 있을 것으로 추정됩니다.

2. 검색 단계

검색 프로세스 검색 단계의 일반적 프로세스

계획 단계에서 식별된 필요 정보를 수집하기 위해, 시스템은 관련 키워드를 추출하여 검색 API를 통해 정보를 수집합니다. 이 검색 단계는 대부분의 서비스에서 유사한 형태로 구현되었을 것으로 예상됩니다. 이 부분은 멀티 에이전트 시스템과 밀접한 관련이 있으며, 뒤에서 더 자세히 다루도록 하겠습니다.

3. 답변 생성 단계

답변 생성 프로세스 답변 생성 단계의 일반적 프로세스

검색 단계에서 수집된 정보(컨텍스트)를 바탕으로, 사용자가 요청한 구조와 포맷에 맞춰 최종 답변을 생성합니다. 이 과정에서는 검색 단계에서 활용한 참조 자료도 함께 제시하여 답변의 신뢰성을 높입니다.

4. 사용자 개입 (Human In The Loop)

OpenAI의 DeepResearch 사용자 개입 인터페이스

보다 전문적인 용어로는 ‘Human In The Loop(HITL)’라고 불리는 이 단계에서는, 시스템이 사용자에게 추가 질문을 던져 더 정확하고 맞춤화된 답변을 생성할 수 있도록 합니다. 현재 이 기능은 OpenAI와 Google의 서비스에서만 제공되고 있습니다.

두 서비스의 HITL 접근법에는 중요한 차이가 있습니다:

Gemini: 사용자 질문 직후 계획을 생성하고, 사용자가 이를 직접 수정할 수 있는 인터페이스 제공
ChatGPT: 사용자 질문에 대한 추가 질문을 통해 계획을 정교화하지만, 사용자가 계획 자체를 직접 수정할 수는 없음

Gemini HITL 인터페이스 Gemini의 사용자 개입 인터페이스

ChatGPT HITL 인터페이스 ChatGPT의 사용자 개입 인터페이스

각 서비스별 비용 비교

서비스	요금제 이름	월 요금	사용 제한
GPT Pro	ChatGPT Pro	$200 USD	월 100회 사용 가능
퍼플렉시티	정보 부족	$20 USD	횟수 제한 없음
제미나이	Gemini Advanced	₩29,000	제한 정보 없음 (첫 달 무료)
Grok3	X Premium+	$30 USD	제한 정보 없음

멀티 에이전트 시스템(Multi-Agent System)

작년부터 AI 분야에서 각광받고 있는 ‘에이전트(Agent)’ 개념을 살펴보겠습니다. 앞서 소개한 Deep Research LLM 서비스들도 넓은 의미에서 에이전트 시스템의 한 유형으로 볼 수 있으며, 특히 검색 기능은 에이전트의 대표적인 구현 사례입니다.

Re-Act(Reasoning-Acting)

Re-Act 개념도 Re-Act 프레임워크 개념도

Re-Act는 LLM이 시스템의 함수나 API를 직접 활용할 수 있게 함으로써, LLM의 가장 큰 문제점 중 하나였던 할루시네이션(환각) 문제를 효과적으로 해결하는 접근법입니다.

CoT(Chain of Thought) & ToT(Tree of Thought)

CoT와 ToT 비교 Chain of Thought와 Tree of Thought 비교

Deep Research 서비스의 계획 단계와 밀접하게 연관된 에이전트 방법론으로 CoT(Chain of Thought)와 ToT(Tree of Thought)가 있습니다.

CoT는 복잡한 사용자 질문을 여러 하위 질문으로 분해하여 각각에 대한 답변을 종합하는 방식인 반면, ToT는 질문에 대한 여러 가능한 접근법을 동시에 탐색하는 방식입니다. 다이어그램에서는 여러 경로를 동시에 탐색하는 것으로 묘사되어 있지만, 실제 Deep Research 서비스들은 계산 효율성을 위해 가장 유망한 단일 경로만을 선택해 진행할 것으로 추정됩니다.

사고 과정 시각화 사고 과정의 시각화

결론 및 전망

Deep Research 서비스와 다양한 멀티 에이전트 시스템을 비교 분석한 결과, 다음과 같은 인사이트를 얻을 수 있습니다:

접근법의 차이: Deep Research 서비스는 STORM과 유사한 접근법을 취하고 있으나, 서비스 확장성을 위해 과도한 LLM 호출이 필요한 인터뷰 과정은 생략하고 가장 유망한 계획만을 수행하는 방식을 채택했습니다. 이는 서비스 효율성을 높이지만, 단일 관점에만 의존하게 되어 정보의 다양성 측면에서는 제한될 수 있습니다.
특화 vs 범용: Agent Laboratory와 Google Co-scientist가 특정 도메인(AI 연구, 과학 연구)에 최적화된 시스템인 반면, Deep Research 서비스와 STORM은 보다 범용적인 문제 해결을 목표로 합니다.
미래 전망: 최근 에이전트 기술이 각광받는 이유는 기업과 개인이 자신의 도메인에 특화된 시스템을 구축하거나, 업무 효율성을 극대화하는 데 이러한 기술이 큰 잠재력을 보여주고 있기 때문입니다.

미래 전망 멀티 에이전트 시스템 in Langgraph

향후 멀티 에이전트 시스템은 더욱 전문화되고 개인화될 것으로 예상됩니다. 특히 특정 업무 영역에 최적화된 에이전트들이 서로 협업하는 생태계가 형성되면서, 인간-AI 협업의 새로운 패러다임이 형성될 것으로 전망됩니다. Deep Research 서비스들도 이러한 흐름에 맞춰 더욱 정교한 계획 단계와 사용자 개입 메커니즘을 발전시켜 나갈 것으로 기대됩니다.

Deep Research와 멀티 에이전트 시스템의 최신 동향

Deep Research와 멀티 에이전트 시스템의 최신 동향

Intro

DeepResearch 방식 해체 분석

1. 계획 단계

2. 검색 단계

3. 답변 생성 단계

4. 사용자 개입 (Human In The Loop)

각 서비스별 비용 비교

멀티 에이전트 시스템(Multi-Agent System)

Re-Act(Reasoning-Acting)

CoT(Chain of Thought) & ToT(Tree of Thought)

최신 멀티 에이전트 시스템 사례

1. STORM(Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking)

2. Agent Laboratory

3. Google Co-scientist

결론 및 전망