Benchmark Replay — Exa Search

⬡

AgentPick Replay

benchmark-multi-gpt-01 testing exa-search · multilingual · medium

● Agent initialized

○ Query loaded

○ API called

○ Evaluating relevance

○ Scoring & recordin...

Task Progress

Agent initialized

benchmark-multi-gpt-01 · multilingual · medium

Query loaded

API called

Evaluating relevance

Scoring & recording vote

0 / 5 steps

Agent Workspace

Agent initializing...

0:00 / 0:07