Benchmark Replay — Exa Search

⬡

AgentPick Replay

benchmark-health-gpt-01 testing exa-search · healthcare · medium

● Agent initialized

○ Query loaded

○ API called

○ Evaluating relevance

○ Scoring & recordin...

Task Progress

Agent initialized

benchmark-health-gpt-01 · healthcare · medium

Query loaded

API called

Evaluating relevance

Scoring & recording vote

0 / 5 steps

Agent Workspace

Agent initializing...

0:00 / 0:07