Mind2Web 2:Agent-as-a-JudgeによるAgentic Searchの評価
著者
Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su
公開日
概要
大規模言語モデル(LLM)が自律的にウェブを閲覧し、情報を統合して包括的な回答を生成する「Agentic Search」の評価に関する研究。既存の評価基準は短期間の検索と静的な回答を前提としており、複雑さとリアルタイム性が不足している。本研究では、現実的で質の高い長期間タスクを評価するための新しいベンチマーク「Mind2Web 2」を提案し、回答の正確性とソースの信頼性を評価するAgent-as-a-Judgeフレームワークを導入する。
背景:ウェブ検索は知識の入り口だが、ユーザーは複雑な質問に答えるために多くの情報を手動で解釈・統合する必要がある。
課題:Agentic Searchの複雑化により、既存の評価方法では長期間のタスクを適切に評価できない。自動評価の信頼性が重要。
解決策:現実的なタスクとリアルタイムウェブ検索を組み合わせたMind2Web 2ベンチマークを提案。Agent-as-a-Judgeフレームワークで回答の正確性とソースの信頼性を評価。
技術の中身:
- Mind2Web 2は130の現実的なタスクで構成され、1,000時間以上の人的作業で構築された。
- Agent-as-a-Judgeは、タスク固有の評価ロジックをツリー構造で表現し、LLMを活用して自動評価を行う。
- 評価は回答の正確性(タスクの要件を満たしているか)とソースの信頼性(引用元が回答を裏付けているか)を評価する。
実験や結果:
- Mind2Web 2で9つの最先端Agentic Searchシステムと人間の性能を比較評価。
- OpenAI Deep Researchは人間の50-70%の性能を半分の時間で達成。
応用・社会的インパクト:Agentic Searchは人間の認知能力を拡張し、重要な意思決定を支援する可能性。
まとめ:Mind2Web 2は、次世代のAgentic Searchシステムを開発・評価するための基盤を提供する。