ArXiv Picks

Articles

全身動作に基づく一人称視点映像予測：AIによる現実世界シミュレーション

Yutong Bai, Danny Tran, Amir Bar + 36/26/2025

大規模多変量時系列異常検知ベンチマーク mTSBench：モデル選択を体系的に評価

Xiaona Zhou, Constantin Brif, Ismini Lourentzou6/26/2025

画像認識AIの「幻覚」を暴く！反実仮想推論による新ベンチマーク「HALLUSEGBENCH」

Xinzhuo Li, Adheesh Juvekar, Xingyou Liu + 36/26/2025

WorldVLA：自己回帰型アクションワールドモデルによる行動と画像理解の統一

Jun Cen, Chaohui Yu, Hangjie Yuan + 96/26/2025

軽量心理カウンセリングAI「PsyLite」：安全性とユーモアで心のケアを身近に

Fangjun Ding, Renyu Zhang, Xinyu Feng + 36/26/2025

「一体どうしたの、先生？」大規模対話データセットから見るヘルスケア情報探索

Akshay Paruchuri, Maryam Aziz, Rohit Vartak + 56/26/2025

大規模言語モデルにおけるポチョムキン理解：見せかけの知能の限界と評価

Marina Mancoridis, Bec Weeks, Keyon Vafa + 16/26/2025

skLEP：スロバキア語の汎用言語理解ベンチマークの構築と評価

Marek Šuppa, Andrej Ridzik, Daniel Hládek + 56/26/2025

Mind2Web 2：Agent-as-a-JudgeによるAgentic Searchの評価

Boyu Gou, Zanming Huang, Yuting Ning + 236/26/2025

プロセス mining 駆動のモデリングとシミュレーションによるサイバーフィジカルシステムの故障診断

Francesco Vitale, Nicola Dall'Ora, Sebastiano Gaiardelli + 36/26/2025