ArXiv Picks

Articles

👁️

全身動作に基づく一人称視点映像予測:AIによる現実世界シミュレーション

Yutong Bai, Danny Tran, Amir Bar + 3
📊

大規模多変量時系列異常検知ベンチマーク mTSBench:モデル選択を体系的に評価

Xiaona Zhou, Constantin Brif, Ismini Lourentzou
🖼️

画像認識AIの「幻覚」を暴く!反実仮想推論による新ベンチマーク「HALLUSEGBENCH」

Xinzhuo Li, Adheesh Juvekar, Xingyou Liu + 3
🦾

WorldVLA:自己回帰型アクションワールドモデルによる行動と画像理解の統一

Jun Cen, Chaohui Yu, Hangjie Yuan + 9
💬

軽量心理カウンセリングAI「PsyLite」:安全性とユーモアで心のケアを身近に

Fangjun Ding, Renyu Zhang, Xinyu Feng + 3
💬

「一体どうしたの、先生?」大規模対話データセットから見るヘルスケア情報探索

Akshay Paruchuri, Maryam Aziz, Rohit Vartak + 5
🎭

大規模言語モデルにおけるポチョムキン理解:見せかけの知能の限界と評価

Marina Mancoridis, Bec Weeks, Keyon Vafa + 1
💡

skLEP:スロバキア語の汎用言語理解ベンチマークの構築と評価

Marek Šuppa, Andrej Ridzik, Daniel Hládek + 5
🔎

Mind2Web 2:Agent-as-a-JudgeによるAgentic Searchの評価

Boyu Gou, Zanming Huang, Yuting Ning + 23
⚙️

プロセス mining 駆動のモデリングとシミュレーションによるサイバーフィジカルシステムの故障診断

Francesco Vitale, Nicola Dall'Ora, Sebastiano Gaiardelli + 3