大規模多変量時系列異常検知ベンチマーク mTSBench:モデル選択を体系的に評価
原文
mTSBench: Benchmarking Multivariate Time Series Anomaly Detection and Model Selection at ScalePagePDF
著者
Xiaona Zhou, Constantin Brif, Ismini Lourentzou
公開日
概要
本論文では、多変量時系列データの異常検知(MTS-AD)のための最大規模のベンチマーク「mTSBench」を紹介します。mTSBenchは、ヘルスケア、サイバーセキュリティ、産業モニタリングなど19のデータセットと12の応用分野にまたがり、24の異常検知手法を評価します。大規模言語モデル(LLM)に基づく検出器を含むこれらの手法を標準化された条件下で体系的に評価し、モデル選択の重要性を強調します。mTSBenchは、厳密で再現可能な比較を可能にし、適応的な異常検知とロバストなモデル選択の将来の進歩を促進します。
多変量時系列異常検知(MTS-AD)は、ヘルスケア、サイバーセキュリティ、産業監視などの分野で不可欠ですが、変数間の複雑な依存関係、時間的な変動、および疎な異常ラベルにより、依然として課題が残っています。本研究では、大規模言語モデル(LLM)に基づく検出器を含む24の異常検出法を評価する、MTS-ADおよび教師なしモデル選択のための最大規模のベンチマークであるmTSBenchを紹介します。主要なポイントを以下にまとめます。
背景
デジタル変革により、高次元の時系列データが急増しており、タイムリーかつ正確な異常検知が、システム障害の防止、セキュリティ脅威の軽減、運用効率の最適化に不可欠となっています。
課題
多変量時系列における異常の特定は、固有の複雑さと異質性、非線形な時間関係、変数間の相関、異常イベントの疎性などの要因によって困難です。既存の異常検知アルゴリズムは一貫してすべてのシナリオで優れているわけではなく、モデル選択が困難です。
解決策
mTSBenchは、19の公開データセットから344の多変量時系列で構成され、12のアプリケーションドメインをカバーする、MTS-ADおよびモデル選択のための最大かつ最も多様なベンチマークです。このベンチマークは、再構成、予測、統計、LLMなど、さまざまなアプローチに基づく24の異常検知手法を評価します。
技術の中身
mTSBenchは、多変量時系列データセットに対する既存の異常検知手法の性能を評価するための標準化されたプラットフォームを提供します。さまざまなデータセットと異常の種類にわたってアルゴリズムを比較し、モデル選択戦略の長所と短所を明らかにします。
実験と結果
実験結果から、どの単一の異常検知手法もすべてのデータセットで一貫して優れた性能を発揮するわけではないことが確認されており、適応的な選択戦略の必要性が強調されています。最先端の選択手法でさえ最適には程遠く、重要なギャップが明らかになっています。
応用と社会的インパクト
mTSBenchは、ヘルスケア、サイバーセキュリティ、産業モニタリング、金融システムなどの分野で、より堅牢で信頼性の高い異常検知システムの開発を促進する可能性があります。早期警告メカニズムの改善、ダウンタイムの削減、複雑な時間的環境における人間の意思決定のサポートに役立ちます。
まとめ
mTSBenchは、適応的な異常検知と堅牢なモデル選択の将来の進歩を促進するための統一された評価スイートを提供します。このベンチマークは、厳密で再現可能な比較を可能にし、多様な多変量時系列データセットにわたる異常検知手法の進歩を加速します。
mTSBenchは、さまざまな業界セクターで応用できる可能性を秘めており、異常検知のための信頼できるモデル選択戦略を可能にすることで、自動化された意思決定プロセスを改善し、潜在的なリスクを軽減するのに役立ちます。例えば、製造業では、mTSBenchを使用して産業機械の異常を検出し、故障を予測して予防メンテナンスをスケジュールできます。
●多変量時系列データ(MTS)とは? 複数の変数が時間とともに記録されるデータのことです。例えば、工場の機械の温度、圧力、振動などのセンサーデータが、時間とともに記録される場合、それは多変量時系列データとなります。
図1:mTSBenchデータセットにおける時系列データの多様性 [図の説明]mTSBenchデータセットに含まれる、さまざまな分野の時系列データの例を示しています。これらの図は、mTSBenchが現実世界の複雑なデータに対応していることを示しています。
mTSBenchは、さまざまな業界セクターで応用できる可能性を秘めており、異常検知のための信頼できるモデル選択戦略を可能にすることで、自動化された意思決定プロセスを改善し、潜在的なリスクを軽減するのに役立ちます。今後は、ファインチューニングされた、あるいはマルチモーダルLLM(画像やテキストなど複数の情報源を組み合わせたLLM)を組み込むようにベンチマークを拡張していくことが期待されます。