マゼラン技術研究所(Magellan Technology Research Institute:MTRI)は、所属する研究者が執筆した2本の論文が、第43回国際機械学習学会(ICML 2026)に採択されたことをお知らせいたします。
ICMLは、人工知能(AI)の未来を形作る世界中の研究者や実務家が集まる、機械学習分野で最も影響力のある最高峰の国際会議の一つです。今回の論文採択は、MTRIがAIの基礎研究の発展に持続的に取り組むと同時に、実世界の実用に貢献できる技術の探求に注力してきた成果を示すものです。
採択された論文は、AIを実環境へ導入(デプロイ)する際の2つの重要な課題、すなわち「長文に対する効率的なマルチモーダル検索」と「ドメインをまたぐ堅牢なビデオ理解」に対して、新たなアプローチを提案しています。いずれの研究も、技術的な革新性だけでなく、拡張性(スケーラビリティ)を備えた実用的な機械学習システムの開発を目指すMTRIの姿勢を反映したものです。
1. “Very Efficient Listwise Multimodal Reranking for Long Documents”
(邦題訳:長文ドメインにおける高効率なリストワイズ・マルチモーダル・リランキング)
著者: 孫 軼群(Yiqun Sun)、魏 鵬飛(Pengfei Wei)、Lawrence B. Hsieh
本論文では、PDF、レポート、ウェブページ、視覚要素が豊富な企業文書などの長文向けに設計された、非常に効率的なマルチモーダル・リランキング(再ランキング)フレームワーク「ZipRerank」を提案しています。現代の検索システムやマルチモーダル検索拡張生成(RAG)システムにおいて、リランキングは検索精度の向上に不可欠ですが、文書のページ数やビジカルトークンが多い場合、膨大な計算ボトルネックとなることが課題でした。
ZipRerankは、2つの重要なイノベーションによってこの課題を解決します。第一に、軽量な「クエリ-画像(Query-Image)早期相互作用メカニズム」によって入力長を削減します。第二に、1回のフォワードパスで候補をスコアリングすることにより、低速な自己回帰デコーディング(Autoregressive decoding)を排除します。ベンチマーク「MMDocIR」を用いた実験では、ZipRerankは最先端のマルチモーダル・リランカーと同等以上の性能を維持しながら、大規模言語モデル(LLM)の推論遅延を最大で1桁(10分の1程度に)削減することに成功しました。これにより、遅延にシビアな実環境のシステムへの応用が大きく期待されます。
本研究は、複雑な視覚情報を含む長文から正確な回答を求める、企業向け検索、AIアシスタント、ドキュメント・インテリジェンス、マルチモーダル知識システムなどの分野への応用が可能です。
2. “Return of Frustratingly Easy Unsupervised Video Domain Adaptation”
(邦題訳:原点回帰:極めてシンプルな教師なしビデオ・ドメイン適応技術)
著者: 魏 鵬飛(Pengfei Wei)、孫 軼群(Yiqun Sun)、徐 智強(Zhiqiang Xu)、柯 奕平(Yiping Ke)、Lawrence B. Hsieh
本論文は、ビデオAI分野において実用的でありながら未だ探索が進んでいない課題である「教師なしビデオ・ドメイン適応(Unsupervised Video Domain Adaptation: UVDA)」のための簡潔な手法「MetaTrans」を提案しています。現実の多くのシナリオでは、ある環境で学習させたビデオモデルを別の環境に導入する必要がありますが、そこでは背景、カメラ、照明、動きのパターン、視覚スタイルなどが異なる場合があります。新しい環境ごとにラベル付きデータを収集することはコストがかかるため、「教師なし適応」は極めて重要な研究方向です。
MetaTransは、わずか2つの基本的な損失項(Loss terms)からなる簡潔な学習目的を採用しつつ、「時系列-静的減算モジュール(Temporal-static subtraction module)」を用いて、クロスドメイン・ビデオにおける空間的・時間的な乖離に個別に対処します。クロスドメインの行動認識(Action recognition)タスクにおける大規模な実験において、既存の最先端UVDAベースラインと比較して、大幅な適応精度の向上と強力な相対的優位性を実証しました。
この手法は、ビデオコンテンツ分析、職場の安全管理、スマート環境、メディア理解など、導入環境の条件が訓練データと大きく異なる可能性がある様々なアプリケーションにおいて、より適応性の高いビデオAIシステムの構築に貢献します。
今後の展望
ICML 2026に2本の論文が採択されたことは、私たちのチームの研究努力が大きく認められた結果です。MTRIは今後も、マルチモーダルAI、高効率な機械学習、そして堅牢な視覚理解の分野における研究を強化していきます。今回の成果は、MTRIが「学術的な卓越性」と「実用的なAIイノベーション」の両立を重視している証であり、実環境に導入されるAIシステムの速度、信頼性、および適応性を向上させる技術の開発に引き続き邁進してまいります。
