
AnthropicがClaude Code品質低下の原因と修正内容を公表
Anthropicは2026年4月24日、Claude Code、Claude Agent SDK、Claude Coworkで一部ユーザーが感じていた品質低下の原因を公表しました。
詳細は公式ページで確認できます。
ニュース

Anthropicは2026年4月24日、Claude Code、Claude Agent SDK、Claude Coworkで一部ユーザーが感じていた品質低下の原因を公表しました。
詳細は公式ページで確認できます。
研究

MCPや多数の外部ツールを使うLLMエージェントで、毎ターン大量のツールスキーマを注入する負荷を減らすTool Attentionを提案した研究です。
詳細は公式ページで確認できます。
AI一覧
汎用対話AI
文章作成、要約、調査、日常の相談などを幅広くこなすAIです。
調査・検索AI
出典確認や情報収集の初動で強みが出やすいAIをまとめています。
コーディングAI
IDE連携、コード補完、実装支援など開発導線に入りやすいAIです。
ローカルLLM
手元PCで動かす公開モデルや、ローカル推論基盤をまとめています。
画像生成AI
キービジュアル、ラフ案、世界観づくりに向く画像生成AIです。
動画生成AI
短尺動画、演出検証、映像ラフの作成に向くAIです。
音声AI
読み上げ、音声生成、文字起こしなど音声まわりのAIです。
業務支援AI
議事録、ドキュメント、社内ナレッジ整理などに入りやすいAIです。
ニュース
| 日付 | ソース | カテゴリ | 見出し | 要約 |
|---|---|---|---|---|
| 2026/4/24 | Anthropic | 製品 | Anthropicは2026年4月24日、Claude Code、Claude Agent SDK、Claude Coworkで一部ユーザーが感じていた品質低下の原因を公表しました。 | |
| 2026/4/23 | Anthropic | 製品 | Anthropicは2026年4月23日、Claude Code 2.1.119を公開しました。 | |
| 2026/4/23 | OpenClaw | 製品 | OpenClawは2026年4月23日、2026.4.22を公開しました。 | |
| 2026/4/23 | OpenAI | 製品 | OpenAIは2026年4月23日、GPT-5.5を発表しました。 | |
| 2026/4/23 | Meta | 安全性 | Metaは2026年4月23日、未成年がAIとどのような会話をしているかを保護者が理解しやすくする新機能を発表しました。 | |
| 2026/4/23 | DomoAI | 製品 | DomoAIは2026年4月23日、GPT Image 2をDomoAI上で使えるようにしたと発表しました。 | |
| 2026/4/23 | OpenAI | 製品 | OpenAIは2026年4月23日、`@openai/codex` 0.124.0をnpmで公開しました。 | |
| 2026/4/22 | Anthropic | 研究 | Anthropicは2026年4月22日、80,508人のClaudeユーザー調査をもとに、AIが仕事の生産性や雇用不安にどう結びついているかを分析しました。 | |
| 2026/4/22 | NVIDIA | インフラ | NVIDIAは2026年4月22日、Google Cloudとの協力を通じてエージェントAIとフィジカルAI向けの基盤を進めると発表しました。 | |
| 2026/4/21 | Google | 製品 | Googleは2026年4月21日、AI UIデザインツールStitchで使う`DESIGN.md`形式をオープンソース化しました。 | |
| 2026/4/21 | Google | Business | Googleは2026年4月21日、Google LabsのAIマーケティングツールPomelliを欧州の中小企業向けに英語で提供すると発表しました。 | |
| 2026/4/21 | Google | 製品 | Googleは2026年4月21日、Gemini 3.1 Proを使うDeep ResearchとDeep Research Maxを発表しました。 | |
| 2026/4/20 | Anthropic | インフラ | Anthropicは2026年4月20日、Amazonとの協力を拡大し、最大5ギガワット規模の新しい計算基盤を確保する計画を発表しました。 | |
| 2026/4/16 | Anthropic | 製品 | Anthropicは2026年4月16日、Claude Code 2.1.111を公開しました。 | |
| 2026/4/16 | OpenClaw | 製品 | OpenClawは2026年4月16日、2026.4.15を公開しました。 | |
| 2026/4/16 | Anthropic | 製品 | Anthropicは2026年4月16日、Claude Opus 4.7を一般提供開始しました。 | |
| 2026/4/15 | Anthropic | 製品 | Anthropicは2026年4月15日、Claude Code 2.1.110を公開しました。 | |
| 2026/4/15 | OpenAI | 製品 | OpenAIは2026年4月15日までにCodexのGitHub Releasesを0.121.0-alpha.14まで進め、npmでも`@openai/codex` 0.122.0-alpha.1を公開しました。 | |
| 2026/4/15 | Dreamina | 製品 | DreaminaはSeedance 2.0を前面に出し、画像・動画・音声・テキストを組み合わせた参照入力で動画を生成できる導線を公開しました。 | |
| 2026/4/14 | Anthropic | 製品 | Anthropicは2026年4月14日、Claude Code 2.1.108を公開しました。 | |
| 2026/4/14 | OpenClaw | 製品 | OpenClawは2026年4月14日、2026.4.14リリースを公開しました。 | |
| 2026/4/13 | Anthropic | 製品 | Anthropicは2026年4月13日、Claude Code 2.1.105を公開しました。 | |
| 2026/4/13 | OpenClaw | 製品 | OpenClawは2026年4月13日、2026.4.12リリースを公開しました。 | |
| 2026/4/13 | Google | 教育 | Googleは2026年4月13日、教育向けAI機能の更新を発表しました。 | |
| 2026/4/12 | OpenClaw | 製品 | OpenClawは2026年4月12日、2026.4.11リリースを公開しました。 | |
| 2026/4/11 | OpenAI | 製品 | OpenAIは2026年4月11日、Codex CLI 0.120.0を公開しました。 | |
| 2026/4/10 | Anthropic | 製品 | Anthropicは2026年4月10日、Claude Code 2.1.101を公開しました。 | |
| 2026/4/10 | Google | 製品 | Googleは2026年4月10日、英国のAI Mode in Searchでレストラン予約支援を開始しました。 | |
| 2026/4/9 | Anthropic | 製品 | Anthropicは2026年4月9日、Claude Code v2.1.98を公開しました。 | |
| 2026/4/9 | Anthropic | 安全性 | Anthropicは2026年4月9日、エージェントを安全に運用する設計原則をまとめた「Trustworthy agents in practice」を公開しました。 | |
| 2026/4/9 | Google | 製品 | Googleは2026年4月9日、Geminiアプリ内で3Dモデルや対話型シミュレーションを生成できる機能を発表しました。 | |
| 2026/4/9 | OpenAI | 製品 | OpenAIは2026年4月9日、Codex CLIの alpha 0.119.0-alpha.29 をGitHub Releasesとnpmで公開しました。 | |
| 2026/4/8 | Google | 製品 | Googleは2026年4月8日、GeminiアプリにNotebooks機能を追加しました。 | |
| 2026/4/8 | Anthropic | 製品 | Anthropicは2026年4月8日、Claude Managed Agentsを公開ベータで発表しました。 | |
| 2026/4/8 | OpenClaw | 製品 | OpenClawは2026年4月8日、2026.4.8を公開しました。 | |
| 2026/4/8 | OpenClaw | 製品 | OpenClawは2026年4月8日、2026.4.7を公開しました。 | |
| 2026/4/8 | X Developers | 製品 | X Developersは2026年4月8日、X APIをMCPツールとして呼び出せるローカルのXMCPと、X APIドキュメントを検索できるDocs MCPを公開しました。 | |
| 2026/4/8 | Meta | 製品 | Metaは2026年4月8日、Meta Superintelligence Labs初のモデルMuse Sparkを正式発表しました。 | |
| 2026/4/8 | Google | 教育 | Googleは2026年4月8日、Google ColabのGemini連携にLearn ModeとCustom Instructionsを追加しました。 | |
| 2026/4/7 | Anthropic | 製品 | Anthropicは2026年4月7日、Claude Code v2.1.94を公開しました。 | |
| 2026/4/7 | Anthropic | 安全性 | Anthropicは2026年4月7日、重要インフラや主要ソフトウェアの脆弱性発見と修正を支援するProject Glasswingを発表しました。 | |
| 2026/4/6 | Anthropic | 製品 | Anthropicは2026年4月6日、GoogleとBroadcomとの提携拡大を発表し、2027年から順次稼働する複数ギガワット規模の次世代TPU計算資源を確保する方針を示しました。 | |
| 2026/4/4 | Google One | 製品 | Google Oneが日本向けのGoogle AIプラン案内を更新し、Google AI Plus / Pro / Ultraの違いと、Gemini 3.1 Pro、Deep Research、Flow、NotebookLM、Julesなどの利用範囲を整理した。 | |
| 2026/4/3 | Dreamina | 製品 | Dreaminaが動画制作向けモデルSeedance 1.0の案内を公開し、テキストから短尺のAI動画を作る基本導線を日本語で案内した。 | |
| 2026/4/3 | Dreamina | 製品 | DreaminaがSeedance 2.0の日本語ページを公開し、画像・動画・音声の参照素材を使って短尺動画を生成する導線を前面に出した。 | |
| 2026/4/2 | Zhipu AI | 製品 | 智谱AIは2026年4月2日付の公式ドキュメント更新で、ホスト済みエージェントを直接呼び出せるAgent APIの「智能体对话」エンドポイントを公開しました。 | |
| 2026/4/2 | Zhipu AI | 製品 | 智谱AIは2026年4月2日付の公式ドキュメント更新で、アップロードしたファイルを同期的に解析するAPIを公開しました。 | |
| 2026/4/2 | Zhipu AI | 製品 | 智谱AIは2026年4月2日付の公式ドキュメント更新で、既存のバッチジョブ一覧を取得できるBatch APIを公開しました。 | |
| 2026/4/2 | Zhipu AI | 製品 | 智谱AIは2026年4月2日付の公式ドキュメント更新で、画像ファイルを送信して文字や手書き文字を抽出できるOCRサービスAPIを公開しました。 | |
| 2026/4/2 | Google | 製品 | GoogleはGemma 4を公開し、E2B / E4B / 26B MoE / 31B Denseの4構成を展開した。 | |
| 2026/4/2 | NVIDIA | 製品 | NVIDIAはGoogleのGemma 4をRTX PC、DGX Spark、Jetson向けに最適化し、ローカル環境での推論、コーディング、マルチモーダル処理を押し出した。 | |
| 2026/4/2 | Google | 製品 | GoogleはGemini APIに、低コスト重視のFlex Inferenceと高信頼重視のPriority Inferenceを追加した。 | |
| 2026/4/2 | Anthropic | 研究 | Anthropicは2026年4月2日、Claude Sonnet 4.5の内部に感情概念に対応する表現があり、それが応答や意思決定を実際に変えるとする研究を公開しました。 | |
| 2026/4/2 | OpenAI | 製品 | OpenAIは2026年4月2日、ChatGPT BusinessとEnterprise向けに、固定席料金なしで使えるCodex専用シートを追加しました。 | |
| 2026/4/1 | Google | 製品 | Googleはコーディングエージェント向けにGemini API Docs MCPとGemini API Developer Skillsを公開した。 | |
| 2026/4/1 | Dreamina | 製品 | Dreaminaは日本語ページで、Seedance 1.5 Proの利用導線を公開しました。 | |
| 2026/4/1 | Anthropic | 製品 | AnthropicはClaude Codeの製品ページを公開し、コードベース読解、複数ファイル修正、CLI実行、GitHub・GitLabのCI監視、承認付き実行といった実運用の使い方を前面に出しました。 | |
| 2026/3/31 | OpenAI | Company | OpenAIは新たな資金調達ラウンドを完了し、巨大な計算資源投資とプロダクト拡張を進める方針を示した。 | |
| 2026/3/31 | Anthropic | 研究 | AnthropicはEconomic Indexの豪州版を公開し、豪州がClaudeの高採用国である一方、利用はコーディング偏重ではなく管理・事務・個人用途まで広く分散していると報告しました。 | |
| 2026/3/31 | NVIDIA | 製品 | NVIDIAは電力事業者や産業パートナーと連携し、需要に応じて電力消費を調整できる『power-flexible AI factories』の取り組みを拡大すると発表しました。 | |
| 2026/3/31 | Google | 製品 | Googleは2026年3月31日、低コスト寄りの動画生成モデルVeo 3.1 Liteを公開しました。 | |
| 2026/3/31 | Anthropic | 安全性 | Anthropicは豪州政府とAI安全性・研究に関する覚書を締結しました。 | |
| 2026/3/31 | Meta | 製品 | Metaは、度付きレンズに広く対応する新しいRay-Ban Meta光学モデルを発表しました。 | |
| 2026/3/30 | OpenAI | 製品 | OpenAIは、楽天グループが自社データ基盤とOpenAI APIを組み合わせ、顧客問い合わせ対応、レビュー要約、法人向け分析支援に生成AIを広げている事例を公開しました。 | |
| 2026/3/30 | Anthropic | 製品 | Anthropicは、NASA JPLがPerseverance roverの約400メートル走行でClaudeを経路計画に使った事例を公開しました。 | |
| 2026/3/27 | Zhipu AI | 製品 | Zhipu AIは公開ドキュメントで、GLM-5.1 をコーディング計画フローへ接続する手順を公開しました。 | |
| 2026/3/27 | Meta | 製品 | MetaはSAM 3.1を公開し、1回の推論で最大16オブジェクトを追跡できる多重化処理を導入しました。 | |
| 2026/3/27 | Anthropic | 安全性 | AnthropicはMozillaとの共同調査で、Claude Opus 4.6がFirefoxに関する22件の脆弱性を見つけ、うち14件が高重大度と判定されたと公表しました。 | |
| 2026/3/27 | Zhipu AI | 製品 | Zhipu AIは公開ドキュメントで、コーディング計画向けツールの一つとして OpenClaw を案内しました。 | |
| 2026/3/27 | Google | 製品 | Google CloudとMLBは、MLBアプリとMLB.comのGamedayフィード向けに、Geminiで試合状況を解説する『Scout Insights』を公開しました。 | |
| 2026/3/27 | OpenAI | 安全性 | OpenAIは従来のセキュリティ報奨金制度に加えて、AIの悪用や安全性リスクを対象にした公開のSafety Bug Bountyを始めました。 | |
| 2026/3/27 | Google | 製品 | Googleは3月版Gemini Dropで、他社AIからの会話履歴移行、GmailやPhotosなどを横断するPersonal Intelligenceの無料開放、Gemini Live 3.1の強化をまとめて公開しました。 | |
| 2026/3/27 | Meta | 製品 | Metaは、推薦システムに加えて生成AI負荷も支えるため、今後2年で4世代のMTIAチップを展開する計画を示しました。 | |
| 2026/3/27 | Zhipu AI | 製品 | Zhipu AIは公開ドキュメントで、コーディング計画フローの一部として Claude Code 関連ツールの案内を掲載しました。 | |
| 2026/3/26 | OpenAI | 製品 | OpenAIはBusiness向けアプリとしてOutlook Calendarを公開しました。 | |
| 2026/3/26 | Meta | 製品 | MetaはWhatsAppで、大容量ファイルを会話単位で見つけて削除できる保存管理、同一端末での複数アカウント利用、iOSとAndroid間を含む会話履歴移行の拡張を公開しました。 | |
| 2026/3/26 | Google | 製品 | GoogleはGeminiで、他のAIアプリから会話履歴のZIPファイルや好みの要約を取り込み、過去の文脈や個人設定を引き継げる移行機能を案内しました。 | |
| 2026/3/26 | Meta | 研究 | Metaは、視覚・音声・言語に対する脳活動を予測するTRIBE v2を公開しました。 | |
| 2026/3/26 | NVIDIA | 製品 | NVIDIAはGTC 2026で、物理AI向けにCosmos 3、Isaac GR00T N1.7、Alpamayo 1.5を公開し、ロボットや自動運転向けデータ生成を支えるPhysical AI Data Factory Blueprintも発表しました。 | |
| 2026/3/26 | Meta | 製品 | Metaは広告主向けに、Advantage+ creativeの生成AI機能を拡張しました。 | |
| 2026/3/25 | NVIDIA | 製品 | NVIDIAは、今後のAIエコシステムはオープンモデルと独自モデルのどちらか一方ではなく、両方が共存する形で進むとする見解を公開しました。 | |
| 2026/3/25 | Google | 製品 | Googleは音楽生成モデルLyria 3 Proを、Vertex AI、Google AI Studio、Gemini API、Google Vids、Geminiアプリなどへ広げました。 | |
| 2026/3/25 | OpenAI | 研究 | OpenAIはModel Specを、モデルの望ましい振る舞いを外部から読める公開フレームワークとして説明しました。 | |
| 2026/3/25 | Google | 製品 | Googleは音楽生成モデルLyria 3とLyria 3 Clipを、Gemini APIとGoogle AI Studioで開発者向け公開プレビューに載せました。 | |
| 2026/3/25 | NVIDIA | 製品 | NVIDIAは、AIファクトリーが需要応答や負荷移動を通じて電力網の安定化に貢献できる仕組みを詳しく説明しました。 | |
| 2026/3/25 | Meta | 製品 | Metaは、AIによる商品発見とクリエイター経由の推薦を組み合わせる新しいコマース導線を打ち出しました。 | |
| 2026/3/24 | Meta | 製品 | MetaはArmと協業し、大規模AIデータセンター向けの新しいCPU群を共同開発すると発表しました。 | |
| 2026/3/21 | Anthropic | 製品 | AnthropicはEconomic Futuresページで、AIの経済影響に関する研究助成、政策対話、実利用データの公開を一体で進める方針を示しています。 | |
| 2026/3/20 | OpenAI | 研究 | OpenAIは科学者と数学者向けに、フロンティアモデルと研究ツールを組み合わせた新しい研究ハブ『OpenAI for Science』を公開しました。 | |
| 2026/3/19 | OpenAI | 研究 | OpenAIは研究者や研究志向の人材向けにResearch Residencyの案内ページを更新しました。 | |
| 2026/3/19 | Google | 教育 | Googleは教育分野におけるAI活用の情報を整理し、学習支援や教育現場での導入例を見やすく更新しました。 | |
| 2026/3/19 | Anthropic | 製品 | Anthropicは上位モデルの更新としてClaude Opus 4.6を公開しました。 | |
| 2026/3/19 | Meta | 安全性 | Metaは新しい保護技術と連携施策を通じて、詐欺対策とユーザー保護の取り組みを強化する方針を紹介しました。 | |
| 2026/3/19 | Meta | 安全性 | MetaはFacebookとInstagramでMeta AIサポートアシスタントのグローバル展開を開始しました。 | |
| 2026/3/18 | Anthropic | 研究 | Anthropicは、Claudeユーザー80,508人を対象にした大規模な自由回答調査の結果を公開しました。 | |
| 2026/3/18 | Meta | 製品 | Metaは、他平台で実績を持つクリエイター向けにFacebook上での成長と収益化を加速する『Creator Fast Track』を始めました。 | |
| 2026/2/17 | Anthropic | 製品 | AnthropicはSonnet系の最新版としてClaude Sonnet 4.6を公開しました。 |
Anthropicは2026年4月24日、Claude Code、Claude Agent SDK、Claude Coworkで一部ユーザーが感じていた品質低下の原因を公表しました。
Anthropicは2026年4月23日、Claude Code 2.1.119を公開しました。
OpenClawは2026年4月23日、2026.4.22を公開しました。
OpenAIは2026年4月23日、GPT-5.5を発表しました。
Metaは2026年4月23日、未成年がAIとどのような会話をしているかを保護者が理解しやすくする新機能を発表しました。
DomoAIは2026年4月23日、GPT Image 2をDomoAI上で使えるようにしたと発表しました。
OpenAIは2026年4月23日、`@openai/codex` 0.124.0をnpmで公開しました。
Anthropicは2026年4月22日、80,508人のClaudeユーザー調査をもとに、AIが仕事の生産性や雇用不安にどう結びついているかを分析しました。
NVIDIAは2026年4月22日、Google Cloudとの協力を通じてエージェントAIとフィジカルAI向けの基盤を進めると発表しました。
Googleは2026年4月21日、AI UIデザインツールStitchで使う`DESIGN.md`形式をオープンソース化しました。
Googleは2026年4月21日、Google LabsのAIマーケティングツールPomelliを欧州の中小企業向けに英語で提供すると発表しました。
Googleは2026年4月21日、Gemini 3.1 Proを使うDeep ResearchとDeep Research Maxを発表しました。
Anthropicは2026年4月20日、Amazonとの協力を拡大し、最大5ギガワット規模の新しい計算基盤を確保する計画を発表しました。
Anthropicは2026年4月16日、Claude Code 2.1.111を公開しました。
OpenClawは2026年4月16日、2026.4.15を公開しました。
Anthropicは2026年4月16日、Claude Opus 4.7を一般提供開始しました。
Anthropicは2026年4月15日、Claude Code 2.1.110を公開しました。
OpenAIは2026年4月15日までにCodexのGitHub Releasesを0.121.0-alpha.14まで進め、npmでも`@openai/codex` 0.122.0-alpha.1を公開しました。
DreaminaはSeedance 2.0を前面に出し、画像・動画・音声・テキストを組み合わせた参照入力で動画を生成できる導線を公開しました。
Anthropicは2026年4月14日、Claude Code 2.1.108を公開しました。
OpenClawは2026年4月14日、2026.4.14リリースを公開しました。
Anthropicは2026年4月13日、Claude Code 2.1.105を公開しました。
OpenClawは2026年4月13日、2026.4.12リリースを公開しました。
Googleは2026年4月13日、教育向けAI機能の更新を発表しました。
OpenClawは2026年4月12日、2026.4.11リリースを公開しました。
OpenAIは2026年4月11日、Codex CLI 0.120.0を公開しました。
Anthropicは2026年4月10日、Claude Code 2.1.101を公開しました。
Googleは2026年4月10日、英国のAI Mode in Searchでレストラン予約支援を開始しました。
Anthropicは2026年4月9日、Claude Code v2.1.98を公開しました。
Anthropicは2026年4月9日、エージェントを安全に運用する設計原則をまとめた「Trustworthy agents in practice」を公開しました。
Googleは2026年4月9日、Geminiアプリ内で3Dモデルや対話型シミュレーションを生成できる機能を発表しました。
OpenAIは2026年4月9日、Codex CLIの alpha 0.119.0-alpha.29 をGitHub Releasesとnpmで公開しました。
Googleは2026年4月8日、GeminiアプリにNotebooks機能を追加しました。
Anthropicは2026年4月8日、Claude Managed Agentsを公開ベータで発表しました。
OpenClawは2026年4月8日、2026.4.8を公開しました。
OpenClawは2026年4月8日、2026.4.7を公開しました。
X Developersは2026年4月8日、X APIをMCPツールとして呼び出せるローカルのXMCPと、X APIドキュメントを検索できるDocs MCPを公開しました。
Metaは2026年4月8日、Meta Superintelligence Labs初のモデルMuse Sparkを正式発表しました。
Googleは2026年4月8日、Google ColabのGemini連携にLearn ModeとCustom Instructionsを追加しました。
Anthropicは2026年4月7日、Claude Code v2.1.94を公開しました。
Anthropicは2026年4月7日、重要インフラや主要ソフトウェアの脆弱性発見と修正を支援するProject Glasswingを発表しました。
Anthropicは2026年4月6日、GoogleとBroadcomとの提携拡大を発表し、2027年から順次稼働する複数ギガワット規模の次世代TPU計算資源を確保する方針を示しました。
Google Oneが日本向けのGoogle AIプラン案内を更新し、Google AI Plus / Pro / Ultraの違いと、Gemini 3.1 Pro、Deep Research、Flow、NotebookLM、Julesなどの利用範囲を整理した。
Dreaminaが動画制作向けモデルSeedance 1.0の案内を公開し、テキストから短尺のAI動画を作る基本導線を日本語で案内した。
DreaminaがSeedance 2.0の日本語ページを公開し、画像・動画・音声の参照素材を使って短尺動画を生成する導線を前面に出した。
智谱AIは2026年4月2日付の公式ドキュメント更新で、ホスト済みエージェントを直接呼び出せるAgent APIの「智能体对话」エンドポイントを公開しました。
智谱AIは2026年4月2日付の公式ドキュメント更新で、アップロードしたファイルを同期的に解析するAPIを公開しました。
智谱AIは2026年4月2日付の公式ドキュメント更新で、既存のバッチジョブ一覧を取得できるBatch APIを公開しました。
智谱AIは2026年4月2日付の公式ドキュメント更新で、画像ファイルを送信して文字や手書き文字を抽出できるOCRサービスAPIを公開しました。
GoogleはGemma 4を公開し、E2B / E4B / 26B MoE / 31B Denseの4構成を展開した。
NVIDIAはGoogleのGemma 4をRTX PC、DGX Spark、Jetson向けに最適化し、ローカル環境での推論、コーディング、マルチモーダル処理を押し出した。
GoogleはGemini APIに、低コスト重視のFlex Inferenceと高信頼重視のPriority Inferenceを追加した。
Anthropicは2026年4月2日、Claude Sonnet 4.5の内部に感情概念に対応する表現があり、それが応答や意思決定を実際に変えるとする研究を公開しました。
OpenAIは2026年4月2日、ChatGPT BusinessとEnterprise向けに、固定席料金なしで使えるCodex専用シートを追加しました。
Googleはコーディングエージェント向けにGemini API Docs MCPとGemini API Developer Skillsを公開した。
Dreaminaは日本語ページで、Seedance 1.5 Proの利用導線を公開しました。
AnthropicはClaude Codeの製品ページを公開し、コードベース読解、複数ファイル修正、CLI実行、GitHub・GitLabのCI監視、承認付き実行といった実運用の使い方を前面に出しました。
OpenAIは新たな資金調達ラウンドを完了し、巨大な計算資源投資とプロダクト拡張を進める方針を示した。
AnthropicはEconomic Indexの豪州版を公開し、豪州がClaudeの高採用国である一方、利用はコーディング偏重ではなく管理・事務・個人用途まで広く分散していると報告しました。
NVIDIAは電力事業者や産業パートナーと連携し、需要に応じて電力消費を調整できる『power-flexible AI factories』の取り組みを拡大すると発表しました。
Googleは2026年3月31日、低コスト寄りの動画生成モデルVeo 3.1 Liteを公開しました。
Anthropicは豪州政府とAI安全性・研究に関する覚書を締結しました。
Metaは、度付きレンズに広く対応する新しいRay-Ban Meta光学モデルを発表しました。
OpenAIは、楽天グループが自社データ基盤とOpenAI APIを組み合わせ、顧客問い合わせ対応、レビュー要約、法人向け分析支援に生成AIを広げている事例を公開しました。
Anthropicは、NASA JPLがPerseverance roverの約400メートル走行でClaudeを経路計画に使った事例を公開しました。
Zhipu AIは公開ドキュメントで、GLM-5.1 をコーディング計画フローへ接続する手順を公開しました。
MetaはSAM 3.1を公開し、1回の推論で最大16オブジェクトを追跡できる多重化処理を導入しました。
AnthropicはMozillaとの共同調査で、Claude Opus 4.6がFirefoxに関する22件の脆弱性を見つけ、うち14件が高重大度と判定されたと公表しました。
Zhipu AIは公開ドキュメントで、コーディング計画向けツールの一つとして OpenClaw を案内しました。
Google CloudとMLBは、MLBアプリとMLB.comのGamedayフィード向けに、Geminiで試合状況を解説する『Scout Insights』を公開しました。
OpenAIは従来のセキュリティ報奨金制度に加えて、AIの悪用や安全性リスクを対象にした公開のSafety Bug Bountyを始めました。
Googleは3月版Gemini Dropで、他社AIからの会話履歴移行、GmailやPhotosなどを横断するPersonal Intelligenceの無料開放、Gemini Live 3.1の強化をまとめて公開しました。
Metaは、推薦システムに加えて生成AI負荷も支えるため、今後2年で4世代のMTIAチップを展開する計画を示しました。
Zhipu AIは公開ドキュメントで、コーディング計画フローの一部として Claude Code 関連ツールの案内を掲載しました。
OpenAIはBusiness向けアプリとしてOutlook Calendarを公開しました。
MetaはWhatsAppで、大容量ファイルを会話単位で見つけて削除できる保存管理、同一端末での複数アカウント利用、iOSとAndroid間を含む会話履歴移行の拡張を公開しました。
GoogleはGeminiで、他のAIアプリから会話履歴のZIPファイルや好みの要約を取り込み、過去の文脈や個人設定を引き継げる移行機能を案内しました。
Metaは、視覚・音声・言語に対する脳活動を予測するTRIBE v2を公開しました。
NVIDIAはGTC 2026で、物理AI向けにCosmos 3、Isaac GR00T N1.7、Alpamayo 1.5を公開し、ロボットや自動運転向けデータ生成を支えるPhysical AI Data Factory Blueprintも発表しました。
Metaは広告主向けに、Advantage+ creativeの生成AI機能を拡張しました。
NVIDIAは、今後のAIエコシステムはオープンモデルと独自モデルのどちらか一方ではなく、両方が共存する形で進むとする見解を公開しました。
Googleは音楽生成モデルLyria 3 Proを、Vertex AI、Google AI Studio、Gemini API、Google Vids、Geminiアプリなどへ広げました。
OpenAIはModel Specを、モデルの望ましい振る舞いを外部から読める公開フレームワークとして説明しました。
Googleは音楽生成モデルLyria 3とLyria 3 Clipを、Gemini APIとGoogle AI Studioで開発者向け公開プレビューに載せました。
NVIDIAは、AIファクトリーが需要応答や負荷移動を通じて電力網の安定化に貢献できる仕組みを詳しく説明しました。
Metaは、AIによる商品発見とクリエイター経由の推薦を組み合わせる新しいコマース導線を打ち出しました。
MetaはArmと協業し、大規模AIデータセンター向けの新しいCPU群を共同開発すると発表しました。
AnthropicはEconomic Futuresページで、AIの経済影響に関する研究助成、政策対話、実利用データの公開を一体で進める方針を示しています。
OpenAIは科学者と数学者向けに、フロンティアモデルと研究ツールを組み合わせた新しい研究ハブ『OpenAI for Science』を公開しました。
OpenAIは研究者や研究志向の人材向けにResearch Residencyの案内ページを更新しました。
Googleは教育分野におけるAI活用の情報を整理し、学習支援や教育現場での導入例を見やすく更新しました。
Anthropicは上位モデルの更新としてClaude Opus 4.6を公開しました。
Metaは新しい保護技術と連携施策を通じて、詐欺対策とユーザー保護の取り組みを強化する方針を紹介しました。
MetaはFacebookとInstagramでMeta AIサポートアシスタントのグローバル展開を開始しました。
Anthropicは、Claudeユーザー80,508人を対象にした大規模な自由回答調査の結果を公開しました。
Metaは、他平台で実績を持つクリエイター向けにFacebook上での成長と収益化を加速する『Creator Fast Track』を始めました。
AnthropicはSonnet系の最新版としてClaude Sonnet 4.6を公開しました。
研究
| 日付 | カテゴリ | 見出し | 要約 |
|---|---|---|---|
| 2026/4/23 | 研究 | MCPや多数の外部ツールを使うLLMエージェントで、毎ターン大量のツールスキーマを注入する負荷を減らすTool Attentionを提案した研究です。 | |
| 2026/4/23 | 研究 | LLMを使ってゲームエージェントを作成、カスタマイズ、展開する対話型環境Nemobotを提案した研究です。 | |
| 2026/4/23 | 研究 | LLMベースのマルチエージェントシステムで、エージェント間の通信を固定テキストプロトコルではなく学習可能な潜在表現として扱うDiffMASを提案した研究です。 | |
| 2026/4/23 | 研究 | 自然言語の研究課題を、科学ワークフローのDAGへ変換するエージェント型アーキテクチャを提案した研究です。 | |
| 2026/4/23 | 研究 | 高リスクAIの安全性を、白箱解析ではなく統計的な認証として扱う2段階フレームワークを提案した研究です。 | |
| 2026/4/23 | 研究 | ユーザーが明確な目標を持ってプロンプトを書くという前提を問い直し、目標が形成途中のままAIと対話する「Fantasia interactions」を整理した研究です。 | |
| 2026/4/16 | マルチモーダル | 光の強さ、色、環境光、拡散度、3D光源位置を属性トークンとして扱い、写真の照明を連続的に編集できる画像再照明手法を提案した研究です。 | |
| 2026/4/16 | 研究 | 拡散型生成器が複数の走行軌跡を出し、強化学習で最適化した識別器が長期的な運転品質で再順位付けするRAD-2を提案した研究です。 | |
| 2026/4/16 | マルチモーダル | 画像や動画などのAIGC素材を個別に置くだけでは崩れやすいWebページ生成に対し、全体レイアウトと各要素生成を階層的に計画し、自己反省を回しながら統合するMM-WebAgentを提案した研究です。 | |
| 2026/4/16 | マルチモーダル | Flow Matching型画像生成モデルを人間の好みに合わせて後学習する際、長い生成軌跡を2段のジャンプへ圧縮して初期ステップまで報酬勾配を届かせるLeapAlignを提案した研究です。 | |
| 2026/4/16 | 研究 | 最短経路問題を使った制御しやすい合成環境で、LLMの問題解決能力がどこまで一般化するかを分解して調べた研究です。 | |
| 2026/4/16 | マルチモーダル | 高速移動や厳しい照明下で、イベントカメラと通常フレームの特徴を双方向に行き来させながら整合させるBi-CMPStereoを提案した研究です。 | |
| 2026/4/14 | マルチモーダル | 画像と指示の組ごとにチェックリスト型ルーブリックを作り、その基準で応答を評価してDPOを改善するrDPOを提案する研究です。 | |
| 2026/4/14 | マルチモーダル | LLMやVLMが作る室内レイアウトを、レンダリング画像ではなく空間オントロジーと記号的制約で評価する研究です。 | |
| 2026/4/14 | マルチモーダル | 動画生成を使って探索可能な3D世界を作る際に問題になりやすい空間忘却と時間ドリフトを、3D幾何に基づく過去フレーム参照と自己劣化履歴学習で抑える研究です。 | |
| 2026/4/14 | マルチモーダル | 拡散モデルの計算コストと自己回帰モデルの離散化誤差をまとめて改善するため、ほぼ情報損失のないHBQと段階的な全体リファインメントを組み合わせたGRNを提案する研究です。 | |
| 2026/4/14 | 研究 | 望ましい地域温度変化を条件に、物理的にもっともらしい複数の都市植生パターンを生成する逆問題を、予測用のforward modelと拡散ベース逆生成モデルで解く研究です。 | |
| 2026/4/14 | 研究 | 急増するシステムログを毎回展開・構文解析せず、圧縮済みバイト列のまま異常検知する深層学習フレームワークを提案する研究です。 | |
| 2026/4/14 | 研究 | Anthropicは2026年4月14日、LLMを使って弱い監督から強いモデルの改善策を自律探索する研究を公開しました。 | |
| 2026/4/10 | マルチモーダル | Video LLMで広く使われるトークン削減を見直し、注意分布の多峰性を踏まえた選択と、位置構造を保つST-RoPEを組み合わせて映像信号の使い方を最適化する研究です。 | |
| 2026/4/10 | マルチモーダル | 視覚特徴を逆向きにプロンプトへ注入するクロスモーダル注意と条件付き変調を組み合わせ、ノイズの多い教師ラベルでもVLMのプロンプト更新を安定化させる研究です。 | |
| 2026/4/10 | LLM | 重み刈り込みを因果介入として使い、LLMの有害生成が少数の重み集合に圧縮され、無害な能力とはある程度分離している可能性を示した研究です。 | |
| 2026/4/10 | LLM | 一人称動画に対して、行動前の発話、語単位タイムスタンプ、空間ラベル、シーン記憶を組み合わせ、長時間タスク向けの推論と計画を評価できるデータ収集パイプラインを整えた研究です。 | |
| 2026/4/10 | LLM | 症例文脈、外部証拠、構造化クレームを組み合わせ、証拠が本当に判断を左右しているかを学習させるための監督データ生成枠組みを提案した研究です。 | |
| 2026/4/10 | 研究 | 高次元の物理シミュレーションで重要な時点だけを選び、隣接スナップショットの差分をニューラル場で学習して、時系列と空間の両方を単一ストリームで圧縮する研究です。 | |
| 2026/4/9 | マルチモーダル | テキスト内の数詞と動画中の物体数のずれを見つけて再生成を誘導する、学習不要の動画生成補助枠組みNUMINAを提案した研究です。 | |
| 2026/4/9 | 画像理解 | 少数の実演から実環境に整合したシミュレータを構築し、拡散ベース軌道生成で変形物操作の合成データを増やすSIM1を提案した研究です。 | |
| 2026/4/9 | 研究 | 変形ガウシアンから自由形状の骨、スケルトン、動作バインディングを順に構築し、可動カテゴリの4D形状を再構成しながら操作しやすいriggingへ圧縮する研究です。 | |
| 2026/4/9 | 研究 | 衣服の揺れを除去するundress段階と、密な対応付けで細部を合わせるdense fit段階を分け、SMPL-Xベースで衣服つき人物の3D body fittingを高精細かつ頑健にする研究です。 | |
| 2026/4/9 | 研究 | イベントカメラの非同期ストリームに合わせて潜在状態を更新する連続姿勢状態機械を導入し、一人称3D人体姿勢推定のぶれと自己遮蔽の弱さを改善する研究です。 | |
| 2026/4/9 | マルチモーダル | 正答性とツール効率を別々の最適化経路で学習するHDPOを提案し、見えている情報だけで解ける問題でも反射的にツールを呼ぶ癖を減らす研究です。 | |
| 2026/4/8 | 研究 | 座標構造を持つ意思決定問題で、最適行動に本当に必要な入力座標を厳密認証する際の計算可能性の境界を理論的に分析した研究です。 | |
| 2026/4/8 | Image | ViTベースの深層圧縮オートエンコーダで、トークン数設計と二段階圧縮、自己教師あり学習を組み合わせ、高圧縮時の潜在表現崩壊を抑える手法を提案した研究です。 | |
| 2026/4/8 | LLM | 一般的な品質ではなく、ユーザーごとの好みや基準に報酬モデルがどれだけ追従できるかを測る評価ベンチマークを提案した研究です。 | |
| 2026/4/8 | 動画 | 被写体の動きとカメラ視点を分けて操作しつつ、能動動作と受動反応の因果関係も扱える動画生成フレームワークを提案した研究です。 | |
| 2026/4/8 | インフラ | NVIDIA H100を備えたHPCデータセンターで、学習・微調整・推論時の電力を0.1秒単位で計測し、施設全体の電力需要へスケールする手法とデータセットを示した研究です。 | |
| 2026/4/8 | マルチモーダル | Elastic Test-Time Trainingで推論時更新の忘却を抑えながら、長い観測列から3D/4D表現を学習するFast Spatial Memoryを提案した研究です。 | |
| 2026/4/7 | LLM | 論文探索から評価、整理、知識グラフ化までをマルチエージェントで支援する、研究発見・分析基盤を提案した論文です。 | |
| 2026/4/7 | LLM | LLMのMLP最終射影行列を高速重みとして扱い、再学習なしで推論時適応を可能にするテスト時学習手法を提案した研究です。 | |
| 2026/4/7 | マルチモーダル | 視覚言語モデルの物体幻覚を、外部記述統計と内部デコード信号を分けて扱うベイズ的枠組みで推定・抑制する研究です。 | |
| 2026/4/7 | マルチモーダル | 動画拡散モデルの潜在空間で放射輝度を補完し、LDR動画をHDRへ変換する再露光フレームワークを提案した研究です。 | |
| 2026/4/7 | マルチモーダル | 7自由度のロボット操作をピクセルに接地したアクション画像へ変換し、マルチビュー動画生成として方策学習する手法を提案した研究です。 | |
| 2026/4/6 | マルチモーダル | 仮想試着と人物画像アニメーションを組み合わせ、合成三つ組データで衣服の整合性と動きの自然さを両立する手法を提案した研究です。 | |
| 2026/4/6 | マルチモーダル | 大規模モデルの効率を、単一推論ではなくマルチエージェント構成で再評価しようとする研究です。 | |
| 2026/4/6 | 研究 | 3Dシーン理解で入力や場面に応じてネットワークのパラメータを動的に適応させ、点群処理の表現力を高める手法を提案した研究です。 | |
| 2026/4/6 | マルチモーダル | 画像間の局所特徴マッチングを見直し、視覚対応付けの精度と頑健性の改善を狙う研究です。 | |
| 2026/4/6 | LLM | 推論途中の信頼度変化を使って、大規模推論モデルの停止タイミングを判断し、計算コスト削減を狙う研究です。 | |
| 2026/4/6 | LLM | LLM生成文の検出で、最終出力だけでなく生成者と編集者の役割を分けてモデル化し、より細かな判定を目指す研究です。 | |
| 2026/4/3 | 画像理解 | 言語条件に頼らず視覚入力だけで高解像化を行う生成モデルを提案し、画像超解像の新しい設計を示した。 | |
| 2026/4/3 | 画像理解 | 胸部CTの複数タスクを単一基盤で扱うため、低ランクHypernetworkを使った統合解析手法を提案した。 | |
| 2026/4/3 | 研究 | 端末側の更新だけに頼らず、サーバー側でも追加学習を行うことで、連合学習の頑健性と安定性を高める手法を検証した。 | |
| 2026/4/3 | マルチモーダル | 複数の視覚エンコーダを相補的に組み合わせることで、表現の多様性を保ちながら視覚言語モデルの性能を伸ばす学習枠組みを提案した。 | |
| 2026/4/3 | LLM | 回答するか棄権するかを含む意思決定モデルに基づき、LLMの自己確信が実際の判断にどれだけ役立つかを測るBAS指標を提案した。 | |
| 2026/4/2 | マルチモーダル | 3D意味地図、履歴考慮の計画、停滞時の自己修正を組み合わせたMetaNavを提案し、学習なしの視覚言語ナビゲーションで無駄な再訪や迷走を減らす。 | |
| 2026/4/2 | マルチモーダル | 視覚エンコーダの内部に軽量なクロスアテンションを入れ、自然言語で注目対象を切り替えながら汎用的な視覚表現の質を保つ手法を示した。 | |
| 2026/4/2 | LLM | 多様な正解があり得る自由回答では単一モデルが常に最適とは限らないと示し、プロンプトごとに最適モデルを選ぶルーターで多様性カバレッジを改善する手法を提案した。 | |
| 2026/4/2 | マルチモーダル | ModMapは、視点ごとに独立処理していた既存法と違い、多視点・多モーダル特徴をまとめて学習し、3D異常検知とセグメンテーションの精度向上を狙う。 | |
| 2026/4/2 | マルチモーダル | 100万本のインザワイルド動画で事前学習し、高品質な収集データで事後学習する二段構成により、全身3Dアバターの忠実度と汎化性を両立するLarge-Scale Codec Avatarsを提案した。 | |
| 2026/4/2 | LLM | 生成推薦で追加する新しい語彙トークンを平均埋め込みで初期化すると区別が潰れる問題を分析し、意味的に接地した初期化手法GTIを提案した。 | |
| 2026/4/2 | マルチモーダル | AAAゲームから収集した大規模な連続フレームとG-bufferを使い、逆レンダリングと前方レンダリングの両方を現実に近い条件で学習・評価する枠組みを提案した。 | |
| 2026/4/2 | マルチモーダル | 通常のカラー画像から擬似イベントと擬似アノテーションを作り、専用センサーの教師データなしでイベントベースのステレオネットワークを学習する枠組みを示した。 | |
| 2026/4/2 | マルチモーダル | 物体名の一致だけでは解けない段落長クエリを使い、役割・意図・関係性から対象を推定させるビジュアルグラウンディングの新ベンチマークRSCと、難度を考慮した推論法ScenGroundを提案した。 | |
| 2026/4/2 | LLM | 複数問題を同一コンテキストで同時に解かせる単段学習だけで、推論の正確さを保ちながらトークン消費を削るBatched Contextual Reinforcementを提案した。 | |
| 2026/4/2 | マルチモーダル | ActionPartyは、動画拡散モデルで複数の登場主体に別々の行動を結び付けるための状態トークンを導入し、生成型ビデオゲームで最大7人の同時制御を目指す。 | |
| 2026/4/2 | マルチモーダル | 長い履歴メモリを持たず、直近フレームだけを既存VLMへ渡す単純なスライディングウィンドウ法SimpleStreamが、多くのストリーミング動画理解モデルに匹敵または上回る性能を示した。 | |
| 2026/4/1 | LLM | Universal YOCOは、再帰計算とYOCOアーキテクチャを組み合わせ、推論時の計算量を抑えながら深い推論を行う手法です。 | |
| 2026/4/1 | 研究 | この論文は、AI天気予報の性能がモデル構造だけでなく、損失関数、学習方法、データ分布まで含むパイプライン全体で決まることを理論と実験の両面から整理します。 | |
| 2026/4/1 | 研究 | LAPIS-SHREDは、短い観測窓と疎なセンサー情報だけから、時空間ダイナミクス全体を再構成または予測する軽量なモジュール型手法です。 | |
| 2026/4/1 | マルチモーダル | HippoCampは、個人PC内の大量ファイルを横断して文脈推論するエージェントを評価するベンチマークです。 | |
| 2026/4/1 | LLM | CliffSearchは、理論案とコード実装を一体の成果物として扱い、LLMエージェント同士の選択、交叉、変異、レビューで科学アルゴリズム探索を回す枠組みです。 | |
| 2026/4/1 | LLM | YC-Benchは、AIエージェントに1年相当のスタートアップ運営を任せ、長期計画、遅延フィードバック、破綻回避まで評価するベンチマークです。 | |
| 2026/3/31 | マルチモーダル | この研究は、動画生成モデルが生成初期に計画を固める性質を利用し、迷路のような逐次的タスクを解く能力を検証しています。 | |
| 2026/3/31 | LLM | この論文は、複数のLLMをタスクごとに動的に振り分けるオンラインルーティングに NeuralUCB を適用し、報酬ベースで最適化する手法を提案しています。 | |
| 2026/3/31 | マルチモーダル | OmniRoamは、長時間かつパノラマ視点の動画生成で、仮想的な世界を歩き回るような体験を作る研究です。 | |
| 2026/3/31 | 画像理解 | この研究は、3D幾何コンピュータビジョンという専門性の高い領域で、博士課程レベルのコーディング課題をベンチマーク化しています。 | |
| 2026/3/31 | 研究 | この論文は、ソースコード表現に Transformer を使い、並列化しやすいループ構造を自動判定する手法を提案しています。 | |
| 2026/3/31 | LLM | この論文は、Chain-of-Thought を最適化したときに、性能向上と整合する場合、独立な場合、衝突する場合を整理しています。 | |
| 2026/3/30 | 画像理解 | PoseDreamerは、拡散モデルを使って3D人体メッシュ推定向けの合成学習データを大規模生成するパイプラインです。 | |
| 2026/3/30 | マルチモーダル | この論文は、Diffusion Transformers のマルチモーダル注意チャネルに途中介入し、生成中の文脈空間で反発を与えることで画像多様性を高める手法を提案しています。 | |
| 2026/3/30 | マルチモーダル | HandXは、指の細かな動きまで含む両手操作のモーション生成に向けて、既存データの統合と新規モーションキャプチャ収集、LLMベースの詳細注釈生成をまとめた基盤データセットを提案しています。 | |
| 2026/3/30 | 研究 | この論文は、ニューラル表現の類似性を状態空間の外在幾何ではなく、リーマン幾何に基づく内在幾何で比較する Metric Similarity Analysis を提案しています。 | |
| 2026/3/30 | マルチモーダル | Gen-Searcherは、画像生成前にマルチホップ検索で外部知識と参照画像を集める検索拡張型エージェントを提案しています。 | |
| 2026/3/30 | 研究 | この論文は、LLMの4bit量子化で広く使われるNVFP4の誤差分布を改善するため、FP4とINT4を切り替えるIF4などの適応型ブロックスケール形式を提案しています。 | |
| 2026/3/26 | マルチモーダル | Vegaは、視覚入力と言語指示をまとめて扱い、将来予測と軌道生成を同時に学習するVision-Language-World-Actionモデルです。 | |
| 2026/3/26 | マルチモーダル | ShotStreamは、長い物語を複数ショットでつなぐ動画生成を、履歴を見ながら逐次生成する因果型アーキテクチャに組み替えた研究です。 | |
| 2026/3/26 | 研究 | LGTMは、ガウシアン数を解像度に比例して増やす従来方式を見直し、少数のガウシアンにテクスチャを持たせることで高解像度の新規視点合成を可能にする手法です。 | |
| 2026/3/19 | マルチモーダル | NavTrustは、RGB、深度、指示文の破損を加えた条件で身体性ナビゲーションの頑健性を測る統合ベンチマークです。 | |
| 2026/3/19 | マルチモーダル | MonoArtは、単眼画像から物体形状、パーツ構造、可動パラメータを段階的に推論する統合フレームワークです。 | |
| 2026/3/19 | 研究 | Matryoshka Gaussian Splattingは、1つの3D Gaussian Splattingモデルから連続的な品質調整を可能にする学習手法です。 | |
| 2026/3/19 | マルチモーダル | この論文は、動画生成モデルが内在的に学んだ3D構造と物理法則の事前知識を取り出し、マルチモーダルモデルの空間理解を強化するVEGA-3Dを提案しています。 | |
| 2026/3/19 | マルチモーダル | CubiDは、768〜1024次元の高次元表現トークンを対象にした離散生成モデルです。 | |
| 2026/3/19 | 画像理解 | この論文は、意味条件に強い離散トークン生成と、運動制約に強い拡散モデルをつなぐ3段階の動作生成フレームワークを提案しています。 |
MCPや多数の外部ツールを使うLLMエージェントで、毎ターン大量のツールスキーマを注入する負荷を減らすTool Attentionを提案した研究です。
LLMを使ってゲームエージェントを作成、カスタマイズ、展開する対話型環境Nemobotを提案した研究です。
LLMベースのマルチエージェントシステムで、エージェント間の通信を固定テキストプロトコルではなく学習可能な潜在表現として扱うDiffMASを提案した研究です。
自然言語の研究課題を、科学ワークフローのDAGへ変換するエージェント型アーキテクチャを提案した研究です。
高リスクAIの安全性を、白箱解析ではなく統計的な認証として扱う2段階フレームワークを提案した研究です。
ユーザーが明確な目標を持ってプロンプトを書くという前提を問い直し、目標が形成途中のままAIと対話する「Fantasia interactions」を整理した研究です。
光の強さ、色、環境光、拡散度、3D光源位置を属性トークンとして扱い、写真の照明を連続的に編集できる画像再照明手法を提案した研究です。
拡散型生成器が複数の走行軌跡を出し、強化学習で最適化した識別器が長期的な運転品質で再順位付けするRAD-2を提案した研究です。
画像や動画などのAIGC素材を個別に置くだけでは崩れやすいWebページ生成に対し、全体レイアウトと各要素生成を階層的に計画し、自己反省を回しながら統合するMM-WebAgentを提案した研究です。
Flow Matching型画像生成モデルを人間の好みに合わせて後学習する際、長い生成軌跡を2段のジャンプへ圧縮して初期ステップまで報酬勾配を届かせるLeapAlignを提案した研究です。
最短経路問題を使った制御しやすい合成環境で、LLMの問題解決能力がどこまで一般化するかを分解して調べた研究です。
高速移動や厳しい照明下で、イベントカメラと通常フレームの特徴を双方向に行き来させながら整合させるBi-CMPStereoを提案した研究です。
画像と指示の組ごとにチェックリスト型ルーブリックを作り、その基準で応答を評価してDPOを改善するrDPOを提案する研究です。
LLMやVLMが作る室内レイアウトを、レンダリング画像ではなく空間オントロジーと記号的制約で評価する研究です。
動画生成を使って探索可能な3D世界を作る際に問題になりやすい空間忘却と時間ドリフトを、3D幾何に基づく過去フレーム参照と自己劣化履歴学習で抑える研究です。
拡散モデルの計算コストと自己回帰モデルの離散化誤差をまとめて改善するため、ほぼ情報損失のないHBQと段階的な全体リファインメントを組み合わせたGRNを提案する研究です。
望ましい地域温度変化を条件に、物理的にもっともらしい複数の都市植生パターンを生成する逆問題を、予測用のforward modelと拡散ベース逆生成モデルで解く研究です。
急増するシステムログを毎回展開・構文解析せず、圧縮済みバイト列のまま異常検知する深層学習フレームワークを提案する研究です。
Anthropicは2026年4月14日、LLMを使って弱い監督から強いモデルの改善策を自律探索する研究を公開しました。
Video LLMで広く使われるトークン削減を見直し、注意分布の多峰性を踏まえた選択と、位置構造を保つST-RoPEを組み合わせて映像信号の使い方を最適化する研究です。
視覚特徴を逆向きにプロンプトへ注入するクロスモーダル注意と条件付き変調を組み合わせ、ノイズの多い教師ラベルでもVLMのプロンプト更新を安定化させる研究です。
重み刈り込みを因果介入として使い、LLMの有害生成が少数の重み集合に圧縮され、無害な能力とはある程度分離している可能性を示した研究です。
一人称動画に対して、行動前の発話、語単位タイムスタンプ、空間ラベル、シーン記憶を組み合わせ、長時間タスク向けの推論と計画を評価できるデータ収集パイプラインを整えた研究です。
症例文脈、外部証拠、構造化クレームを組み合わせ、証拠が本当に判断を左右しているかを学習させるための監督データ生成枠組みを提案した研究です。
高次元の物理シミュレーションで重要な時点だけを選び、隣接スナップショットの差分をニューラル場で学習して、時系列と空間の両方を単一ストリームで圧縮する研究です。
テキスト内の数詞と動画中の物体数のずれを見つけて再生成を誘導する、学習不要の動画生成補助枠組みNUMINAを提案した研究です。
少数の実演から実環境に整合したシミュレータを構築し、拡散ベース軌道生成で変形物操作の合成データを増やすSIM1を提案した研究です。
変形ガウシアンから自由形状の骨、スケルトン、動作バインディングを順に構築し、可動カテゴリの4D形状を再構成しながら操作しやすいriggingへ圧縮する研究です。
衣服の揺れを除去するundress段階と、密な対応付けで細部を合わせるdense fit段階を分け、SMPL-Xベースで衣服つき人物の3D body fittingを高精細かつ頑健にする研究です。
イベントカメラの非同期ストリームに合わせて潜在状態を更新する連続姿勢状態機械を導入し、一人称3D人体姿勢推定のぶれと自己遮蔽の弱さを改善する研究です。
正答性とツール効率を別々の最適化経路で学習するHDPOを提案し、見えている情報だけで解ける問題でも反射的にツールを呼ぶ癖を減らす研究です。
座標構造を持つ意思決定問題で、最適行動に本当に必要な入力座標を厳密認証する際の計算可能性の境界を理論的に分析した研究です。
ViTベースの深層圧縮オートエンコーダで、トークン数設計と二段階圧縮、自己教師あり学習を組み合わせ、高圧縮時の潜在表現崩壊を抑える手法を提案した研究です。
一般的な品質ではなく、ユーザーごとの好みや基準に報酬モデルがどれだけ追従できるかを測る評価ベンチマークを提案した研究です。
被写体の動きとカメラ視点を分けて操作しつつ、能動動作と受動反応の因果関係も扱える動画生成フレームワークを提案した研究です。
NVIDIA H100を備えたHPCデータセンターで、学習・微調整・推論時の電力を0.1秒単位で計測し、施設全体の電力需要へスケールする手法とデータセットを示した研究です。
Elastic Test-Time Trainingで推論時更新の忘却を抑えながら、長い観測列から3D/4D表現を学習するFast Spatial Memoryを提案した研究です。
論文探索から評価、整理、知識グラフ化までをマルチエージェントで支援する、研究発見・分析基盤を提案した論文です。
LLMのMLP最終射影行列を高速重みとして扱い、再学習なしで推論時適応を可能にするテスト時学習手法を提案した研究です。
視覚言語モデルの物体幻覚を、外部記述統計と内部デコード信号を分けて扱うベイズ的枠組みで推定・抑制する研究です。
動画拡散モデルの潜在空間で放射輝度を補完し、LDR動画をHDRへ変換する再露光フレームワークを提案した研究です。
7自由度のロボット操作をピクセルに接地したアクション画像へ変換し、マルチビュー動画生成として方策学習する手法を提案した研究です。
仮想試着と人物画像アニメーションを組み合わせ、合成三つ組データで衣服の整合性と動きの自然さを両立する手法を提案した研究です。
大規模モデルの効率を、単一推論ではなくマルチエージェント構成で再評価しようとする研究です。
3Dシーン理解で入力や場面に応じてネットワークのパラメータを動的に適応させ、点群処理の表現力を高める手法を提案した研究です。
画像間の局所特徴マッチングを見直し、視覚対応付けの精度と頑健性の改善を狙う研究です。
推論途中の信頼度変化を使って、大規模推論モデルの停止タイミングを判断し、計算コスト削減を狙う研究です。
LLM生成文の検出で、最終出力だけでなく生成者と編集者の役割を分けてモデル化し、より細かな判定を目指す研究です。
言語条件に頼らず視覚入力だけで高解像化を行う生成モデルを提案し、画像超解像の新しい設計を示した。
胸部CTの複数タスクを単一基盤で扱うため、低ランクHypernetworkを使った統合解析手法を提案した。
端末側の更新だけに頼らず、サーバー側でも追加学習を行うことで、連合学習の頑健性と安定性を高める手法を検証した。
複数の視覚エンコーダを相補的に組み合わせることで、表現の多様性を保ちながら視覚言語モデルの性能を伸ばす学習枠組みを提案した。
回答するか棄権するかを含む意思決定モデルに基づき、LLMの自己確信が実際の判断にどれだけ役立つかを測るBAS指標を提案した。
3D意味地図、履歴考慮の計画、停滞時の自己修正を組み合わせたMetaNavを提案し、学習なしの視覚言語ナビゲーションで無駄な再訪や迷走を減らす。
視覚エンコーダの内部に軽量なクロスアテンションを入れ、自然言語で注目対象を切り替えながら汎用的な視覚表現の質を保つ手法を示した。
多様な正解があり得る自由回答では単一モデルが常に最適とは限らないと示し、プロンプトごとに最適モデルを選ぶルーターで多様性カバレッジを改善する手法を提案した。
ModMapは、視点ごとに独立処理していた既存法と違い、多視点・多モーダル特徴をまとめて学習し、3D異常検知とセグメンテーションの精度向上を狙う。
100万本のインザワイルド動画で事前学習し、高品質な収集データで事後学習する二段構成により、全身3Dアバターの忠実度と汎化性を両立するLarge-Scale Codec Avatarsを提案した。
生成推薦で追加する新しい語彙トークンを平均埋め込みで初期化すると区別が潰れる問題を分析し、意味的に接地した初期化手法GTIを提案した。
AAAゲームから収集した大規模な連続フレームとG-bufferを使い、逆レンダリングと前方レンダリングの両方を現実に近い条件で学習・評価する枠組みを提案した。
通常のカラー画像から擬似イベントと擬似アノテーションを作り、専用センサーの教師データなしでイベントベースのステレオネットワークを学習する枠組みを示した。
物体名の一致だけでは解けない段落長クエリを使い、役割・意図・関係性から対象を推定させるビジュアルグラウンディングの新ベンチマークRSCと、難度を考慮した推論法ScenGroundを提案した。
複数問題を同一コンテキストで同時に解かせる単段学習だけで、推論の正確さを保ちながらトークン消費を削るBatched Contextual Reinforcementを提案した。
ActionPartyは、動画拡散モデルで複数の登場主体に別々の行動を結び付けるための状態トークンを導入し、生成型ビデオゲームで最大7人の同時制御を目指す。
長い履歴メモリを持たず、直近フレームだけを既存VLMへ渡す単純なスライディングウィンドウ法SimpleStreamが、多くのストリーミング動画理解モデルに匹敵または上回る性能を示した。
Universal YOCOは、再帰計算とYOCOアーキテクチャを組み合わせ、推論時の計算量を抑えながら深い推論を行う手法です。
この論文は、AI天気予報の性能がモデル構造だけでなく、損失関数、学習方法、データ分布まで含むパイプライン全体で決まることを理論と実験の両面から整理します。
LAPIS-SHREDは、短い観測窓と疎なセンサー情報だけから、時空間ダイナミクス全体を再構成または予測する軽量なモジュール型手法です。
HippoCampは、個人PC内の大量ファイルを横断して文脈推論するエージェントを評価するベンチマークです。
CliffSearchは、理論案とコード実装を一体の成果物として扱い、LLMエージェント同士の選択、交叉、変異、レビューで科学アルゴリズム探索を回す枠組みです。
YC-Benchは、AIエージェントに1年相当のスタートアップ運営を任せ、長期計画、遅延フィードバック、破綻回避まで評価するベンチマークです。
この研究は、動画生成モデルが生成初期に計画を固める性質を利用し、迷路のような逐次的タスクを解く能力を検証しています。
この論文は、複数のLLMをタスクごとに動的に振り分けるオンラインルーティングに NeuralUCB を適用し、報酬ベースで最適化する手法を提案しています。
OmniRoamは、長時間かつパノラマ視点の動画生成で、仮想的な世界を歩き回るような体験を作る研究です。
この研究は、3D幾何コンピュータビジョンという専門性の高い領域で、博士課程レベルのコーディング課題をベンチマーク化しています。
この論文は、ソースコード表現に Transformer を使い、並列化しやすいループ構造を自動判定する手法を提案しています。
この論文は、Chain-of-Thought を最適化したときに、性能向上と整合する場合、独立な場合、衝突する場合を整理しています。
PoseDreamerは、拡散モデルを使って3D人体メッシュ推定向けの合成学習データを大規模生成するパイプラインです。
この論文は、Diffusion Transformers のマルチモーダル注意チャネルに途中介入し、生成中の文脈空間で反発を与えることで画像多様性を高める手法を提案しています。
HandXは、指の細かな動きまで含む両手操作のモーション生成に向けて、既存データの統合と新規モーションキャプチャ収集、LLMベースの詳細注釈生成をまとめた基盤データセットを提案しています。
この論文は、ニューラル表現の類似性を状態空間の外在幾何ではなく、リーマン幾何に基づく内在幾何で比較する Metric Similarity Analysis を提案しています。
Gen-Searcherは、画像生成前にマルチホップ検索で外部知識と参照画像を集める検索拡張型エージェントを提案しています。
この論文は、LLMの4bit量子化で広く使われるNVFP4の誤差分布を改善するため、FP4とINT4を切り替えるIF4などの適応型ブロックスケール形式を提案しています。
Vegaは、視覚入力と言語指示をまとめて扱い、将来予測と軌道生成を同時に学習するVision-Language-World-Actionモデルです。
ShotStreamは、長い物語を複数ショットでつなぐ動画生成を、履歴を見ながら逐次生成する因果型アーキテクチャに組み替えた研究です。
LGTMは、ガウシアン数を解像度に比例して増やす従来方式を見直し、少数のガウシアンにテクスチャを持たせることで高解像度の新規視点合成を可能にする手法です。
NavTrustは、RGB、深度、指示文の破損を加えた条件で身体性ナビゲーションの頑健性を測る統合ベンチマークです。
MonoArtは、単眼画像から物体形状、パーツ構造、可動パラメータを段階的に推論する統合フレームワークです。
Matryoshka Gaussian Splattingは、1つの3D Gaussian Splattingモデルから連続的な品質調整を可能にする学習手法です。
この論文は、動画生成モデルが内在的に学んだ3D構造と物理法則の事前知識を取り出し、マルチモーダルモデルの空間理解を強化するVEGA-3Dを提案しています。
CubiDは、768〜1024次元の高次元表現トークンを対象にした離散生成モデルです。
この論文は、意味条件に強い離散トークン生成と、運動制約に強い拡散モデルをつなぐ3段階の動作生成フレームワークを提案しています。