AINova logoAINova - AIニュースメディア

AI一覧

カテゴリからAIを探す

汎用対話AI

汎用対話AI

文章作成、要約、調査、日常の相談などを幅広くこなすAIです。

調査・検索AI

調査・検索AI

出典確認や情報収集の初動で強みが出やすいAIをまとめています。

コーディングAI

コーディングAI

IDE連携、コード補完、実装支援など開発導線に入りやすいAIです。

ローカルLLM

ローカルLLM

手元PCで動かす公開モデルや、ローカル推論基盤をまとめています。

画像生成AI

画像生成AI

キービジュアル、ラフ案、世界観づくりに向く画像生成AIです。

動画生成AI

動画生成AI

短尺動画、演出検証、映像ラフの作成に向くAIです。

音声AI

音声AI

読み上げ、音声生成、文字起こしなど音声まわりのAIです。

業務支援AI

業務支援AI

議事録、ドキュメント、社内ナレッジ整理などに入りやすいAIです。

ニュース

AIニュース一覧

2026/4/24製品Anthropic

Anthropicは2026年4月24日、Claude Code、Claude Agent SDK、Claude Coworkで一部ユーザーが感じていた品質低下の原因を公表しました。

AnthropicClaude CodeQualityEngineering
2026/4/23製品Anthropic

Anthropicは2026年4月23日、Claude Code 2.1.119を公開しました。

AnthropicClaude CodeCLIDevTools
2026/4/23製品OpenClaw

OpenClawは2026年4月23日、2026.4.22を公開しました。

OpenClawWorkflowVoiceCodex
2026/4/23製品OpenAI

OpenAIは2026年4月23日、GPT-5.5を発表しました。

OpenAIGPT-5.5CodexAgent
2026/4/23安全性Meta

Metaは2026年4月23日、未成年がAIとどのような会話をしているかを保護者が理解しやすくする新機能を発表しました。

MetaSafetyTeensMeta AI
2026/4/23製品DomoAI

DomoAIは2026年4月23日、GPT Image 2をDomoAI上で使えるようにしたと発表しました。

DomoAIImage GenerationVideoGPT Image 2
2026/4/23製品OpenAI

OpenAIは2026年4月23日、`@openai/codex` 0.124.0をnpmで公開しました。

OpenAICodexCLInpm
2026/4/22研究Anthropic

Anthropicは2026年4月22日、80,508人のClaudeユーザー調査をもとに、AIが仕事の生産性や雇用不安にどう結びついているかを分析しました。

AnthropicResearchAI EconomySurvey
2026/4/22インフラNVIDIA

NVIDIAは2026年4月22日、Google Cloudとの協力を通じてエージェントAIとフィジカルAI向けの基盤を進めると発表しました。

NVIDIAGoogle CloudAgentic AIPhysical AI
2026/4/21製品Google

Googleは2026年4月21日、AI UIデザインツールStitchで使う`DESIGN.md`形式をオープンソース化しました。

GoogleStitchDesignOpen Source
2026/4/21BusinessGoogle

Googleは2026年4月21日、Google LabsのAIマーケティングツールPomelliを欧州の中小企業向けに英語で提供すると発表しました。

GoogleMarketingSMBGoogle Labs
2026/4/21製品Google

Googleは2026年4月21日、Gemini 3.1 Proを使うDeep ResearchとDeep Research Maxを発表しました。

GoogleGeminiResearch AgentMCP
2026/4/20インフラAnthropic

Anthropicは2026年4月20日、Amazonとの協力を拡大し、最大5ギガワット規模の新しい計算基盤を確保する計画を発表しました。

AnthropicAmazonInfrastructureClaude
2026/4/16製品Anthropic

Anthropicは2026年4月16日、Claude Code 2.1.111を公開しました。

AnthropicClaude CodeCLICode Review
2026/4/16製品OpenClaw

OpenClawは2026年4月16日、2026.4.15を公開しました。

OpenClawWorkflowTTSAgent
2026/4/16製品Anthropic

Anthropicは2026年4月16日、Claude Opus 4.7を一般提供開始しました。

AnthropicClaudeModelCoding
2026/4/15製品Anthropic

Anthropicは2026年4月15日、Claude Code 2.1.110を公開しました。

AnthropicClaude CodeCLIRemote Control
2026/4/15製品OpenAI

OpenAIは2026年4月15日までにCodexのGitHub Releasesを0.121.0-alpha.14まで進め、npmでも`@openai/codex` 0.122.0-alpha.1を公開しました。

OpenAICodexCLIMarketplace
2026/4/15製品Dreamina

DreaminaはSeedance 2.0を前面に出し、画像・動画・音声・テキストを組み合わせた参照入力で動画を生成できる導線を公開しました。

DreaminaVideo GenerationMultimodalCreators
2026/4/14製品Anthropic

Anthropicは2026年4月14日、Claude Code 2.1.108を公開しました。

AnthropicClaude CodeCLIPrompt Caching
2026/4/14製品OpenClaw

OpenClawは2026年4月14日、2026.4.14リリースを公開しました。

OpenClawWorkflowGPT-5Security
2026/4/13製品Anthropic

Anthropicは2026年4月13日、Claude Code 2.1.105を公開しました。

AnthropicClaude CodeCLIPlugins
2026/4/13製品OpenClaw

OpenClawは2026年4月13日、2026.4.12リリースを公開しました。

OpenClawWorkflowMemoryLocal Models
2026/4/13教育Google

Googleは2026年4月13日、教育向けAI機能の更新を発表しました。

GoogleGeminiNotebookLMEducation
2026/4/12製品OpenClaw

OpenClawは2026年4月12日、2026.4.11リリースを公開しました。

OpenClawWorkflowPluginsTeams
2026/4/11製品OpenAI

OpenAIは2026年4月11日、Codex CLI 0.120.0を公開しました。

OpenAICodexCLIMCP
2026/4/10製品Anthropic

Anthropicは2026年4月10日、Claude Code 2.1.101を公開しました。

AnthropicClaude CodeEnterpriseCLI
2026/4/10製品Google

Googleは2026年4月10日、英国のAI Mode in Searchでレストラン予約支援を開始しました。

GoogleSearchAI ModeBooking
2026/4/9製品Anthropic

Anthropicは2026年4月9日、Claude Code v2.1.98を公開しました。

AnthropicClaude CodeVertex AISecurity
2026/4/9安全性Anthropic

Anthropicは2026年4月9日、エージェントを安全に運用する設計原則をまとめた「Trustworthy agents in practice」を公開しました。

AnthropicAgentsClaude CodeSecurity
2026/4/9製品Google

Googleは2026年4月9日、Geminiアプリ内で3Dモデルや対話型シミュレーションを生成できる機能を発表しました。

GoogleGeminiVisualizationEducation
2026/4/9製品OpenAI

OpenAIは2026年4月9日、Codex CLIの alpha 0.119.0-alpha.29 をGitHub Releasesとnpmで公開しました。

OpenAICodexCLIAlpha
2026/4/8製品Google

Googleは2026年4月8日、GeminiアプリにNotebooks機能を追加しました。

GoogleGeminiNotebookLMProductivity
2026/4/8製品Anthropic

Anthropicは2026年4月8日、Claude Managed Agentsを公開ベータで発表しました。

AnthropicClaudeAgentsBeta
2026/4/8製品OpenClaw

OpenClawは2026年4月8日、2026.4.8を公開しました。

OpenClawAgentSlackWorkflow
2026/4/8製品OpenClaw

OpenClawは2026年4月8日、2026.4.7を公開しました。

OpenClawAgentWorkflowCLI
2026/4/8製品X Developers

X Developersは2026年4月8日、X APIをMCPツールとして呼び出せるローカルのXMCPと、X APIドキュメントを検索できるDocs MCPを公開しました。

XMCPAPIDeveloper Tools
2026/4/8製品Meta

Metaは2026年4月8日、Meta Superintelligence Labs初のモデルMuse Sparkを正式発表しました。

MetaMeta AIModelMultimodal
2026/4/8教育Google

Googleは2026年4月8日、Google ColabのGemini連携にLearn ModeとCustom Instructionsを追加しました。

GoogleColabGeminiCoding
2026/4/7製品Anthropic

Anthropicは2026年4月7日、Claude Code v2.1.94を公開しました。

AnthropicClaude CodeMCPBedrock
2026/4/7安全性Anthropic

Anthropicは2026年4月7日、重要インフラや主要ソフトウェアの脆弱性発見と修正を支援するProject Glasswingを発表しました。

AnthropicCybersecurityClaudeAgentic Coding
2026/4/6製品Anthropic

Anthropicは2026年4月6日、GoogleとBroadcomとの提携拡大を発表し、2027年から順次稼働する複数ギガワット規模の次世代TPU計算資源を確保する方針を示しました。

AnthropicClaudeTPUInfrastructure
2026/4/4製品Google One

Google Oneが日本向けのGoogle AIプラン案内を更新し、Google AI Plus / Pro / Ultraの違いと、Gemini 3.1 Pro、Deep Research、Flow、NotebookLM、Julesなどの利用範囲を整理した。

GoogleGoogle OneGeminiJules
2026/4/3製品Dreamina

Dreaminaが動画制作向けモデルSeedance 1.0の案内を公開し、テキストから短尺のAI動画を作る基本導線を日本語で案内した。

DreaminaSeedance 1.0動画生成日本語
2026/4/3製品Dreamina

DreaminaがSeedance 2.0の日本語ページを公開し、画像・動画・音声の参照素材を使って短尺動画を生成する導線を前面に出した。

DreaminaSeedance 2.0動画生成マルチモーダル
2026/4/2製品Zhipu AI

智谱AIは2026年4月2日付の公式ドキュメント更新で、ホスト済みエージェントを直接呼び出せるAgent APIの「智能体对话」エンドポイントを公開しました。

Zhipu AIAgent APIエージェント開発者向け
2026/4/2製品Zhipu AI

智谱AIは2026年4月2日付の公式ドキュメント更新で、アップロードしたファイルを同期的に解析するAPIを公開しました。

Zhipu AIファイル解析文書AIAPI
2026/4/2製品Zhipu AI

智谱AIは2026年4月2日付の公式ドキュメント更新で、既存のバッチジョブ一覧を取得できるBatch APIを公開しました。

Zhipu AIBatch API非同期処理開発者向け
2026/4/2製品Zhipu AI

智谱AIは2026年4月2日付の公式ドキュメント更新で、画像ファイルを送信して文字や手書き文字を抽出できるOCRサービスAPIを公開しました。

Zhipu AIOCR文書解析API
2026/4/2製品Google

GoogleはGemma 4を公開し、E2B / E4B / 26B MoE / 31B Denseの4構成を展開した。

GoogleGemma 4Open ModelsAgentic AI
2026/4/2製品NVIDIA

NVIDIAはGoogleのGemma 4をRTX PC、DGX Spark、Jetson向けに最適化し、ローカル環境での推論、コーディング、マルチモーダル処理を押し出した。

NVIDIAGemma 4ローカルAIエージェント
2026/4/2製品Google

GoogleはGemini APIに、低コスト重視のFlex Inferenceと高信頼重視のPriority Inferenceを追加した。

GoogleGemini APIInferenceDevelopers
2026/4/2研究Anthropic

Anthropicは2026年4月2日、Claude Sonnet 4.5の内部に感情概念に対応する表現があり、それが応答や意思決定を実際に変えるとする研究を公開しました。

AnthropicClaude Sonnet 4.5解釈可能性安全性
2026/4/2製品OpenAI

OpenAIは2026年4月2日、ChatGPT BusinessとEnterprise向けに、固定席料金なしで使えるCodex専用シートを追加しました。

CodexOpenAI価格改定Business
2026/4/1製品Google

Googleはコーディングエージェント向けにGemini API Docs MCPとGemini API Developer Skillsを公開した。

GoogleGemini APIMCPCoding Agents
2026/4/1製品Dreamina

Dreaminaは日本語ページで、Seedance 1.5 Proの利用導線を公開しました。

DreaminaSeedance 1.5 Pro動画生成日本向け公開
2026/4/1製品Anthropic

AnthropicはClaude Codeの製品ページを公開し、コードベース読解、複数ファイル修正、CLI実行、GitHub・GitLabのCI監視、承認付き実行といった実運用の使い方を前面に出しました。

Claude CodeコーディングAIエージェントAnthropic
2026/3/31CompanyOpenAI

OpenAIは新たな資金調達ラウンドを完了し、巨大な計算資源投資とプロダクト拡張を進める方針を示した。

OpenAI資金調達CodexAPI
2026/3/31研究Anthropic

AnthropicはEconomic Indexの豪州版を公開し、豪州がClaudeの高採用国である一方、利用はコーディング偏重ではなく管理・事務・個人用途まで広く分散していると報告しました。

Claude利用動向Economic IndexAnthropic
2026/3/31製品NVIDIA

NVIDIAは電力事業者や産業パートナーと連携し、需要に応じて電力消費を調整できる『power-flexible AI factories』の取り組みを拡大すると発表しました。

AIインフラ電力データセンターNVIDIA
2026/3/31製品Google

Googleは2026年3月31日、低コスト寄りの動画生成モデルVeo 3.1 Liteを公開しました。

GoogleVeo 3.1 Lite動画生成Gemini API
2026/3/31安全性Anthropic

Anthropicは豪州政府とAI安全性・研究に関する覚書を締結しました。

AI安全性政府連携Anthropic豪州
2026/3/31製品Meta

Metaは、度付きレンズに広く対応する新しいRay-Ban Meta光学モデルを発表しました。

AI GlassesMeta AIウェアラブルMeta
2026/3/30製品OpenAI

OpenAIは、楽天グループが自社データ基盤とOpenAI APIを組み合わせ、顧客問い合わせ対応、レビュー要約、法人向け分析支援に生成AIを広げている事例を公開しました。

OpenAI APIRAG企業導入楽天
2026/3/30製品Anthropic

Anthropicは、NASA JPLがPerseverance roverの約400メートル走行でClaudeを経路計画に使った事例を公開しました。

ClaudeNASA自律計画Anthropic
2026/3/27製品Zhipu AI

Zhipu AIは公開ドキュメントで、GLM-5.1 をコーディング計画フローへ接続する手順を公開しました。

Zhipu AIGLM-5.1開発者向けモデル接続
2026/3/27製品Meta

MetaはSAM 3.1を公開し、1回の推論で最大16オブジェクトを追跡できる多重化処理を導入しました。

MetaSAM 3.1動画理解オープンモデル
2026/3/27安全性Anthropic

AnthropicはMozillaとの共同調査で、Claude Opus 4.6がFirefoxに関する22件の脆弱性を見つけ、うち14件が高重大度と判定されたと公表しました。

AnthropicClaude Opus 4.6セキュリティMozilla
2026/3/27製品Zhipu AI

Zhipu AIは公開ドキュメントで、コーディング計画向けツールの一つとして OpenClaw を案内しました。

Zhipu AIコーディングエージェントOpenClaw
2026/3/27製品Google

Google CloudとMLBは、MLBアプリとMLB.comのGamedayフィード向けに、Geminiで試合状況を解説する『Scout Insights』を公開しました。

GeminiGoogle CloudMLBスポーツ
2026/3/27安全性OpenAI

OpenAIは従来のセキュリティ報奨金制度に加えて、AIの悪用や安全性リスクを対象にした公開のSafety Bug Bountyを始めました。

安全性セキュリティバグ報奨金OpenAI
2026/3/27製品Google

Googleは3月版Gemini Dropで、他社AIからの会話履歴移行、GmailやPhotosなどを横断するPersonal Intelligenceの無料開放、Gemini Live 3.1の強化をまとめて公開しました。

Gemini個人化Google
2026/3/27製品Meta

Metaは、推薦システムに加えて生成AI負荷も支えるため、今後2年で4世代のMTIAチップを展開する計画を示しました。

半導体インフラ生成AIMeta
2026/3/27製品Zhipu AI

Zhipu AIは公開ドキュメントで、コーディング計画フローの一部として Claude Code 関連ツールの案内を掲載しました。

Zhipu AIコーディングエージェントClaude Code
2026/3/26製品OpenAI

OpenAIはBusiness向けアプリとしてOutlook Calendarを公開しました。

ChatGPT Businessカレンダー業務効率化OpenAI
2026/3/26製品Meta

MetaはWhatsAppで、大容量ファイルを会話単位で見つけて削除できる保存管理、同一端末での複数アカウント利用、iOSとAndroid間を含む会話履歴移行の拡張を公開しました。

WhatsAppメッセージ複数アカウントMeta
2026/3/26製品Google

GoogleはGeminiで、他のAIアプリから会話履歴のZIPファイルや好みの要約を取り込み、過去の文脈や個人設定を引き継げる移行機能を案内しました。

Gemini移行Google
2026/3/26研究Meta

Metaは、視覚・音声・言語に対する脳活動を予測するTRIBE v2を公開しました。

MetaTRIBE v2研究脳科学
2026/3/26製品NVIDIA

NVIDIAはGTC 2026で、物理AI向けにCosmos 3、Isaac GR00T N1.7、Alpamayo 1.5を公開し、ロボットや自動運転向けデータ生成を支えるPhysical AI Data Factory Blueprintも発表しました。

物理AIOmniverseロボティクスNVIDIA
2026/3/26製品Meta

Metaは広告主向けに、Advantage+ creativeの生成AI機能を拡張しました。

広告動画生成多言語化Meta
2026/3/25製品NVIDIA

NVIDIAは、今後のAIエコシステムはオープンモデルと独自モデルのどちらか一方ではなく、両方が共存する形で進むとする見解を公開しました。

モデル戦略オープンモデルAI産業NVIDIA
2026/3/25製品Google

Googleは音楽生成モデルLyria 3 Proを、Vertex AI、Google AI Studio、Gemini API、Google Vids、Geminiアプリなどへ広げました。

音楽生成GoogleLyria 3 Pro
2026/3/25研究OpenAI

OpenAIはModel Specを、モデルの望ましい振る舞いを外部から読める公開フレームワークとして説明しました。

仕様安全性OpenAI
2026/3/25製品Google

Googleは音楽生成モデルLyria 3とLyria 3 Clipを、Gemini APIとGoogle AI Studioで開発者向け公開プレビューに載せました。

Lyria 3音楽生成Gemini APIGoogle
2026/3/25製品NVIDIA

NVIDIAは、AIファクトリーが需要応答や負荷移動を通じて電力網の安定化に貢献できる仕組みを詳しく説明しました。

AIインフラ電力網需要応答NVIDIA
2026/3/25製品Meta

Metaは、AIによる商品発見とクリエイター経由の推薦を組み合わせる新しいコマース導線を打ち出しました。

広告コマースクリエイターMeta
2026/3/24製品Meta

MetaはArmと協業し、大規模AIデータセンター向けの新しいCPU群を共同開発すると発表しました。

データセンターCPUArmMeta
2026/3/21製品Anthropic

AnthropicはEconomic Futuresページで、AIの経済影響に関する研究助成、政策対話、実利用データの公開を一体で進める方針を示しています。

経済政策Anthropic
2026/3/20研究OpenAI

OpenAIは科学者と数学者向けに、フロンティアモデルと研究ツールを組み合わせた新しい研究ハブ『OpenAI for Science』を公開しました。

研究科学OpenAI
2026/3/19研究OpenAI

OpenAIは研究者や研究志向の人材向けにResearch Residencyの案内ページを更新しました。

研究人材OpenAI
2026/3/19教育Google

Googleは教育分野におけるAI活用の情報を整理し、学習支援や教育現場での導入例を見やすく更新しました。

教育Google活用事例
2026/3/19製品Anthropic

Anthropicは上位モデルの更新としてClaude Opus 4.6を公開しました。

プロダクトモデル更新コーディング
2026/3/19安全性Meta

Metaは新しい保護技術と連携施策を通じて、詐欺対策とユーザー保護の取り組みを強化する方針を紹介しました。

安全性保護技術Meta
2026/3/19安全性Meta

MetaはFacebookとInstagramでMeta AIサポートアシスタントのグローバル展開を開始しました。

安全性サポートMeta
2026/3/18研究Anthropic

Anthropicは、Claudeユーザー80,508人を対象にした大規模な自由回答調査の結果を公開しました。

調査ユーザーAnthropic
2026/3/18製品Meta

Metaは、他平台で実績を持つクリエイター向けにFacebook上での成長と収益化を加速する『Creator Fast Track』を始めました。

クリエイター収益化Meta
2026/2/17製品Anthropic

AnthropicはSonnet系の最新版としてClaude Sonnet 4.6を公開しました。

モデル開発Anthropic

研究

AI研究・論文一覧

2026/4/23研究

MCPや多数の外部ツールを使うLLMエージェントで、毎ターン大量のツールスキーマを注入する負荷を減らすTool Attentionを提案した研究です。

arXivMCPTool UseAgent
2026/4/23研究

LLMを使ってゲームエージェントを作成、カスタマイズ、展開する対話型環境Nemobotを提案した研究です。

arXivGame AILLM AgentEducation
2026/4/23研究

LLMベースのマルチエージェントシステムで、エージェント間の通信を固定テキストプロトコルではなく学習可能な潜在表現として扱うDiffMASを提案した研究です。

arXivMulti-AgentLLMReasoning
2026/4/23研究

自然言語の研究課題を、科学ワークフローのDAGへ変換するエージェント型アーキテクチャを提案した研究です。

arXivAgentScientific WorkflowAutomation
2026/4/23研究

高リスクAIの安全性を、白箱解析ではなく統計的な認証として扱う2段階フレームワークを提案した研究です。

arXivAI SafetyRegulationRisk
2026/4/23研究

ユーザーが明確な目標を持ってプロンプトを書くという前提を問い直し、目標が形成途中のままAIと対話する「Fantasia interactions」を整理した研究です。

arXivAlignmentHCIAI Safety
2026/4/16マルチモーダル

光の強さ、色、環境光、拡散度、3D光源位置を属性トークンとして扱い、写真の照明を連続的に編集できる画像再照明手法を提案した研究です。

arXivImage EditingRelightingComputer Vision
2026/4/16研究

拡散型生成器が複数の走行軌跡を出し、強化学習で最適化した識別器が長期的な運転品質で再順位付けするRAD-2を提案した研究です。

arXivAutonomous DrivingReinforcement LearningPlanning
2026/4/16マルチモーダル

画像や動画などのAIGC素材を個別に置くだけでは崩れやすいWebページ生成に対し、全体レイアウトと各要素生成を階層的に計画し、自己反省を回しながら統合するMM-WebAgentを提案した研究です。

arXivWeb AgentUI GenerationMultimodal
2026/4/16マルチモーダル

Flow Matching型画像生成モデルを人間の好みに合わせて後学習する際、長い生成軌跡を2段のジャンプへ圧縮して初期ステップまで報酬勾配を届かせるLeapAlignを提案した研究です。

arXivImage GenerationPreference AlignmentFlow Matching
2026/4/16研究

最短経路問題を使った制御しやすい合成環境で、LLMの問題解決能力がどこまで一般化するかを分解して調べた研究です。

arXivLLMReasoningGeneralization
2026/4/16マルチモーダル

高速移動や厳しい照明下で、イベントカメラと通常フレームの特徴を双方向に行き来させながら整合させるBi-CMPStereoを提案した研究です。

arXivStereo VisionEvent Camera3D Perception
2026/4/14マルチモーダル

画像と指示の組ごとにチェックリスト型ルーブリックを作り、その基準で応答を評価してDPOを改善するrDPOを提案する研究です。

arXivPreference OptimizationVLMReward Modeling
2026/4/14マルチモーダル

LLMやVLMが作る室内レイアウトを、レンダリング画像ではなく空間オントロジーと記号的制約で評価する研究です。

arXiv3D Scene SynthesisEvaluationVLM
2026/4/14マルチモーダル

動画生成を使って探索可能な3D世界を作る際に問題になりやすい空間忘却と時間ドリフトを、3D幾何に基づく過去フレーム参照と自己劣化履歴学習で抑える研究です。

arXiv3D World GenerationVideo GenerationMultimodal
2026/4/14マルチモーダル

拡散モデルの計算コストと自己回帰モデルの離散化誤差をまとめて改善するため、ほぼ情報損失のないHBQと段階的な全体リファインメントを組み合わせたGRNを提案する研究です。

arXivImage GenerationVideo GenerationEfficiency
2026/4/14研究

望ましい地域温度変化を条件に、物理的にもっともらしい複数の都市植生パターンを生成する逆問題を、予測用のforward modelと拡散ベース逆生成モデルで解く研究です。

arXivClimate AIUrban PlanningDiffusion
2026/4/14研究

急増するシステムログを毎回展開・構文解析せず、圧縮済みバイト列のまま異常検知する深層学習フレームワークを提案する研究です。

arXivLog Anomaly DetectionCompressionMonitoring
2026/4/14研究

Anthropicは2026年4月14日、LLMを使って弱い監督から強いモデルの改善策を自律探索する研究を公開しました。

AnthropicAlignmentResearch AgentsClaude Opus 4.6
2026/4/10マルチモーダル

Video LLMで広く使われるトークン削減を見直し、注意分布の多峰性を踏まえた選択と、位置構造を保つST-RoPEを組み合わせて映像信号の使い方を最適化する研究です。

arXivVideo LLMEfficiencyVideo Understanding
2026/4/10マルチモーダル

視覚特徴を逆向きにプロンプトへ注入するクロスモーダル注意と条件付き変調を組み合わせ、ノイズの多い教師ラベルでもVLMのプロンプト更新を安定化させる研究です。

arXivVision-LanguagePrompt LearningRobustness
2026/4/10LLM

重み刈り込みを因果介入として使い、LLMの有害生成が少数の重み集合に圧縮され、無害な能力とはある程度分離している可能性を示した研究です。

arXivLLM SafetyAlignmentInterpretability
2026/4/10LLM

一人称動画に対して、行動前の発話、語単位タイムスタンプ、空間ラベル、シーン記憶を組み合わせ、長時間タスク向けの推論と計画を評価できるデータ収集パイプラインを整えた研究です。

arXivEmbodied AIEgocentric VideoWorld Model
2026/4/10LLM

症例文脈、外部証拠、構造化クレームを組み合わせ、証拠が本当に判断を左右しているかを学習させるための監督データ生成枠組みを提案した研究です。

arXivEvidence GroundingRadiologyVerification
2026/4/10研究

高次元の物理シミュレーションで重要な時点だけを選び、隣接スナップショットの差分をニューラル場で学習して、時系列と空間の両方を単一ストリームで圧縮する研究です。

arXivNeural CompressionScientific ComputingPDE
2026/4/9マルチモーダル

テキスト内の数詞と動画中の物体数のずれを見つけて再生成を誘導する、学習不要の動画生成補助枠組みNUMINAを提案した研究です。

arXivVideo GenerationDiffusionNumerical Reasoning
2026/4/9画像理解

少数の実演から実環境に整合したシミュレータを構築し、拡散ベース軌道生成で変形物操作の合成データを増やすSIM1を提案した研究です。

arXivRoboticsSimulationEmbodied AI
2026/4/9研究

変形ガウシアンから自由形状の骨、スケルトン、動作バインディングを順に構築し、可動カテゴリの4D形状を再構成しながら操作しやすいriggingへ圧縮する研究です。

arXiv4D ReconstructionAnimationGaussian Splatting
2026/4/9研究

衣服の揺れを除去するundress段階と、密な対応付けで細部を合わせるdense fit段階を分け、SMPL-Xベースで衣服つき人物の3D body fittingを高精細かつ頑健にする研究です。

arXiv3D HumanSMPL-XBody Fitting
2026/4/9研究

イベントカメラの非同期ストリームに合わせて潜在状態を更新する連続姿勢状態機械を導入し、一人称3D人体姿勢推定のぶれと自己遮蔽の弱さを改善する研究です。

arXivEvent Camera3D PoseAR/VR
2026/4/9マルチモーダル

正答性とツール効率を別々の最適化経路で学習するHDPOを提案し、見えている情報だけで解ける問題でも反射的にツールを呼ぶ癖を減らす研究です。

arXivAgentMultimodalTool Use
2026/4/8研究

座標構造を持つ意思決定問題で、最適行動に本当に必要な入力座標を厳密認証する際の計算可能性の境界を理論的に分析した研究です。

arXivTheoryExplainabilityCertification
2026/4/8Image

ViTベースの深層圧縮オートエンコーダで、トークン数設計と二段階圧縮、自己教師あり学習を組み合わせ、高圧縮時の潜在表現崩壊を抑える手法を提案した研究です。

arXivImage GenerationTokenizerCompression
2026/4/8LLM

一般的な品質ではなく、ユーザーごとの好みや基準に報酬モデルがどれだけ追従できるかを測る評価ベンチマークを提案した研究です。

arXivReward ModelAlignmentPersonalization
2026/4/8動画

被写体の動きとカメラ視点を分けて操作しつつ、能動動作と受動反応の因果関係も扱える動画生成フレームワークを提案した研究です。

arXivVideo GenerationMotion ControlMultimodal
2026/4/8インフラ

NVIDIA H100を備えたHPCデータセンターで、学習・微調整・推論時の電力を0.1秒単位で計測し、施設全体の電力需要へスケールする手法とデータセットを示した研究です。

arXivData CenterPowerInfrastructure
2026/4/8マルチモーダル

Elastic Test-Time Trainingで推論時更新の忘却を抑えながら、長い観測列から3D/4D表現を学習するFast Spatial Memoryを提案した研究です。

arXiv4D ReconstructionTest-Time TrainingSpatial Memory
2026/4/7LLM

論文探索から評価、整理、知識グラフ化までをマルチエージェントで支援する、研究発見・分析基盤を提案した論文です。

arXivMulti-AgentResearchLLM
2026/4/7LLM

LLMのMLP最終射影行列を高速重みとして扱い、再学習なしで推論時適応を可能にするテスト時学習手法を提案した研究です。

arXivLLMTest-Time TrainingAdaptation
2026/4/7マルチモーダル

視覚言語モデルの物体幻覚を、外部記述統計と内部デコード信号を分けて扱うベイズ的枠組みで推定・抑制する研究です。

arXivVLMHallucinationSafety
2026/4/7マルチモーダル

動画拡散モデルの潜在空間で放射輝度を補完し、LDR動画をHDRへ変換する再露光フレームワークを提案した研究です。

arXivVideoDiffusionHDR
2026/4/7マルチモーダル

7自由度のロボット操作をピクセルに接地したアクション画像へ変換し、マルチビュー動画生成として方策学習する手法を提案した研究です。

arXivRoboticsVideo GenerationPolicy Learning
2026/4/6マルチモーダル

仮想試着と人物画像アニメーションを組み合わせ、合成三つ組データで衣服の整合性と動きの自然さを両立する手法を提案した研究です。

arXivVirtual Try-OnAnimationMultimodal
2026/4/6マルチモーダル

大規模モデルの効率を、単一推論ではなくマルチエージェント構成で再評価しようとする研究です。

arXivMulti-AgentInferenceEfficiency
2026/4/6研究

3Dシーン理解で入力や場面に応じてネットワークのパラメータを動的に適応させ、点群処理の表現力を高める手法を提案した研究です。

arXiv3DPoint CloudScene Understanding
2026/4/6マルチモーダル

画像間の局所特徴マッチングを見直し、視覚対応付けの精度と頑健性の改善を狙う研究です。

arXivVisionFeature MatchingMultimodal
2026/4/6LLM

推論途中の信頼度変化を使って、大規模推論モデルの停止タイミングを判断し、計算コスト削減を狙う研究です。

arXivLLMReasoningEfficiency
2026/4/6LLM

LLM生成文の検出で、最終出力だけでなく生成者と編集者の役割を分けてモデル化し、より細かな判定を目指す研究です。

arXivLLMDetectionText
2026/4/3画像理解

言語条件に頼らず視覚入力だけで高解像化を行う生成モデルを提案し、画像超解像の新しい設計を示した。

論文画像生成超解像arXiv
2026/4/3画像理解

胸部CTの複数タスクを単一基盤で扱うため、低ランクHypernetworkを使った統合解析手法を提案した。

論文医療画像CTarXiv
2026/4/3研究

端末側の更新だけに頼らず、サーバー側でも追加学習を行うことで、連合学習の頑健性と安定性を高める手法を検証した。

論文連合学習機械学習arXiv
2026/4/3マルチモーダル

複数の視覚エンコーダを相補的に組み合わせることで、表現の多様性を保ちながら視覚言語モデルの性能を伸ばす学習枠組みを提案した。

論文マルチモーダル視覚言語arXiv
2026/4/3LLM

回答するか棄権するかを含む意思決定モデルに基づき、LLMの自己確信が実際の判断にどれだけ役立つかを測るBAS指標を提案した。

論文LLM評価arXiv
2026/4/2マルチモーダル

3D意味地図、履歴考慮の計画、停滞時の自己修正を組み合わせたMetaNavを提案し、学習なしの視覚言語ナビゲーションで無駄な再訪や迷走を減らす。

論文ロボティクスナビゲーションarXiv
2026/4/2マルチモーダル

視覚エンコーダの内部に軽量なクロスアテンションを入れ、自然言語で注目対象を切り替えながら汎用的な視覚表現の質を保つ手法を示した。

論文視覚表現マルチモーダルarXiv
2026/4/2LLM

多様な正解があり得る自由回答では単一モデルが常に最適とは限らないと示し、プロンプトごとに最適モデルを選ぶルーターで多様性カバレッジを改善する手法を提案した。

論文モデルルーティングLLMarXiv
2026/4/2マルチモーダル

ModMapは、視点ごとに独立処理していた既存法と違い、多視点・多モーダル特徴をまとめて学習し、3D異常検知とセグメンテーションの精度向上を狙う。

論文3D異常検知産業AIarXiv
2026/4/2マルチモーダル

100万本のインザワイルド動画で事前学習し、高品質な収集データで事後学習する二段構成により、全身3Dアバターの忠実度と汎化性を両立するLarge-Scale Codec Avatarsを提案した。

論文3Dアバター動画AIarXiv
2026/4/2LLM

生成推薦で追加する新しい語彙トークンを平均埋め込みで初期化すると区別が潰れる問題を分析し、意味的に接地した初期化手法GTIを提案した。

論文LLM推薦AIarXiv
2026/4/2マルチモーダル

AAAゲームから収集した大規模な連続フレームとG-bufferを使い、逆レンダリングと前方レンダリングの両方を現実に近い条件で学習・評価する枠組みを提案した。

論文動画生成レンダリングarXiv
2026/4/2マルチモーダル

通常のカラー画像から擬似イベントと擬似アノテーションを作り、専用センサーの教師データなしでイベントベースのステレオネットワークを学習する枠組みを示した。

論文イベントカメラ3D認識arXiv
2026/4/2マルチモーダル

物体名の一致だけでは解けない段落長クエリを使い、役割・意図・関係性から対象を推定させるビジュアルグラウンディングの新ベンチマークRSCと、難度を考慮した推論法ScenGroundを提案した。

論文ビジュアルグラウンディング評価ベンチマークarXiv
2026/4/2LLM

複数問題を同一コンテキストで同時に解かせる単段学習だけで、推論の正確さを保ちながらトークン消費を削るBatched Contextual Reinforcementを提案した。

論文推論効率LLMarXiv
2026/4/2マルチモーダル

ActionPartyは、動画拡散モデルで複数の登場主体に別々の行動を結び付けるための状態トークンを導入し、生成型ビデオゲームで最大7人の同時制御を目指す。

論文ワールドモデル動画生成arXiv
2026/4/2マルチモーダル

長い履歴メモリを持たず、直近フレームだけを既存VLMへ渡す単純なスライディングウィンドウ法SimpleStreamが、多くのストリーミング動画理解モデルに匹敵または上回る性能を示した。

論文動画理解VLMarXiv
2026/4/1LLM

Universal YOCOは、再帰計算とYOCOアーキテクチャを組み合わせ、推論時の計算量を抑えながら深い推論を行う手法です。

論文LLM推論効率arXiv
2026/4/1研究

この論文は、AI天気予報の性能がモデル構造だけでなく、損失関数、学習方法、データ分布まで含むパイプライン全体で決まることを理論と実験の両面から整理します。

論文気象予測科学AIarXiv
2026/4/1研究

LAPIS-SHREDは、短い観測窓と疎なセンサー情報だけから、時空間ダイナミクス全体を再構成または予測する軽量なモジュール型手法です。

論文時系列科学AIarXiv
2026/4/1マルチモーダル

HippoCampは、個人PC内の大量ファイルを横断して文脈推論するエージェントを評価するベンチマークです。

論文AIエージェントマルチモーダルarXiv
2026/4/1LLM

CliffSearchは、理論案とコード実装を一体の成果物として扱い、LLMエージェント同士の選択、交叉、変異、レビューで科学アルゴリズム探索を回す枠組みです。

論文AIエージェント科学発見arXiv
2026/4/1LLM

YC-Benchは、AIエージェントに1年相当のスタートアップ運営を任せ、長期計画、遅延フィードバック、破綻回避まで評価するベンチマークです。

論文AIエージェントベンチマークarXiv
2026/3/31マルチモーダル

この研究は、動画生成モデルが生成初期に計画を固める性質を利用し、迷路のような逐次的タスクを解く能力を検証しています。

論文動画モデル推論arXiv
2026/3/31LLM

この論文は、複数のLLMをタスクごとに動的に振り分けるオンラインルーティングに NeuralUCB を適用し、報酬ベースで最適化する手法を提案しています。

論文LLMルーティングarXiv
2026/3/31マルチモーダル

OmniRoamは、長時間かつパノラマ視点の動画生成で、仮想的な世界を歩き回るような体験を作る研究です。

論文動画生成パノラマarXiv
2026/3/31画像理解

この研究は、3D幾何コンピュータビジョンという専門性の高い領域で、博士課程レベルのコーディング課題をベンチマーク化しています。

論文コーディング3D VisionarXiv
2026/3/31研究

この論文は、ソースコード表現に Transformer を使い、並列化しやすいループ構造を自動判定する手法を提案しています。

論文コード解析TransformerarXiv
2026/3/31LLM

この論文は、Chain-of-Thought を最適化したときに、性能向上と整合する場合、独立な場合、衝突する場合を整理しています。

論文LLMChain-of-ThoughtarXiv
2026/3/30画像理解

PoseDreamerは、拡散モデルを使って3D人体メッシュ推定向けの合成学習データを大規模生成するパイプラインです。

論文Vision合成データarXiv
2026/3/30マルチモーダル

この論文は、Diffusion Transformers のマルチモーダル注意チャネルに途中介入し、生成中の文脈空間で反発を与えることで画像多様性を高める手法を提案しています。

論文画像生成Diffusion TransformersarXiv
2026/3/30マルチモーダル

HandXは、指の細かな動きまで含む両手操作のモーション生成に向けて、既存データの統合と新規モーションキャプチャ収集、LLMベースの詳細注釈生成をまとめた基盤データセットを提案しています。

論文動作生成モーションキャプチャarXiv
2026/3/30研究

この論文は、ニューラル表現の類似性を状態空間の外在幾何ではなく、リーマン幾何に基づく内在幾何で比較する Metric Similarity Analysis を提案しています。

論文表現学習解析arXiv
2026/3/30マルチモーダル

Gen-Searcherは、画像生成前にマルチホップ検索で外部知識と参照画像を集める検索拡張型エージェントを提案しています。

論文画像生成検索拡張arXiv
2026/3/30研究

この論文は、LLMの4bit量子化で広く使われるNVFP4の誤差分布を改善するため、FP4とINT4を切り替えるIF4などの適応型ブロックスケール形式を提案しています。

論文量子化LLMarXiv
2026/3/26マルチモーダル

Vegaは、視覚入力と言語指示をまとめて扱い、将来予測と軌道生成を同時に学習するVision-Language-World-Actionモデルです。

論文自動運転arXiv
2026/3/26マルチモーダル

ShotStreamは、長い物語を複数ショットでつなぐ動画生成を、履歴を見ながら逐次生成する因果型アーキテクチャに組み替えた研究です。

論文動画生成arXiv
2026/3/26研究

LGTMは、ガウシアン数を解像度に比例して増やす従来方式を見直し、少数のガウシアンにテクスチャを持たせることで高解像度の新規視点合成を可能にする手法です。

論文3DGSarXiv
2026/3/19マルチモーダル

NavTrustは、RGB、深度、指示文の破損を加えた条件で身体性ナビゲーションの頑健性を測る統合ベンチマークです。

論文ロボティクスarXiv
2026/3/19マルチモーダル

MonoArtは、単眼画像から物体形状、パーツ構造、可動パラメータを段階的に推論する統合フレームワークです。

論文3D再構成arXiv
2026/3/19研究

Matryoshka Gaussian Splattingは、1つの3D Gaussian Splattingモデルから連続的な品質調整を可能にする学習手法です。

論文3DGSarXiv
2026/3/19マルチモーダル

この論文は、動画生成モデルが内在的に学んだ3D構造と物理法則の事前知識を取り出し、マルチモーダルモデルの空間理解を強化するVEGA-3Dを提案しています。

論文3DarXiv
2026/3/19マルチモーダル

CubiDは、768〜1024次元の高次元表現トークンを対象にした離散生成モデルです。

論文生成arXiv
2026/3/19画像理解

この論文は、意味条件に強い離散トークン生成と、運動制約に強い拡散モデルをつなぐ3段階の動作生成フレームワークを提案しています。

論文動作生成arXiv