07-24-日报 AI 资讯日报

AIニュース日報 2025/7/24

AI日報 | 午前8時更新 | 全ウェブデータ集約 | 最先端科学探索 | 業界の自由な発信 | オープンソース革新力 | AIと人類の未来 | ウェブ版にアクセス

AIプロダクト紹介: GeminiCli2API

Google Geminiの公式無料APIの厳しい割り当て制限に縛られ、Geminiの強力な機能を愛用するサードパーティ製アプリにシームレスに統合したいと願うあなたは、GeminiCli2API が完璧なソリューションを提供します！🎉

このプロジェクトは、より緩い権限を持つGemini CLIをOpenAI互換の標準APIサービスとしてラップする巧みなローカルプロキシです。これにより、ついに公式無料APIの割り当て制限を突破し、Googleアカウントの認証によるより高いリクエストクォータを享受し、厄介な「Quota Exceeded」エラーに別れを告げ、心ゆくまで開発、テスト、創作を行うことができます！

しかし、GeminiCli2API の真の魔法は、そのシステムプロンプト（System Prompt）に対する「メス」のような制御能力にあります。これはゲームチェンジャーとなる機能です。

✍️ 上書き (Override)：接続するすべてのアプリに強制的に使用させるグローバルな「ゴールデンプロンプト」を設定し、AIの役割と出力スタイルを完全に統一できます。
➕ 追加 (Append)：クライアントが元々持っているシステムプロンプトを保持しつつ、そこにこっそりあなたの指示を「追加」することで、クライアントには知られることなくルールの微調整や機能強化が可能です。
🔍 抽出と監査：プロキシを経由するすべてのプロンプトを簡単に記録でき、分析、デバッグ、最適化、さらには高品質なデータセット構築にも役立ちます。

たった数ステップの簡単な設定で、LobeChatやNextChatなど、OpenAIをサポートするあらゆるツールをこのローカルの「強化版」Geminiサービスに接続できます。GeminiCli2API は単なるプロキシではありません。AIを操り、飼いならすための強力なツールボックスなのです。ぜひ体験してみてください！✨

AIコンテンツ概要

李開復がAIエージェント「万仔」を発表、Googleはより高速で低コストな新モデルをリリース。
Kuaishouと上海交通大学がマルチモーダルモデルOrthusをオープンソース化、Kunlun WanweiがAI音楽プラットフォームをアップグレード。
最先端研究は大規模モデルのコンテキスト制限突破と、AIの長距離推論能力向上を目指す。
業界動向では、Amazon Web Servicesが上海のAI研究院を解散。
同時に、AIはデータプライバシーの倫理問題や、職場における広範なAI不安も引き起こしている。

AIプロダクトと機能アップデート

堂々たる登場です！李開復氏が率いる零一万物社は、初の企業向けAIエージェントである**「万仔」のベールを正式に剥がしました。これは単なるおしゃべりなチャットボットではなく、深く思考し、自律的に計画を立て、複雑なタスクを実行できる「スーパー従業員」として正確に位置づけられています。企業内部の膨大な知識ベースや外部の主要サービスとシームレスに連携することで、万仔は受動的な「指示に従うだけのツール」から、能動的に「結果を出す意思決定者」へと華麗な変貌を遂げようとしています。李開復氏は、AIエージェントが単純なワークフローの実行（L1）から、自律的な計画能力を持つ推論エージェント（L2）へと進化し、最終的には複数のAIが連携して企業の運営モデルを完全に再構築する（L3）という壮大なビジョンを確信的に予言しています。どうやら、未来のオフィスでは、あなたの隣の席に座る同僚は、もはや人間ではないかもしれませんね。これは今号のAIニュース**が深く追跡する業界変革です。
Google は再び切り札を出しました！Google は、Gemini 2.5 Flash-Liteの安定版を正式にリリースし、これまでのAIモデルの中で最速かつ最も低コストであると誇らしげに宣言しています。まさにパフォーマンスとコストの完璧な「仲介役」と言えるでしょう。この新モデルは、性能とコストにおいて驚くべき黄金バランスを見つけただけでなく、100万トークンという驚異的なコンテキスト長をネイティブでサポートしており、記憶力抜群で話上手な「おしゃべり番長」のようです。さらに魅力的なのは、100万入力トークンあたりわずか0.10ドルという非常に競争力のある価格設定で、これは間違いなくすべての競合他社に対して猛烈な価格競争を仕掛けています。開発者の皆さん、このコストパフォーマンスの嵐を迎える準備はできていますか？ちなみに、古いプレビュー版のエイリアスは8月25日に正式に廃止されますので、サービス中断を避けるため、コードを急いで更新してくださいね。
ショート動画の巨人とトップ大学が出会うと、どんな化学反応が起きるのでしょうか？その答えがOrthusです！快手と上海交通大学は、国際的なトップレベルの機械学習会議（ICML）で、Orthusという全く新しいマルチモーダルモデルを共同で発表し、世界の開発者が利用できるように寛大にオープンソース化しました。この先進的な自己回帰Transformerアーキテクチャに基づいた新進気鋭のモデルは、テキストと画像の2つのモダリティ間を自由に駆け巡るだけでなく、驚くべき計算効率で、Chameleonのような先行モデルを複数の主要な画像理解ベンチマークテストで凌駕しました。さらに驚くべきことに、Orthus は画像生成に特化した重量級モデルSDXLをテキストから画像を生成する特定の指標で打ち負かし、異分野の天才と呼ぶにふさわしい成果を上げています。この画期的な成果は、間違いなくマルチモーダルAIの境界が私たちが想像するよりもはるかに広大であり、未来の可能性は計り知れないことを示唆しています。
国産AI音楽分野で再び波乱が起きています。昆仑万維傘下のAI音楽制作プラットフォームMurekaがV7バージョンへの大幅なアップグレードを迎え、その総合性能は複数の主要な側面で海外の人気アプリSunoを超え、強力な技術力を示しています。新バージョンの最大のハイライトは、Mureka 自社開発の音楽思考連鎖技術——**「MusiCoT」**です。この革新的な技術により、AIは作曲に取りかかる前に、人間と同じように曲全体の構成、感情、メロディの方向性を「深く思考」できるようになり、より一貫性があり、感情豊かな音楽作品を生成します。ユーザーは、簡単なテキスト記述で曲を生成できるだけでなく、オーディオサンプルをアップロードして特定の歌手の音色を模倣したり、ワンクリックで「土っぽい」スタイルのMVを生成したりすることもでき、エンターテイメント性は最高潮に達します！この詳細レビュー - AIニュースから見ると、AI音楽は「聴ける」初期段階から、「心地よく」感情に訴えかける高度な段階へと着実に前進しており、未来の音楽制作エコシステムはこれにより、さらに多様で素晴らしいものになるでしょう。
学生やクライアントに「バブルソート」や「エントロピー増大の法則」といった抽象的な概念をどう説明すればいいか、頭を悩ませていませんか？心配いりません、救世主が登場しました！Fogsightという名の革新的なAIアニメーションエンジンが誕生し、その使命は、あらゆる難解な抽象概念を専門的に扱うことです。ユーザーはキーワードを入力するだけで、Fogsight が魔法をかけ、ナレーションの論理が完璧で、視覚効果が優れた、さらにはバイリンガルナレーションまで丁寧に備わったプロフェッショナルな教育アニメーションを自動生成します。この強力なツールは、先進的な大規模言語モデルに基づいて構築されており、ワンクリックでスマートな生成を実現するだけでなく、便利な対話型インターフェースを提供し、ユーザーが簡単に微調整や修正を行えるようにします。さらにエキサイティングなことに、有名な WaytoAGIオープンソースプロジェクト - AIニュースの一部として、完全にローカル展開をサポートしており、世界の教育者やコンテンツ制作者に、従来の制作プロセスを覆す前例のない超強力なツールを提供します。

AI最先端研究

長らくAI分野における画像と動画のセマンティックセグメンテーション研究は、決して交わらない平行線のようであり、それぞれが独立して動き、統一された理論的枠組みを欠いていました。これは間違いなく汎用視覚技術の発展を妨げていました。しかし、この状況はついに打ち破られました！複数のトップ大学の研究者たちが協力し、これら2つの異種データを統一的に処理できる初のフレームワーク——QuadMixを提案しました。その核心は、QuadMix 独自の非常に創造的な**「四方向混合」**（Four-way mixing）メカニズムです。これは、ソースデータ領域とターゲットデータ領域の間に、内容が豊富で多様な中間領域表現を巧みに構築することで、クロスドメイン学習における大きな差異を効果的に縮小します。この研究の意義は非常に大きく、理論レベルで過去に分断されていた研究経路を統一することに成功しただけでなく、複数の業界標準ベンチマークテストで記録を更新 - AIニュースし、将来より汎用性の高い、より強力なマルチモーダル知覚システムを構築するための確固たる基盤を築きました。
大規模言語モデル（LLM）の限られたコンテキストウィンドウは、複雑な長距離推論タスクを処理する際の常に付きまとう「アキレス腱」であり、その深い思考能力を著しく制限してきました。しかし、「コンテキストの制限を超えて：長距離推論のための潜在意識の手がかり」に関するAIニュース という論文は、私たちに光明をもたらしました。研究者たちは革新的な**TIM（Thread Inference Model）**モデルを提案しました。TIM は、人間の脳が複雑な情報を処理する方法を模倣し、大きな問題を巧みに「推論ツリー」に分解し、「作業記憶」には現在のステップに最も関連する「潜在意識の手がかり」のみを保持します。この賢いメカニズムにより、モデルはほぼ無限に長い作業記憶と複数ステップのツール呼び出しが必要な複雑なシナリオを処理できるようになり、長距離推論が非常に要求される数学や情報検索タスクで卓越したパフォーマンスを発揮し、LLMの「金魚の記憶」という頑固な問題を根本的に解決するための非常に有望な新しい道を開きました。
AIに画像を描かせ、オブジェクトを人の手に「配置」するのは難しくありませんが、その画像が人が実際にそのオブジェクトを「持っている」「持ち上げている」「使っている」ように見えるような自然な相互作用感を実現するのは非常に困難でした。しかし、「HOComp: 相互作用を認識する人物合成」に関するAIニュース と題された最新の研究は、非常に巧妙な解決策を提案しました。HOComp は、まず強力なマルチモーダル大規模モデル（MLLM）を利用して、人間と物体間の相互作用のタイプ（例えば、「しっかりと握る」か「そっと持ち上げる」か）を深く理解します。次に、最も自然なインタラクション効果を実現するために人体の姿勢を精密に調整し、同時に、追加されたオブジェクトと背景が外観上高い一貫性を保つように、複数の精巧に設計された損失関数を通じて保証します。これにより、合成画像のリアリズムと信頼性は全く新しいレベルに達し、真にリアルなAIコンテンツ生成への重要な一歩となりました。

AI業界展望と社会影響

テクノロジー大手は技術突破を追求する過程で、再び個人のプライバシーの境界線と激しく衝突しました。イーロン・マスク氏が率いるAI企業xAIは先日、「Skippy」という内部プロジェクトを通じて、中核のGrokモデルを訓練するために200人以上の従業員の顔面データを大規模に収集していることが報じられました。このプロジェクトの公式目標は、AIが人間の複雑な感情をより良く理解し認識できるようにすることです。xAI 社は、すべてのデータ収集が従業員の署名付き同意書を得ており、内部訓練のみに使用すると主張しているものの、契約書にある「永久的な」アクセス権の条項は、従業員の間でプライバシーの安全性と肖像権の乱用に対する普遍的な懸念と不安を引き起こしました。この事件は、AniとRudiという2つの物議を醸す仮想キャラクターを生み出しただけでなく、テクノロジー大手がイノベーションの衝動と倫理的責任の間でいかに困難なバランスを取っているかを再び世論の最前線に押し出しました。このAIニュースは、技術の発展にはより完全な法規制が必要であることを私たちに示唆しています。
AIの波が止まることなく世界の職場を席巻しており、同時に思わず笑ってしまうような新型の「パフォーマンス芸術」も生み出しています。Howdy.comの最新調査によると、アメリカの従業員の約16%が、上司の技術革新への期待に応え、トレンドに敏感なイメージを演出するためだけに、職場で**「AIを使っているふり」をしていると率直に認めています。この現象の背景には、職場に蔓延する普遍的なAI不安**があります。5分の1以上の従業員がAIの使用に内心不安を感じているにもかかわらず、目に見えない圧力に迫られて新技術を「受け入れる」姿勢を見せざるを得ないのです。さらに興味深いことに、別の調査はコインのもう一面を明らかにしています。実際に職場でAIを使用している従業員の半数近くが、怠けていると誤解されたり、自分の能力が不足していると思われたりすることを恐れて、上司に秘密にすることを選択しています。現在上演されているこの職場の「変身物語」は、技術普及のスピードと従業員のスキル、精神的適応との間の巨大な隔たりを深く示しています。
嘆かわしいAIニュースが飛び込んできました。アマゾンウェブサービス（AWS）は、上海に設置されていたAI研究院を解散したことを正式に確認しました。これは、AWSにとって世界中で最後の海外研究院でした。研究院の主席応用科学者である王敏捷博士は、SNSで「外資系企業の研究機関が中国で黄金期を迎えるのに幸運にも間に合った」と感慨深く語っています。Amazonの公式発表では、これは「困難な決定」であり、チームを合理化し、グローバルリソースの最適化を図ることで、コアとなるイノベーション分野への投資をより集中させることを目的としていると述べています。しかし、この動きは、業界内で外資系企業の中国における研究開発戦略が全面的に縮小しているのではないかという広範な関心と激しい議論を巻き起こしており、外資主導による中国の最先端技術探求の黄金時代が静かに幕を閉じつつあることを示唆しているようです。

オープンソースTOPプロジェクト

moby - AIニュース (⭐70.1k): moby は、コンテナ化された世界の究極の「レゴ」ブロックの宝庫だと想像してください！Docker社が発起し主導するこのコラボレーションプロジェクトは、標準化されたコアコンポーネント一式を提供しており、レゴブロックを組み立てるように、コンテナベースの複雑なシステムを自由に組み立ててカスタマイズすることを可能にします。これは、すべての現代的なクラウドネイティブアプリケーションを構築するために不可欠な基盤です。
OpenBB - AIニュース (⭐44.7k): OpenBB は、誰もが使えるプロフェッショナルな投資研究ターミナルを目指して開発されました。膨大で複雑な金融データと専門的な分析ツールを、完全にオープンソースのプラットフォームに巧みに統合しており、その壮大なビジョンは、情報の壁を完全に打ち破り、投資研究を真に民主化することです。
hyperswitch - AIニュース (⭐22.3k): hyperswitch は、高性能言語Rustを駆使して開発されたオープンソースの決済「スーパー交換機」です。企業の決済プロセスをかつてないほど高速、信頼性が高く、経済的なものにすることを目指し、複数の決済チャネルに簡単に接続し、インテリジェントに管理することで、単一の決済ゲートウェイに「縛られる」煩わしさから完全に解放されるよう支援します。
jj - AIニュース (⭐17.9k): jj は、Gitよりもシンプルで強力だと勇敢に主張する新世代のバージョン管理システムです。Gitと完全に互換性があるため、シームレスに切り替えられるだけでなく、従来のツールをはるかに超えるフレンドリーなユーザーエクスペリエンスと、一連の強力な新機能を提供します。もしかしたら、これが世界の開発者にとって次の「買ってよかった！」ツールになるかもしれませんね。
ConvertX - AIニュース (⭐5.9k): ConvertX をあなたの個人的なファイル変換「万能工場」だと思ってください。これは完全に自己ホスト可能なオンラインファイル変換器で、1000種類以上のファイル形式間の相互変換をサポートする強力なツールです。データの絶対的なプライバシーと安全を確保しながら、あらゆるファイル形式を自由に変換することを可能にします。
PakePlus - AIニュース (⭐4.8k): 奇跡の瞬間を目撃しましょう！PakePlus は、どんなウェブサイトやウェブプロジェクトでも、わずか数分で5MB以下の超軽量デスクトップおよびモバイルアプリケーションにパッケージングできる魔法のツールです。製品を迅速にクロスプラットフォーム展開したい開発者にとって、これは間違いなく効率的な近道となるでしょう。
hrms - AIニュース (⭐3.1k): hrms は、機能が充実したオープンソースの人事・給与管理システムです。中小企業向けに包括的で強力なHRソリューションを提供し、詳細な従業員管理から複雑な給与計算まで、すべての中核的な人事業務を完全に管理下に置き、管理効率を大幅に向上させます。

ソーシャルメディア共有

あるシニアエンジニアが Jikeで彼女の深い懸念を共有 - AIニュースしました。彼女のチームのインターン生が、なんとLLMに完全に依存してコードを書き、結果的にプロジェクトはバグだらけになり、インターン生自身はコードの背後にある核心的なロジックを全く説明できなかったというのです。このシニアエンジニアは、AIは人間の深い思考を補助する強力なツールであるべきであり、基礎学習プロセスをスキップする近道ではないと鋭く指摘しています。若いエンジニアが、モデルに過度に早く依存し、基盤となるロジックの確固たる理解を怠ると、実体のない「vibe coding」（感覚的なプログラミング）の罠に陥りやすく、個人の長期的なキャリア成長にとって「本当に危険」だと述べています。
ユーザーwwwgoubuliは XでByteDanceのAIプログラミングツールTraeを詳細レビュー - AIニュースしました。彼は、Trae がエンドツーエンドの「ソロモード」において、他の競合製品と比較して「大差ない」レベルであり、まだ大きな差は開いていないと見ています。しかし、その製品インターフェースのデザインは「ラディカルでありながら異常に合理的」であり、それによってもたらされる総合的なユーザー体験は、国内の同種製品の中で群を抜いていると述べています。彼は、ByteDanceの製品力は確かに名声に恥じないものであり、畏敬の念を抱かせるほど強力だと感嘆しています。
ある開発者が XプラットフォームでLovart.aiを絶賛 - AIニュースし、これを世界初の真の**「デザインエージェント」**と称賛しています。単なる画像作成ツールとは一線を画しています。Lovart.ai は、ブランドロゴのデザイン、ブランドビジュアルシステム全体の構築から、動画広告のアイデア出し、3Dモデル制作まで、一連の複雑なデザインタスクを独立して思考し、完全に実行することができます。これは間違いなく、AI駆動の新しいデザイン時代が到来したことを高らかに宣言しているのです。
ユーザー李继刚は Xで非常に詩的で哲学的なプロンプトを共有 - AIニュースしました。その目的は、AIを「言語の錬金術師」に変身させ、新製品に心を込めて命名させることです。このプロンプトは、良い名前とは「壮大な夢を収めることができる器」であり、「音、形、意味の三者間の三重共鳴」を追求すべきだと深く強調しています。その文章の境地の高さと、意図の深遠さは、プロンプトエンジニアリング分野における稀有な芸術品と言えるでしょう。
AIで生成される画像に驚くほどの視覚的質感を持たせたいなら、ユーザー向阳乔木が Xで共有されたこの裏技 - AIニュースは絶対に見逃せません。ユーザー向阳乔木は、Claude専用のプロンプトを惜しみなく共有しており、それは透明感があり、光と影が交錯する3Dすりガラスカードのような効果を安定して生成できます。さらに親切なことに、詳細な指示を含むドキュメントリンクと、驚くほど美しい効果画像も添付されており、AI絵画の達人になるための手助けをしてくれます。
「大手企業の高位職」に続き、次に多くの人が羨むステータスは、もしかしたら「独立研究員」かもしれません。ユーザーwwwgoubuliは Xで興味深い現象を観察 - AIニュースしました。多くのコミュニティで有名なGitHubプロジェクトの作者や学界の大御所が、ByteDanceやOpenAIのようなトップテクノロジー企業に入社することを選択した後、彼らが公開していた学術論文や活発なオープンソース貢献が「忽然と姿を消した」ように見えるのです。人々は、これらの企業の公式ブログや幹部のツイートで、彼らの最新の研究動向をたまに垣間見るしかなくなり、これはオープンイノベーションと企業内部の研究開発との関係性について深い考察を促しています。
AI時代、未来の専門分野をどう選択すべきか？大学に入学を控えた新入生が Redditで助けを求める投稿 - AIニュースをしました。彼は、一見伝統的に見える生命科学と農業という2つの専攻の間で悩んでいます。しかし、彼の懸念の中心は、どちらの専攻が現在より人気があるか、あるいは就職しやすいかではなく、未来においてどちらの専攻がAI技術とより良く連携し、共生的に発展できるか、そしてAIに無慈悲に代替されないか、という点にあります。この問いは、Z世代の若者たちが未来の技術と社会の変化に対して抱く深い思考と、先見の明のある計画性を示しており、このAIニュースは私たちに深く考えさせるものです。
ある開発者が RedditでPHOAIというAI写真編集ツールを興奮気味に発表 - AIニュースしました。PHOAI は、このアプリの最もクールな点は、「私をアニメキャラクターに変えて」といった完全に自然な言語の指示を、驚くべき視覚効果に直接変換できることです。さらに重要なのは、すべての画像処理がユーザーのデバイス上でローカルに効率的に実行され、クラウドへのアップロードが不要なため、ユーザーのプライバシーが保護されるだけでなく、エッジAIアプリケーションがもたらすスムーズな体験と巨大な可能性を十分に示していることです。
LLMが回答する際に「典拠を引用」し、内容に説得力を持たせる方法を体系的に学びたいですか？それなら、検索拡張生成（RAG）の新しいコース - AIニュースは絶対に見逃せません。RAG技術は、モデルが回答を生成する前に、外部知識ベースから関連情報をインテリジェントに検索し、注入することで、大規模モデルの回答の事実の正確性を大幅に向上させ、高コストで時間のかかるモデルの再トレーニングプロセスを効果的に回避します。これは、現在の生産レベルのAIアプリケーションを構築するための重要なコア技術です。

音声版AI日報を聴く

🎙️ 小宇宙	📹 TikTok
来生小酒館	自媒体アカウント

最終更新日 2025/08/22 00:52:32

07-25-日报 07-23-日报