DeepSeekのJanus Proは、オープンソースのマルチモーダルAIにおける大きな進歩であり、独自ソリューションに匹敵する高度なテキスト画像変換機能を提供します。2025年XNUMX月に発表されたJanus Proは、最適化された学習戦略、広範なデータスケーリング、そしてモデルアーキテクチャの強化を組み合わせることで、ベンチマークタスクにおいて最先端のパフォーマンスを実現します。この記事では、Janus Proとは何か、どのように機能するのか、競合製品との比較、関心のあるユーザーがアクセスする方法、そしてこのモデルの幅広い応用と将来の展望について包括的に考察します。
Janus Proとは何ですか?
Janus Proは、DeepSeekの最新のオープンソース・マルチモーダルAIモデルであり、画像理解と画像生成の両方を目的として設計されています。27年2025月1日にリリースされたこのモデルは、7億パラメータとXNUMX億パラメータのXNUMXつのサイズで提供され、多様な計算予算とアプリケーションニーズに対応します。その名称は、視覚入力とテキスト入力を専用の経路で処理するデュアルフォーカスアーキテクチャ(「Janus」)を反映しており、モダリティ間でシームレスな指示追従を可能にします。オリジナルのJanusモデルのアップデートとして、Janus Proは、最適化されたトレーニングレジメン、大幅に拡張されたデータセット、そしてより大きなパラメータ数へのスケーリングというXNUMXつの主要な改良点を統合しています。
Janusシリーズの起源
DeepSeekは、2024年後半にオリジナルのJanusモデルを発表し、マルチモーダル分野に参入しました。視覚と言語のベンチマークの両方で有望な結果を示しました。この成功とコミュニティからのフィードバックを基に、同社は学術パートナーと協力し、学習アルゴリズムの改良とデータコーパスの多様化を進め、2025年初頭にJanus Proをリリースしました。
コア仕様
- パラメータオプション: 1 B および 7 B のバリエーション。
- トレーニング データ: 実際の写真とバランスのとれた 72 万枚の高品質な合成画像。
- 入力解像度: 最大 384×384 ピクセル。より大きな出力には外部アップスケーリングが推奨されます。
- ライセンス: MIT オープンソース。制限条項なしで商用および研究目的での使用を許可しています。
Janus Pro はどのように機能しますか?
Janus Pro は、その中核として、専用のエンコーダーと個別のトークナイザーが連携してプロンプトを理解し、画像を合成する、分離されたビジョン生成アーキテクチャを採用しています。
技術アーキテクチャ
Janus ProのビジョンエンコーダであるSigLIP-Lは、画像入力を384×384の解像度で処理し、特徴を潜在空間に投影します。その後、離散VQトークナイザーが生成フェーズを処理し、16倍にダウンサンプリングされた表現を用いて効率的にピクセル出力を生成します。この関心の分離により、ターゲットを絞った最適化が可能になり、細粒度のディテールを維持しながら推論を高速化できます。
トレーニング計画
モデルのトレーニング パイプラインは 3 つの段階で展開されます。
- マルチモーダルデータの事前学習 大規模なウェブクロールとキュレーションされたデータセットから抽出されました。
- 合成画像強調では、生成的なアプローチにより、現実世界の多様性を増強する 72 万枚の高忠実度画像が生成されます。
- 命令の微調整人間がキュレーションしたプロンプトと画像のペアを使用して、複雑なテキストから画像への指示に従うようにモデルを適応させます。
推論と生成
推論中、ユーザーはテキストプロンプトを提供します。モデルはそれをトークン化し、ビジョンエンコーダーのキュー(理解タスク実行時)と統合します。その後、VQトークナイザーは潜在表現をピクセルに順次デコードし、一貫性があり文脈的に正確な画像を生成します。A100 GPU 1.2基あたりの典型的な生成レイテンシは、384×384解像度でXNUMX画像あたり約XNUMX秒です。
DeepSeek の画像生成モデルの能力はどの程度ですか?
ベンチマークパフォーマンス
2025年7月、DeepSeekは7億パラメータのテキスト画像変換モデル「Janus-Pro-3B」を発表しました。同社によると、このモデルはGenEvalベンチマークでOpenAIのDALL-E 67(精度3%)やStability AIのStable Diffusion 74(精度80%)を上回り、72%のスコアを達成したとのことです。ロイター通信は後にこの結果を確認し、Janus-Proが公式リーダーボードテストでトップにランクインしたことを指摘し、強化されたトレーニング体制と、実世界のデータとバランスの取れたXNUMX万枚の合成画像が組み込まれたことがその成果であると述べています。
- GenEval (テキストから画像への精度): Janus Pro-7B は、OpenAI の DALL-E 80 の 67%、Stable Diffusion 3 Medium の 74% に対して、全体的な精度が 3% を達成しました。
- DPG-Bench (高密度プロンプト処理): Janus Pro-7B のスコアは 84.19 で、複雑なシーンの記述において Stable Diffusion 3 (84.08) と OpenAI の DALL-E 3 (83.50) をわずかに上回りました。
- MMBench(マルチモーダル理解): 7 Bバリアントは79.2のスコアを記録し、オリジナルのJanus(69.4)やTokenFlow-XL(68.9)などの他のコミュニティモデルを上回りました。
技術アーキテクチャ
Janus-Proはデュアルパス「分割統治」アーキテクチャを採用しています。SigLIP-Lビジョンエンコーダは最大384×384ピクセルの入力を処理し、離散VQトークナイザーは16倍のダウンサンプリングレートで生成処理を行います。この分離により、理解と生成の経路に特化した最適化が可能になり、モノリシック設計と比較して推論の高速化とより精細なレンダリングを実現します。
Janus-Pro は業界のライバル製品と比べてどうですか?
DALL-E 3と安定拡散に対する性能
独立した評価では、Janus-Proが複雑なプロンプトのフォロースルーにおいて優れていることが明らかになっています(DPGベンチ:84.2% vs. Stable Diffusion 74の3%、DALL-E 67の約3%)。定性的には、ユーザーはより一貫性のあるシーン構成、より豊かなテクスチャ、そしてより少ないアーティファクトを報告していますが、遠距離からの細かい顔のディテールなど、一部のエッジケースのシナリオでは、依然としてこのモデルは課題を抱えています。
オープンソースモデルと独自モデル
DeepSeekの寛容なMITライセンスは、OpenAIやStability AIのより制限的な条件とは対照的に、開発者による自由なローカル展開とカスタムチューニングを可能にしています。このオープン性はコミュニティによる迅速な実験を促進しましたが、同時にバージョン管理とサポートに関するエンタープライズレベルの懸念も引き起こしました。独自モデルはネイティブ解像度がより高くなることが多く(例:DALL-E 3は最大1×024ピクセルまでレンダリング可能)、Janus-Proは外部でアップスケールしない限り1×024に制限されています。
潜在的な制限と課題は何ですか?
解像度と詳細の制約
384×384ピクセルの出力は、Janus-Proの印刷品質アセットや大判メディアへの適用を制限し、多くの場合、外部でのアップスケーリングやリファインメントが必要になります。Hugging Faceのコミュニティでの議論によると、16倍ダウンサンプリングエンコーダーは細部にぼやけをもたらし、遠くの物体の鮮明度に影響を与える可能性があることが示されています。
セキュリティとプライバシーの懸念
中国を拠点とするプラットフォームであるDeepSeekのデータ運用は、中国共産党の情報共有義務に基づき、精査の対象となっている。CISの研究者は、DeepSeekモデルの統合により、専有データや個人データが規制当局のアクセスにさらされ、グローバル企業にコンプライアンス上のリスクをもたらす可能性があると警告している。 CISさらに、オープンソースの展開は、ディープフェイク生成における不正または悪意のある使用につながり、誤情報の問題を悪化させる可能性があります。
ユーザーはどのようにして Janus Pro にアクセスできますか?
Janus Pro の特徴の 1 つは、その幅広いアクセシビリティです。このモデルは、研究者、企業、愛好家などに適した複数の形式で提供されています。
オープンソースのリリースとリポジトリ
Janus Proのすべてのコードと重みは、DeepSeekの公式GitHubリポジトリでMITライセンスの下で公開されています。このリリースには、モデルのチェックポイント、推論スクリプト、そしてVLMEvalKitツールキットと互換性のある評価コードが含まれています。
ハグフェイス統合
DeepSeekは、Hugging FaceのModel Hubで両方のモデルバリアントを公開しており、Pythonユーザー向けのサンプルノートブックも用意されています。インストールには pip install transformers accelerate そして、ロードするための簡単なスクリプト deepseek/janus-pro-7b モデル化され、すぐに実験が可能になります。
商用APIとクラウドプラットフォーム
マネージドサービスを求めるユーザー向けに、HeliconeやJanusAI.proといったクラウドプロバイダーやAI APIプラットフォームが、ホスト型のJanus Proエンドポイントを提供しています。これらのサービスは、RESTful呼び出し、バッチ処理、カスタム微調整オプションをサポートしており、価格帯は大手プロバイダーの同等のサービスよりも低価格に設定されています。
DeepSeek の画像生成の将来はどうなるのでしょうか?
今後のモデルのアップグレード
関係者によると、DeepSeekは勢いを維持するため、R2推論モデルとJanus-Proの後継機(Janus-Ultraと名付けられる可能性もある)のリリースを2025年半ばまでに急いでいるという。機能強化には、ネイティブ解像度の向上、アップスケーリングモジュールの改良、マルチモーダルアライメントの改善などが含まれると予想されている。
業界と規制に関する考慮事項
米国の半導体輸出規制が緩和され、世界的な競争が激化する中、DeepSeekは国境を越えた協業の機会を見出す可能性があります。しかしながら、欧州のAI法や米国の生成モデルに対するセーフガードなど、AI規制の進化により、学習データの出所や出力の監査に関するより厳格なガバナンスが義務付けられ、DeepSeekのオープンソースモデルの配信に影響を及ぼす可能性があります。
結論
DeepSeekのJanus Proは、オープンソースのマルチモーダルAIにおける転換点となり、コミュニティ主導のモデルがプロプライエタリな製品に匹敵し、場合によってはそれを凌駕することを証明しました。堅牢なベンチマーク、汎用性の高いアプリケーション、そして自由なアクセスを備えたJanus Proは、世界中の開発者、研究者、そしてクリエイターを支援します。AI環境が進化する中で、DeepSeekの透明性と迅速なイテレーションへの取り組みは、責任ある最先端のイノベーションを形作る上で極めて重要になります。マーケティング資料のデザイン、科学的な視覚化の推進、あるいは新しいコミュニティツールの育成など、Janus Proはテキストから画像への生成の可能性を再定義する準備ができています。
スタートガイド
CometAPIは、数百ものAIモデルを単一のエンドポイントに集約する統合RESTインターフェースを提供します。APIキー管理、使用量制限、課金ダッシュボードといった機能が組み込まれています。複数のベンダーURLと認証情報を扱う代わりに、クライアントをベースURLに誘導し、各リクエストで対象モデルを指定するだけで済みます。
開発者はDeepSeek-V3(モデル名: deepseek-v3-250324)とDeepseek R1(モデル名: deepseek-ai/deepseek-r1)を通じ コメットAPIまず、モデルの機能を調べてみましょう。 プレイグラウンド そして相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。
CometAPI は初めてですか? 1ドルの無料トライアルを始める 最も困難なタスクにソラを投入しましょう。
皆さんが作ったものを見るのが待ちきれません。何かおかしいと感じたら、フィードバックボタンを押してください。何が問題なのかを教えていただくことが、改善への一番の近道です。
