Phi-4-Mini APIは MicrosoftPhi-4シリーズにおける小型言語モデルにおける最新のイノベーションで、主に テキストタスク3.8 億のパラメータを収容するコンパクトなフレームワークを備えた Phi-4-Mini は、高密度のデコーダーのみの Transformer アーキテクチャにより、速度と効率に優れています。

Phi-4-Miniの主な特徴
当学校区の Phi-4-Miniモデル 次のようなさまざまなタスクを実行する能力に優れています。 テキスト推論, 数学的計算, プログラミング、および関数呼び出し。比較的小さいサイズにもかかわらず、Phi-4-Mini は次の分野で大規模な言語モデルと競合し、多くの場合それを上回ります。
- テキスト推論: 論理処理を必要とするタスクに優れており、大幅に大きなパラメータを持つモデルと同等のパフォーマンスを提供します。
- 長いテキストの包括的なサポート: 最大 128K トークンのシーケンスを処理できる Phi-4-Mini は、膨大なテキストを効率的に処理するのに最適です。
- スケーラブルな機能統合Phi-4-Mini の関数呼び出し機能により、外部ツール、API、データ ソースとのシームレスな統合が可能になり、アプリケーション シナリオにおける汎用性が向上します。
Phi-4-Mini の技術的原理
Phi-4-Mini のアーキテクチャは、効率性と適応性を最大限に高めることを目的とした洗練された技術設計に基づいています。
- 変圧器のアーキテクチャこのモデルはデコーダーのみの Transformer フレームワーク上に構築されており、自己注意メカニズムを利用してテキスト シーケンス内の長期的な依存関係を効果的に管理します。
- グループ化されたクエリのアテンションこのメカニズムは、クエリをグループ化されたバッチで処理することで計算効率を向上させ、モデルの並列処理能力を強化します。
- 共有埋め込み戦略: 入力と出力の埋め込みを共有することで、Phi-4-Mini はパラメータ負荷を軽減し、タスクの適応性と運用効率を向上させます。
これらのアーキテクチャの選択により、Phi-4-Miniは 自然言語生成 多様なユースケースにわたって高いパフォーマンスを維持します。
データとトレーニングの詳細
言語トレーニングデータ
Phi-4-Mini のトレーニング データには、高品質の推論豊富なテキスト データ、特にプログラミング タスクのパフォーマンスを向上させるために慎重にキュレーションされたコード データセットが含まれています。事前トレーニング データは、データの高品質と多様性を確保するために、フィルターとデータ混合戦略によって改善されています。具体的には、事前トレーニング データには 5 兆トークンのコーパスが含まれており、これは Phi-3.5-Mini よりも大きく高品質です。
視覚言語トレーニングデータ
Phi-4-Multimodal の事前トレーニング フェーズには、インターリーブされた画像テキスト ドキュメント、画像テキスト ペア、画像ローカリゼーション データなどを含む豊富な画像テキスト データセットが含まれます。事前トレーニング プロセスには、視覚要素とテキスト要素を組み合わせた 0.5 兆個のトークンが含まれます。教師あり微調整 (SFT) フェーズでは、公開マルチモーダル命令調整データセットと大規模な内部マルチモーダル命令調整データセットを使用し、自然な画像理解、チャート、表、図の推論、PowerPoint 分析、OCR、複数画像の比較、ビデオ要約、モデル セキュリティなどのタスクをカバーします。
視覚音声トレーニングデータ
Phi-4-Multimodal は、単一フレームと複数フレームの両方のシナリオをカバーする視覚音声データでトレーニングされました。内部のテキスト読み上げ (TTS) エンジンを使用して、ユーザーのクエリをテキストから音声に変換することで、データの高品質が確保されました。具体的には、研究者は内部の ASR モデルを使用して音声を書き起こし、元のテキストと書き起こしの間の単語誤り率 (WER) を計算し、最終的な視覚音声データの品質は WER フィルタリングによって確保されました。
音声およびオーディオトレーニングデータ
音声/オーディオ機能のトレーニング データには、自動音声認識 (ASR) の文字起こしデータとトレーニング後のデータが含まれており、自動音声翻訳 (AST)、音声質問応答 (SQA)、音声要約 (SSUM)、音声理解 (AU) などのさまざまなタスクをカバーしています。トレーニング前のデータには、2 つのサポート対象言語をカバーする約 8 万時間の匿名化された内部音声テキスト ペアが含まれています。トレーニング後のデータには、ASR、AST、SQA、SQQA、SSUM、AU などのタスクをカバーする約 100 億の厳選された音声およびオーディオ SFT サンプルが含まれています。
関連するトピック:3 年のベスト 2025 AI 音楽生成モデル
最適な展開と互換性
Phi-4-Miniは、 クロスプラットフォームの互換性さまざまなコンピューティング環境での展開を容易にします。
- ONNXランタイム最適化: 低コスト、低レイテンシの設定でモデルが効率的に実行されることを保証し、幅広いクロスプラットフォーム アプリケーションをサポートします。
- リソースが制限された環境: Phi-4-Mini は軽量であるため、リソースが限られているエッジ コンピューティングの展開に適しており、機能を犠牲にすることなく運用効率を最大化します。
トレーニング哲学とデータの活用
Phi-4-Miniのトレーニングプロセスは厳格で、高品質で多様なデータセットに重点を置いており、 推論 および ロジック処理 機能:
- 選別されたトレーニングデータ: 合成データセットとターゲットデータセットを組み込んで、数学およびプログラミングタスクのパフォーマンスを向上させます。
- 適応と精度: トレーニング戦略では、データの品質と多様性を重視し、さまざまなアプリケーションにわたる複雑な推論タスクに対応できるようにモデルを準備します。
実際のユースケース
Phi-4-Mini は、さまざまなシナリオで幅広い用途を提供し、その適応性と実用性を示しています。
- インテリジェントアンサーシステム: 複雑な質問と回答のタスクで非常に優れたパフォーマンスを発揮し、顧客サービス アプリケーションに適した正確で迅速な応答を提供します。
- プログラミング支援: 開発者にコード生成とテストのための強力なツールを提供し、生産性とワークフローの効率を向上させます。
- 多言語機能: 複数の言語にわたる翻訳と処理をサポートし、グローバル言語サービスや異文化アプリケーションに最適です。
- エッジコンピューティングと展開: ポータブル デバイスの展開向けに最適化された Phi-4-Mini は、効率的な処理が最も重要となるエッジ コンピューティング シナリオで効果を発揮します。
まとめ:
Phi-4-Mini は、革新的な設計とテキスト処理タスクにおける卓越したパフォーマンスを備え、小規模言語モデル テクノロジの大きな進歩を表しています。このモデルは、開発者や AI ユーザーに、膨大な計算リソースを必要とせずに、広範囲で多様なアプリケーションを管理できる高効率ツールを提供します。Microsoft の Phi-4 シリーズが進化するにつれ、Phi-4-Mini の適応性と統合機能により、進化する AI 環境における関連性と有用性が継続的に確保され、最終的には人工知能の将来の開発にとって極めて重要なリソースとして機能します。
CometAPIからこのPhi-4-Mini APIを呼び出す方法
1.ログイン cometapi.comへ。まだユーザーでない場合は、まず登録してください。
2.アクセス認証情報APIキーを取得する インターフェースの。パーソナルセンターのAPIトークンで「トークンの追加」をクリックし、トークンキー:sk-xxxxxを取得して送信します。
-
このサイトの URL を取得します。 https://api.cometapi.com/
-
Phi-4-Miniエンドポイントを選択してAPIリクエストを送信し、リクエスト本文を設定します。リクエストメソッドとリクエスト本文は以下から取得されます。 当社のウェブサイトAPIドキュメント弊社のウェブサイトでは、お客様の便宜を図るため、Apifox テストも提供しています。
-
API レスポンスを処理して、生成された回答を取得します。API リクエストを送信すると、生成された補完を含む JSON オブジェクトが受信されます。
