Agenten verändern die KI-Entwicklung: Die neuesten Updates von OpenAI

CometAPI
AnnaJun 3, 2025
Agenten verändern die KI-Entwicklung: Die neuesten Updates von OpenAI

4. Juni 2025 OpenAI hat eine Reihe leistungsstarker Updates veröffentlicht, die die Entwicklung von KI-Agenten, insbesondere von sprachbasierten Interaktionsfunktionen, revolutionieren sollen. Die Updates umfassen mehrere Bereiche: vollständige TypeScript-Unterstützung im Agents SDK, einen Human-in-the-Loop-Interventionsmechanismus, die Einführung von RealtimeAgent für Echtzeit-Sprachanwendungen und wesentliche Verbesserungen des Speech-to-Speech-Modells von OpenAI.

Zusammen machen diese Updates die Entwicklung sicherer, kontrollierbarer und ansprechender KI-Agenten einfacher als je zuvor.


TypeScript kommt zum Agents SDK

Stärkung der Entwickler im Web-Ökosystem

Das beliebte Agents SDK von OpenAI unterstützt jetzt TypeScript und bietet Entwicklern, die KI-Anwendungen in JavaScript- und Node.js-Umgebungen erstellen, robuste Tools. Die TypeScript-Version bietet den gleichen Funktionsumfang wie ihr Python-Pendant und unterstützt alle wesentlichen Primitiven für die Agentenerstellung:

  • Übergaben – Nahtlose Aufgabenübertragung zwischen mehreren Agenten
  • Geländer – Verhaltensbeschränkungen und Sicherheitsmechanismen
  • Tracing – Feinkörnige Protokollierung und Diagnose
  • MCP (Multikomponentenmuster) – Unterstützung für modulare, verteilte Agenten

Warum es wichtig ist:

Webentwickler können jetzt KI-Agenten nahtlos in Browser, Web-Apps und Node.js-Umgebungen einbetten und so Erlebnisse wie Sprachassistenten, Echtzeit-Chatbots und In-Browser-Copiloten ermöglichen.


Human-in-the-Loop (HITL)-Überprüfungsmechanismus

Einführung menschlicher Aufsicht für sichereres Agentenverhalten

Um Sicherheit und Verantwortlichkeit zu stärken, führt OpenAI eine menschliche Genehmigungsfunktion in Agenten-Workflows ein. Bevor ein Agent bestimmte externe Tool-Aufrufe oder API-Aktionen ausführen kann, kann ein Mensch eingreifen, um das Verhalten zu genehmigen, abzulehnen oder anzupassen.

Kern-Workflow:

  1. Ausführung des Tools anhalten
  2. Serialisieren und speichern Sie den aktuellen Agentenstatus
  3. Fordern Sie eine menschliche Überprüfung und Genehmigung an
  4. Den Workflow nach der Bestätigung fortsetzen

Ideal für:

Anwendungsfälle mit hohem Risiko, wie Finanztransaktionen, medizinische Datenanalyse oder sensible Kundendienstaufgaben. Dieser Mechanismus verbessert Transparenz, Compliance und ethische Schutzmaßnahmen bei KI-Entscheidungen.


RealtimeAgent: Die Erstellung von Sprachagenten war noch nie so einfach

OpenAIs neue RealtimeAgent Die Funktion nutzt die Echtzeit-API, um Entwicklern die Erstellung robuster Sprachagenten zu ermöglichen, die entweder auf der Client- oder Serverseite funktionieren.

Hauptmerkmale

  • Spracheingabe und -ausgabe in Echtzeit
  • Integrierter Funktions-/Toolaufruf
  • Unterstützung für Unterbrechungen und dynamische Audiowiedergabe
  • Kompatibilität mit Übergaben und Leitplanken

Warum es transformativ ist:
Sprachagenten können jetzt genauso wie Textagenten entwickelt werden – mit vollem Zugriff auf KI-Tools und -Logik. Dies eröffnet neue Möglichkeiten für fortgeschrittene Anwendungen wie:

  • KI-gestützte Sprachunterstützungssysteme
  • Echtzeit-Übersetzungs- oder Diktiertools
  • Interaktive, sprachgesteuerte Rollenspiele

Traces Dashboard erhält ein sprachzentriertes Upgrade

Visualisierung jedes Schritts einer Sprachinteraktion

Die Traces (Spuren) Das Debugging- und Überwachungstool wurde aktualisiert, um eine umfassende Visualisierung von Sprachagentsitzungen in Echtzeit zu unterstützen.

Neue Dashboard-Funktionen:

  • Anzeige von Audiowellenformen für Benutzer- und Agentenantworten
  • Protokollierung des Tool-Aufrufverlaufs und seiner Parameter
  • Hervorheben von Unterbrechungspunkten (z. B. wenn ein Benutzer mitten im Satz unterbricht)

Vorteile für Entwickler: Klareres Debugging, schnellere Iteration und bessere Optimierung der Voice-First-Benutzererfahrung.


GPT-4o Speech-to-Speech-Modell: Intelligenter, natürlicher

Intelligentere Stimme, verbesserte Ausführung

Das GPT-4o-Sprachmodell wurde umfassend verbessert, um seine Effektivität bei Echtzeit-Sprachaufgaben zu steigern:

  • Bessere Befolgung von Anweisungen – Führt Befehle mit höherer Genauigkeit aus
  • Konsistenterer Werkzeugeinsatz – Reduziert die Variabilität beim Tool-Aufruf
  • Verbesserte Unterbrechungsbehandlung – Intelligentere Anpassungen während des Dialogs
  • Einstellbare Sprechgeschwindigkeit - Neu speed Parameter für flexible Sprachausgabe-Stimmung

Verfügbare Modelle:

  • gpt-4o-realtime-preview-2025-06-03 – Optimiert für Echtzeit-API
  • gpt-4o-audio-preview-2025-06-03 – Entwickelt für Chat-Vervollständigungen mit Audio

Diese Updates machen KI-Stimmen natürlicher, reaktionsschneller und leichter zu steuern – sei es für rasante Nachrichtensendungen oder langsame, lehrreiche Dialoge.

Abschließende Gedanken: Eine neue Ära für Voice-AI-Agenten

Mit diesen vier Updates erweitert OpenAI die Grenzen der KI-Agentenentwicklung weiter und macht es für Entwickler einfacher, sicherer und flexibler, menschenähnliche digitale Assistenten zu erstellen.

Die Integration von TypeScript-Unterstützung, Human-in-the-Loop-Genehmigungen, Voice-Agent-Frameworks und verbesserten Sprachmodellen bietet ein komplettes Toolkit für die Entwicklung intelligenter, interaktiver und kontextsensitiver Agenten plattform- und branchenübergreifend.

Egal, ob Sie einen sprachgesteuerten Kundenassistenten, eine Spielfigur oder einen virtuellen Tutor erstellen, mit den neuesten Tools von OpenAI können Sie dies schneller und intelligenter tun als je zuvor.

Erste Schritte

CometAPI bietet eine einheitliche REST-Schnittstelle, die Hunderte von KI-Modellen – einschließlich der ChatGPT-Familie – unter einem konsistenten Endpunkt aggregiert, mit integrierter API-Schlüsselverwaltung, Nutzungskontingenten und Abrechnungs-Dashboards. Anstatt mit mehreren Anbieter-URLs und Anmeldeinformationen zu jonglieren.

Erkunden Sie zunächst die Möglichkeiten des Modells in der Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben.

GPT-4o Speech-to-Speech-Modell in CometAPI wurde veröffentlicht, das gpt-4o-realtime-preview-2025-06-03 kombiniert mit einem nachhaltigen Materialprofil. gpt-4o-audio-preview-2025-06-03, Rufen Sie uns gerne an!

Siehe auch GPT-4.1-API

Mehr lesen

500+ Modelle in einer API

Bis zu 20% Rabatt