gpt-oss-20b jest przenośny, otwarty model rozumowania oferująca wydajność na poziomie o3‑mini, przyjazne dla agentów korzystanie z narzędziai pełne wsparcie w ramach łańcucha myślowego na podstawie licencji zezwalającej. Choć nie jest tak mocny jak jego odpowiednik 120 B, jest wyjątkowo przystosowany do wdrożenia na urządzeniu, o niskim opóźnieniu i z uwzględnieniem prywatności. Deweloperzy powinni rozważyć jego znane ograniczenia kompozycyjne, zwłaszcza w przypadku zadań wymagających dużej wiedzy, i odpowiednio dostosuj środki bezpieczeństwa.
Podstawowe informacje
gpt-oss-20b jest Model wnioskowania o otwartej wadze, składający się z 21 miliardów parametrów wydane przez OpenAI na podstawie Licencja Apache 2.0, Umożliwiając pełny dostęp do pobierania, dostrajania i redystrybucji. Jest to pierwszy od czasu wydania przez OpenAI modelu o otwartej wadze GPT‑2 w 2019 r. i jest zoptymalizowany pod kątem wdrażanie brzegowe i wnioskowanie lokalne w systemach z ≥ 16 GB pamięci VRAM.
- Parametry: Łącznie 21 miliardów, z czego 3.6 miliarda to aktywne tokeny
- architektura: Transformator z mieszanka ekspertów (MoE)
- Okno kontekstowe: Do 128 000 tokenów na zrozumienie dłuższych form
- Licencja: Apache 2.0, umożliwiający nieograniczone wykorzystanie akademickie i komercyjne ().
Funkcje i architektura techniczna
Specyfikacje modelu
- Parametry: 21 B w sumie, 3.6 B aktywnych na token za pośrednictwem architektury Mixture-of-Experts (MoE) z 32 ekspertów na warstwę, 4 aktywne na token .
- Warstwy: 24, okno kontekstowe do 128 XNUMX tokenów, maksymalna liczba tokenów wyjściowych do 32 tysięcy w niektórych wdrożeniach.
- Uwaga i pamięć: Naprzemienne gęste i rzadkie wzorce uwagi; grupowa uwaga na wiele zapytań (wielkość grupy = 8) w celu zwiększenia efektywności wnioskowania.
Kontrole szkolenia i rozumowania
- Szkolenie obejmuje teksty w języku angielskim, ze szczególnym uwzględnieniem nauk ścisłych, technologii, inżynierii i matematyki (STEM), kodowania i wiedzy ogólnej.
- podpory łańcuch myśli (CoT) rozumowanie i regulacja poziomy rozumowania (Niski, Średni, Wysoki) w zależności od złożoności zadania.
Wydajność wzorcowa
- Mecze lub przewyższa wydajność modelu o3‑mini firmy OpenAI w testach porównawczych takich jak MMLU, AIME, HLE, HealthBench, Codeforces, Tau‑Bench nawet w mniejszych rozmiarach.
- Wyprzedza zastrzeżone modele, takie jak OpenAI o1, GPT‑4o i o4‑mini w rozumowaniu matematycznym i zdrowotnym zadania wymagające wysokiego poziomu rozumowania.
- W porównaniu do większego GPT‑OSS‑120B (117 B) wypada gorzej w zadaniach wymagających głębokiego rozumowania symbolicznego lub rozległej wiedzy (np. GPQA), ale pozostaje wydajny w kodowaniu i domenach zdrowia.
20 B wariant również robi wrażenie: rywalizuje o3-mini w tym samym pakiecie pomimo mniejszych rozmiarów, co pokazuje efektywne skalowanie możliwości wnioskowania dzięki MoE.
- MMLU (Rozumienie języka ogromnej wielozadaniowości): ~88% dokładności
- Codeforces Elo (rozumowanie kodowania): ~ 2205 XNUMX
- AIME (konkurs matematyczny z narzędziami): ~87.9%
- Ławka zdrowia:Znacznie przewyższa o4-mini w zadaniach z zakresu zapewnienia jakości i diagnostyki klinicznej
- Tau-Bench (zadania z zakresu handlu detalicznego i rozumowania): ~62% średnio
Wersja modelu i porównanie
| Model | Param | Aktywne parametry | Potrzeba sprzętu | Wydajność wzorcowa |
|---|---|---|---|---|
gpt-oss-20b | 21 mld | 3.6 mld | ≥ 16 GB GPU lub na urządzeniu | Porównywalny do o3‑mini |
| gpt‑oss‑120b | 117 mld | 5.1 mld | 80 GB+ GPU | Dopasowuje się lub przekracza o4‑mini |
Zaprojektowany jako lekki odpowiednik gpt‑oss‑120BGPT‑OSS‑20B oferuje przenośność przy jednoczesnym zachowaniu wysokiej wydajności zadań w warunkach ograniczonych zasobów. Wyróżnia się na tle zastrzeżonych modeli OpenAI otwartością i możliwością dostrajania.
Ograniczenia
- Niższe przypomnienie wiedzy w przypadku złożonych zadań, takich jak GPQA, w porównaniu do większych modeli.
- Raporty od użytkowników wskazują na zmienność w wydajności w świecie rzeczywistym, zwłaszcza w przypadku kodowania lub podpowiedzi dotyczących wiedzy ogólnej; niektórzy przypisują to wczesnemu wdrożeniu lub niewłaściwemu użyciu podpowiedzi.
- Ryzyko związane z bezpieczeństwem i niewłaściwym użytkowaniem:Chociaż OpenAI oceniało dostrojone pod kątem przeciwników warianty gpt-oss, nawet one nie osiągnęły wysokiego poziomu w domenach ryzyka biologicznego i cybernetyki; mimo to użytkownicy wdrażający przypadki użycia na dużą skalę mogą wymagać dodatkowych zabezpieczeń.
Przypadków użycia
Firma OpenAI zaprojektowała GPT‑OSS w celu obsługi szerokie spektrum przypadków użycia, od aplikacji konsumenckich po analitykę klasy korporacyjnej. Wariant 20B jest zoptymalizowany pod kątem lokalnego wykonywania i może działać na urządzeniach z zaledwie 16GB RAM, Takie jak laptopy z wyższej półki lub MacBooki z procesorami serii M. GPT‑OSS‑20B jest idealny do:
- Wnioskowanie lokalne/offline na komputerach z systemem Windows (za pośrednictwem Windows AI Foundry), macOS lub urządzeniach brzegowych z procesorem Snapdragon.
- Przepływy pracy agentów: wykonywanie kodu, korzystanie z narzędzi, agenci bazujący na przeglądarce lub autonomiczni asystenci w warunkach ograniczonej przepustowości.
- Szybkie prototypowanie i dostrajanie, zwłaszcza dla programistów pracujących bez infrastruktury chmurowej lub z ograniczeniami prywatności.
Inne porównania modeli
gpt-oss-20bw porównaniu z o3‑mini / o4‑mini:GPT‑OSS‑20B dorównuje o3‑mini pod względem dokładności i rozumowania opartego na współmyśleniu; jest wydajniejszy i bardziej otwarty niż o4‑mini, ale ma gorsze wyniki w porównaniu z gpt‑oss‑120B w wymagających zadaniach rozumowania.gpt-oss-20bw porównaniu z LLaMA 4, GLM‑4.5, DeepSeek:GPT‑OSS‑20B zapewnia pełną przejrzystość otwartą w ramach Apache 2.0, w przeciwieństwie do modeli półotwartych; jednak użytkownicy zgłaszają w niektórych przypadkach, że preferują GLM‑4.5‑AIR pod względem jakości wnioskowania.
Jak zadzwonić gpt-oss-20b API z CometAPI
gpt-oss-20b Ceny API w CometAPI, 20% zniżki od ceny oficjalnej:
| Tokeny wejściowe | $0.08 |
| Tokeny wyjściowe | $0.32 |
Wymagane kroki
- Zaloguj się do pl.com. Jeśli jeszcze nie jesteś naszym użytkownikiem, zarejestruj się najpierw
- Pobierz klucz API uwierzytelniania dostępu do interfejsu. Kliknij „Dodaj token” przy tokenie API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i prześlij.
- Uzyskaj adres URL tej witryny: https://api.cometapi.com/
Użyj metody
- Wybierz "
gpt-oss-20b” punkt końcowy do wysłania żądania API i ustawienia treści żądania. Metoda żądania i treść żądania są pobierane z naszej witryny internetowej API doc. Nasza witryna internetowa udostępnia również test Apifox dla Twojej wygody. - Zastępować za pomocą aktualnego klucza CometAPI ze swojego konta.
- Wpisz swoje pytanie lub prośbę w polu treści — model odpowie właśnie na tę wiadomość.
- . Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.
CometAPI zapewnia w pełni kompatybilne API REST, co umożliwia bezproblemową migrację. Kluczowe szczegóły Dokumentacja API:
- Podstawowe parametry:
prompt,max_tokens_to_sample,temperature,stop_sequences - Punkt końcowy: https://api.cometapi.com/v1/chat/completions
- Parametr modelu: "
gpt-oss-20b" - Poświadczenie:
Bearer YOUR_CometAPI_API_KEY - Typ zawartości:
application/json.
Przykład wywołania API
Mimo że modele GPT‑OSS są otwarte, dostęp do nich można uzyskać za pomocą interfejsów API, takich jak CometAPI i innych. gpt‑oss‑20BTypowe wywołanie CometAPI wygląda następująco:
POST https://api.cometapi.com/v1/chat/completions
{
"model": "gpt-oss-20b",
"messages": [{ "role": "system", "content": "Reasoning: high" },
{ "role": "user", "content": "Solve bilateral integral…" }],
"max_tokens": 2048,
"temperature": 0.0
}
Obsługuje wywoływanie funkcji, strukturalne schematy wyjściowe, integrację narzędzi i kontrolę wnioskowania za pomocą monitów systemowych.
Zobacz także GPT-OSS-120B


