modele
Wejście:$0.4/M
Wyjście:$2.4/M
Przegląd kluczowych możliwości: Rozdzielczość: Do 4K (4096×4096), na równi z Pro. Spójność obrazów referencyjnych: Do 14 obrazów referencyjnych (10 obiektów + 4 postacie), z zachowaniem spójności stylu/postaci. Ekstremalne proporcje obrazu: Dodano nowe proporcje 1:4, 4:1, 1:8, 8:1, odpowiednie do długich obrazów, plakatów i banerów. Renderowanie tekstu: Zaawansowane generowanie tekstu, odpowiednie do infografik i układów plakatów marketingowych. Ulepszenie wyszukiwania: Zintegrowane Google Search + Image Search. Osadzanie: Wbudowany proces rozumowania; złożone polecenia są analizowane przed generowaniem.Wejście:$4/M
Wyjście:$20/M
Claude Opus 4.6 to duży model językowy firmy Anthropic klasy „Opus”, wydany w lutym 2026 r. Jest pozycjonowany jako podstawowe narzędzie wspierające pracę opartą na wiedzy oraz procesy badawcze — usprawnia rozumowanie w długim kontekście, planowanie wieloetapowe, korzystanie z narzędzi (w tym agentowe przepływy pracy oprogramowania) oraz zadania związane z obsługą komputera, takie jak automatyczne generowanie slajdów i arkuszy kalkulacyjnych.Wejście:$2.4/M
Wyjście:$12/M
Claude Sonnet 4.6 to nasz najbardziej zaawansowany model Sonnet do tej pory. To pełna aktualizacja umiejętności modelu, obejmująca programowanie, korzystanie z komputera, rozumowanie w długim kontekście, planowanie agentowe, pracę opartą na wiedzy oraz projektowanie. Sonnet 4.6 oferuje również okno kontekstu 1M tokenów w wersji beta.Kontekst:400,000
Wejście:$0.16/M
Wyjście:$1/M
GPT-5.4 nano został zaprojektowany z myślą o zadaniach, w których kluczowe są szybkość i koszt, takich jak klasyfikacja, ekstrakcja danych, ranking oraz sub-agenty.Kontekst:400,000
Wejście:$0.6/M
Wyjście:$3.6/M
GPT-5.4 mini przenosi zalety GPT-5.4 do szybszego i bardziej wydajnego modelu, zaprojektowanego z myślą o zadaniach o dużej skali.Wejście:$60/M
Wyjście:$240/M
Claude Mythos Preview to nasz najbardziej zaawansowany model najnowszej generacji jak dotąd i wykazuje
imponujący skok wyników w wielu benchmarkach ewaluacyjnych w porównaniu z naszym poprzednim modelem najnowszej generacji, Claude Opus 4.6.Wejście:$0.8/M
Wyjście:$2.4/M
MiMo-V2-Pro to flagowy model bazowy Xiaomi, mający ponad 1T parametrów łącznie i długość kontekstu 1M, głęboko zoptymalizowany pod scenariusze z agentami. Jest wysoce adaptowalny do ogólnych frameworków agentowych, takich jak OpenClaw. Należy do światowej czołówki w standardowych benchmarkach PinchBench i ClawBench, z postrzeganą wydajnością zbliżającą się do Opus 4.6. MiMo-V2-Pro został zaprojektowany, aby pełnić rolę mózgu systemów agentowych, orkiestrując złożone przepływy pracy, realizując zadania inżynierii produkcyjnej i niezawodnie dostarczając wyniki.Wejście:$0.32/M
Wyjście:$1.6/M
MiMo-V2-Omni to zaawansowany model omni-modalny, który natywnie przetwarza obrazy, wideo i dźwięk w ramach ujednoliconej architektury. Łączy silną percepcję multimodalną ze zdolnościami agentowymi — ugruntowaniem wizualnym, planowaniem wieloetapowym, korzystaniem z narzędzi i wykonywaniem kodu — dzięki czemu dobrze nadaje się do złożonych zadań w rzeczywistych warunkach, obejmujących wiele modalności. Okno kontekstowe 256K.Wejście:$0.24/M
Wyjście:$0.96/M
MiniMax-M2.7 oferuje tę samą inteligencję najwyższej klasy co wersja standardowa — w tym rekurencyjną samoewolucję i produktywność w pracy biurowej na poziomie eksperckim — ale został zaprojektowany z myślą o zastosowaniach wymagających opóźnień poniżej jednej sekundy i szybkiego generowania tokenów. Dzięki ulepszonej bazowej architekturze inferencji jego szybkość generowania wyników jest o 66% wyższa niż w modelu standardowym (osiąga 100 tps). Jest preferowanym wyborem dla interaktywnych asystentów programistycznych, realizacji pętli agenta w czasie rzeczywistym oraz korporacyjnych potoków przetwarzania o wysokiej przepustowości z rygorystycznymi wymaganiami dotyczącymi czasu ukończenia.Kontekst:200k
Wejście:$0.96/M
Wyjście:$3.264/M
GLM-5 Turbo to nowy model od Z.ai, zaprojektowany z myślą o szybkim wnioskowaniu i wysokiej wydajności w środowiskach opartych na agentach, takich jak scenariusze OpenClaw.Kontekst:1,050,000
Wejście:$24/M
Wyjście:$144/M
Wersja GPT-5.4, która generuje inteligentniejsze i precyzyjniejsze odpowiedzi.Kontekst:1,050,000
Wejście:$2/M
Wyjście:$12/M
GPT-5.4 to wiodący model do złożonych zadań profesjonalnych. Reasoning.effort obsługuje: none (default), low, medium, high i xhigh.Wejście:$1.4/M
Wyjście:$11.2/M
Model GPT-5.3 Instant używany w ChatGPTWejście:$0.2/M
Wyjście:$1.2/M
Gemini 3.1 Flash-Lite to wysoce efektywny kosztowo i o niskich opóźnieniach model Tier-3 z serii Google Gemini 3, zaprojektowany do produkcyjnych przepływów pracy AI o dużej skali, w których przepustowość i szybkość są ważniejsze niż maksymalna głębokość rozumowania. Łączy duże multimodalne okno kontekstu z wydajnym wnioskowaniem przy niższym koszcie niż większość flagowych odpowiedników.Kontekst:200K
Wejście:$0.8/M
Wyjście:$4/M
Najszybszy, najbardziej opłacalny model.Na Sekundę:$0.24
Sora 2 Pro to nasz najbardziej zaawansowany i najpotężniejszy model generowania multimediów, zdolny do generowania wideo z zsynchronizowanym dźwiękiem. Może tworzyć szczegółowe, dynamiczne klipy wideo na podstawie języka naturalnego lub obrazów.Na Sekundę:$0.08
Niezwykle potężny model generowania wideo, z efektami dźwiękowymi, obsługuje format czatu.Na żądanie:$0.6
Midjourney video generationWejście:$0.16/M
Wyjście:$0.96/M
Jako natywny model wizyjno-językowy, QWEN3.5-397B-A17B z serii Qwen3.5 wyróżnia się w kompleksowych testach porównawczych, takich jak wnioskowanie, programowanie, zdolności agentowe i rozumienie multimodalne, pomagając deweloperom i przedsiębiorstwom znacząco zwiększyć produktywność. Model wykorzystuje innowacyjną architekturę hybrydową, łączącą liniową uwagę (Gated Delta Networks) z rzadkimi hybrydowymi ekspertami (MoE), aby osiągnąć znakomitą efektywność wnioskowania: 397 miliardów łącznych parametrów i tylko 17 miliardów parametrów aktywowanych na jedno przejście propagacji w przód, optymalizując szybkość i koszt przy zachowaniu możliwości. Rozszerzyliśmy też obsługę języków i dialektów ze 119 do 201, zapewniając szerszą dostępność i lepsze wsparcie dla użytkowników na całym świecie.Kontekst:2,000,000
Wejście:$1.6/M
Wyjście:$4.8/M
Wersja Grok 4.20 wprowadza architekturę wieloagentową (wiele wyspecjalizowanych agentów koordynowanych w czasie rzeczywistym), rozszerzone tryby kontekstowe oraz ukierunkowane usprawnienia w zakresie wykonywania instrukcji, redukcji halucynacji i wyników ustrukturyzowanych/opartych na narzędziach.Na Sekundę:$0.04
Generuj materiały wideo na podstawie promptów tekstowych, animuj statyczne obrazy lub edytuj istniejące materiały wideo za pomocą języka naturalnego. API obsługuje konfigurowalny czas trwania, proporcje obrazu i rozdzielczość generowanych materiałów wideo — przy czym SDK automatycznie obsługuje asynchroniczne odpytywanie.Kontekst:32,000
Wejście:$3.2/M
Wyjście:$12.8/M
Najlepszy model głosowy do wejścia i wyjścia audio.Najlepszy model głosowy do wejścia i wyjścia audio w ramach Chat Completions. Kontekst:400,000
Wejście:$1.4/M
Wyjście:$11.2/M
GPT-5.3-Codex jest zoptymalizowany pod kątem zadań programistycznych realizowanych przez agentów w Codex lub podobnych środowiskach. GPT-5.3-Codex obsługuje ustawienia poziomu wysiłku rozumowania: niski, średni, wysoki i bardzo wysoki.Na żądanie:$0.028
Seedream 5.0 Lite to zunifikowany multimodalny model generowania obrazów, wyposażony w możliwości głębokiego rozumowania oraz wyszukiwania online, oferujący wszechstronne ulepszenie w zakresie rozumienia, rozumowania i generowania.Wejście:$1.6/M
Wyjście:$9.6/M
Gemini 3.1 Pro to następna generacja w serii modeli Gemini — zestaw wysoce zaawansowanych, natywnie multimodalnych modeli rozumowania. Gemini 3 Pro jest teraz najbardziej zaawansowanym modelem Google do złożonych zadań i potrafi rozumieć ogromne zbiory danych oraz trudne problemy pochodzące z różnych źródeł informacji, w tym tekst, audio, obrazy, wideo oraz całe repozytoria kodu.Wejście:$0.32/M
Wyjście:$1.92/M
Modele Plus z natywnej serii wizualno-językowej Qwen3.5 są oparte na architekturze hybrydowej, która integruje mechanizmy liniowej uwagi z rzadkimi modelami typu mixture-of-experts, osiągając wyższą wydajność inferencji.Wejście:$0.48/M
Wyjście:$2.88/M
Natywny model wizyjno-językowy 397B-A17B z serii Qwen3.5 został zbudowany na hybrydowej architekturze, która integruje mechanizm liniowej uwagi z rzadką mieszanką ekspertów, osiągając wyższą efektywność wnioskowania.Wejście:$0.024/M
Wyjście:$0.24/M
🔹 Seria Doubao Seed 2.0
doubao-seed-2-0-code-preview-260215
Koncentruje się na zdolnościach wielokrokowego rozumowania i stabilności w przypadku złożonych zadań, dostosowany do złożonych scenariuszy w rzeczywistych środowiskach biznesowych. Jako wersja Seed 2.0 rozszerzona o możliwości programistyczne, lepiej nadaje się do Agentic Coding.
doubao-seed-2-0-lite-260215
Równoważy jakość generowania z szybkością odpowiedzi, dzięki czemu sprawdza się jako uniwersalny model klasy produkcyjnej.
doubao-seed-2-0-mini-260215
Zaprojektowany do scenariuszy o niskich opóźnieniach, wysokiej współbieżności i wrażliwości na koszty. Kładzie nacisk na szybkie odpowiedzi i elastyczne wdrażanie inferencji, wspierając czteropoziomowe rozumowanie oraz zdolności multimodalnego rozumienia.Wejście:$0.24/M
Wyjście:$0.96/M
MiniMax-M2.5 to duży model językowy klasy SOTA, zaprojektowany z myślą o produktywności w rzeczywistych warunkach. Wytrenowany w szerokiej gamie złożonych, rzeczywistych, cyfrowych środowisk pracy, M2.5 bazuje na ekspertyzie programistycznej M2.1, rozszerzając ją na typowe prace biurowe, osiągając biegłość w tworzeniu i obsłudze plików Word, Excel i Powerpoint, przełączaniu kontekstu między zróżnicowanymi środowiskami oprogramowania oraz pracy w różnych zespołach agentów i ludzi.