X

mimo-v2-omni

Indtast:$0.32/M
Output:$1.6/M
MiMo-V2-Omni er en banebrydende omnimodal model, der nativt behandler billed-, video- og lydinput i en samlet arkitektur. Den kombinerer stærk multimodal perception med agentiske evner – visuel forankring, flertrinsplanlægning, brug af værktøjer og afvikling af kode – hvilket gør den velegnet til komplekse opgaver i den virkelige verden, der går på tværs af modaliteter. 256K kontekstvindue.
Ny
Kommersiel brug