فنی تفصیلات
- Adaptive Reasoning:
Gemini 2.5 Flash-Liteحسبِ ضرورت سوچ کی سہولت فراہم کرتا ہے، جس سے ڈویلپرز صرف اس وقت کمپیوٹ وسائل مختص کر سکتے ہیں جب زیادہ گہرے استدلال کی ضرورت ہو۔ - Tool Integrations: Gemini 2.5 کے مقامی ٹولز کے ساتھ مکمل مطابقت، جن میں Grounding with Google Search، Code Execution، URL Context، اور Function Calling شامل ہیں، تاکہ ملٹی ماڈل ورک فلوز بے رکاوٹ رہیں۔
- Model Context Protocol (MCP): حقیقی وقت کا ویب ڈیٹا حاصل کرنے کے لیے Google کے MCP سے استفادہ کرتا ہے، اس بات کو یقینی بناتے ہوئے کہ جوابات تازہ ترین اور سیاقی طور پر موزوں ہوں۔
- Deployment Options: CometAPI، Gemini API، Vertex AI، اور Google AI Studio کے ذریعے دستیاب، جہاں ابتدائی صارفین کے لیے تجربہ کرنے اور رائے فراہم کرنے کی غرض سے ایک پریویو ٹریک بھی موجود ہے ۔
Gemini 2.5 Flash-Lite کی بینچ مارک کارکردگی
- Latency: Gemini 2.5 Flash کے مقابلے میں میڈین رسپانس ٹائم میں زیادہ سے زیادہ 50% تک کمی حاصل کرتا ہے، جبکہ معیاری کلاسیفیکیشن اور سمریزیشن بینچ مارکس پر عموماً 100 ms سے کم لیٹنسی ملتی ہے۔
- Throughput: زیادہ حجم والے ورک لوڈز کے لیے بہتر بنایا گیا ہے، فی منٹ دسیوں ہزار درخواستوں کو کارکردگی میں کمی کے بغیر برقرار رکھتا ہے۔
- Price-Performance: اپنے Flash ہم منصب کے مقابلے میں فی 1,000 ٹوکن لاگت میں 25% کمی ظاہر کرتا ہے، جس سے یہ لاگت حساس تیناتیوں کے لیے پریٹو کے لحاظ سے مثالی انتخاب بن جاتا ہے۔
- Industry Adoption: ابتدائی صارفین پروڈکشن پائپ لائنز میں بغیر رکاوٹ انضمام کی رپورٹ دیتے ہیں، جبکہ کارکردگی میٹرکس ابتدائی توقعات کے مطابق یا ان سے بڑھ کر ہیں ۔

مثالی استعمال کے کیسز
- ہائی فریکوئنسی، کم پیچیدگی والے کام: خودکار ٹیگنگ، جذباتی تجزیہ، اور بڑے پیمانے پر ترجمہ
- لاگت حساس پائپ لائنز: بڑے دستاویزاتی مجموعوں سے ڈیٹا اخراج، وقفہ وار بیچ خلاصہ سازی
- ایج اور موبائل منظرنامے: جب لیٹنسی اہم ہو لیکن وسائل کے بجٹ محدود ہوں
Gemini 2.5 Flash-Lite کی حدود
- Preview Status: GA سے پہلے API میں تبدیلیاں آ سکتی ہیں؛ انضمامات کو ممکنہ ورژن اپ گریڈز کو مدِنظر رکھنا چاہیے۔
- No On-the-Fly Fine-Tuning: کسٹم ویٹس اپ لوڈ نہیں کیے جا سکتے؛ پرامپٹ انجینئرنگ اور سسٹم میسجز پر انحصار کریں۔
- Reduced Creativity: فیصلہ کن، ہائی تھروپٹ کاموں کے لیے ٹیون کیا گیا ہے؛ کھلے آخر کی جنریشن یا “creative” تحریر کے لیے کم موزوں۔
- Resource Ceiling: صرف ~16 vCPUs تک خطی انداز میں اسکیل کرتا ہے؛ اس سے آگے تھروپٹ میں اضافے گھٹ جاتے ہیں۔
- Multimodal Constraints: امیج/آڈیو ان پٹس کی سپورٹ موجود ہے مگر محدود فیڈیلیٹی کے ساتھ؛ بھاری ویژن یا آڈیو ٹرانسکرپشن کاموں کے لیے موزوں نہیں۔
- Context-Window Trade-Off: اگرچہ یہ 1 M ٹوکنز تک قبول کرتا ہے، اس پیمانے پر عملی انفیرنس میں تھروپٹ میں کمی دیکھنے کو مل سکتی ہے۔