Gemini 2.5 Flash ได้รับการออกแบบมาเพื่อมอบการตอบสนองที่รวดเร็วโดยไม่ลดทอนคุณภาพของผลลัพธ์ รองรับอินพุตแบบมัลติโหมด ทั้งข้อความ รูปภาพ เสียง และวิดีโอ ทำให้เหมาะกับการใช้งานที่หลากหลาย โมเดลสามารถเข้าถึงได้ผ่านแพลตฟอร์มอย่าง Google AI Studio และ Vertex AI มอบเครื่องมือที่นักพัฒนาต้องการเพื่อผสานรวมเข้ากับระบบต่างๆ ได้อย่างราบรื่น

ข้อมูลพื้นฐาน (คุณสมบัติ)

Gemini 2.5 Flash นำเสนอคุณสมบัติเด่นหลายประการที่ทำให้แตกต่างภายในตระกูล Gemini 2.5:

การให้เหตุผลแบบไฮบริด: นักพัฒนาสามารถตั้งค่าพารามิเตอร์ thinking_budget เพื่อควบคุมอย่างละเอียดว่ามีโทเค็นจำนวนเท่าใดที่โมเดลทุ่มให้กับการให้เหตุผลภายในก่อนแสดงผลลัพธ์
Pareto Frontier: อยู่ที่จุด ต้นทุน-ประสิทธิภาพที่เหมาะสมที่สุด โดย Flash มอบอัตราส่วนราคาต่อความฉลาดที่ดีที่สุดในบรรดาโมเดล 2.5
การรองรับมัลติโหมด: ประมวลผล ข้อความ, รูปภาพ, วิดีโอ และ เสียง ได้โดยตรง เปิดทางสู่บทสนทนาและการวิเคราะห์ที่หลากหลายยิ่งขึ้น
บริบท 1 ล้านโทเค็น: ความยาวบริบทยาวเป็นพิเศษ ช่วยให้วิเคราะห์เชิงลึกและเข้าใจเอกสารยาวในคำขอเดียว

การจัดการเวอร์ชันของโมเดล

Gemini 2.5 Flash มีการเปลี่ยนผ่านเวอร์ชันหลักดังต่อไปนี้:

gemini-2.5-flash-lite-preview-09-2025: การใช้งานเครื่องมือดีขึ้น: ปรับปรุงประสิทธิภาพบนงานที่ซับซ้อนหลายขั้นตอน โดยคะแนน SWE-Bench Verified เพิ่มขึ้น 5% (จาก 48.9% เป็น 54%) ประสิทธิภาพดีขึ้น: เมื่อเปิดใช้ reasoning ผลลัพธ์คุณภาพสูงขึ้นด้วยจำนวนโทเค็นที่น้อยลง ลดเวลาแฝงและค่าใช้จ่าย
Preview 04-17: การเปิดให้เข้าถึงล่วงหน้าพร้อมความสามารถ “thinking” สามารถใช้งานผ่าน gemini-2.5-flash-preview-04-17.
Stable General Availability (GA): ณ วันที่ 17 มิถุนายน 2025 ปลายทางเสถียร gemini-2.5-flash แทนที่รุ่นพรีวิว โดยรับรองความเชื่อถือได้ระดับการผลิต โดยไม่มีการเปลี่ยนแปลง API จากรุ่นพรีวิววันที่ 20 พฤษภาคม
Deprecation of Preview: ปลายทางพรีวิวถูกกำหนดให้ปิดในวันที่ 15 กรกฎาคม 2025; ผู้ใช้ต้องย้ายไปยังปลายทาง GA ก่อนวันที่นี้

ณ เดือนกรกฎาคม 2025 Gemini 2.5 Flash เปิดให้ใช้งานสาธารณะและมีความเสถียรแล้ว (ไม่มีการเปลี่ยนแปลงจาก gemini-2.5-flash-preview-05-20 ). หากคุณกำลังใช้ gemini-2.5-flash-preview-04-17 การคิดราคาของรุ่นพรีวิวเดิมจะคงอยู่จนถึงวันที่ 15 กรกฎาคม 2025 ซึ่งเป็นกำหนดเลิกใช้งานปลายทางของโมเดล เมื่อถึงเวลานั้นจะถูกปิด คุณสามารถย้ายไปใช้โมเดลที่พร้อมใช้งานทั่วไป "gemini-2.5-flash" .

เร็วขึ้น ถูกลง ฉลาดขึ้น:

เป้าหมายการออกแบบ: เวลาแฝงต่ำ + อัตราผ่านงานสูง + ต้นทุนต่ำ;
ความเร็วโดยรวมดีขึ้นในการให้เหตุผล การประมวลผลมัลติโหมด และงานข้อความยาว;
การใช้โทเค็นลดลง 20–30% ลดต้นทุนการให้เหตุผลอย่างมีนัยสำคัญ.

ข้อมูลทางเทคนิค

ขนาดหน้าต่างบริบทอินพุต: สูงสุด 1 ล้านโทเค็น ช่วยให้รักษาบริบทได้ยาวนาน

โทเค็นผลลัพธ์: สามารถสร้างได้สูงสุด 8,192 โทเค็นต่อการตอบแต่ละครั้ง

รูปแบบที่รองรับ: ข้อความ รูปภาพ เสียง และวิดีโอ

แพลตฟอร์มสำหรับผสานใช้งาน: มีให้บริการผ่าน Google AI Studio และ Vertex AI

ราคา: โมเดลการคิดราคาตามโทเค็นที่แข่งขันได้ เอื้อต่อการปรับใช้ที่คุ้มค่า

รายละเอียดทางเทคนิค

ภายใน Gemini 2.5 Flash เป็นโมเดลภาษาขนาดใหญ่แบบ transformer-based ที่ฝึกจากข้อมูลผสมผสานของเว็บ โค้ด รูปภาพ และวิดีโอ ข้อมูลจำเพาะทางเทคนิคหลักได้แก่:

การฝึกแบบมัลติโหมด: ฝึกให้จัดแนวหลายโมดัลิตี Flash สามารถผสานข้อความเข้ากับ รูปภาพ, วิดีโอ, หรือ เสียง ได้อย่างไร้รอยต่อ เหมาะกับงานอย่างการสรุปวิดีโอหรือการสร้างคำบรรยายเสียง

กระบวนการคิดแบบไดนามิก: มีวงรอบการให้เหตุผลภายในที่โมเดลจะ วางแผน และ แยกพรอมป์ตที่ซับซ้อนออกเป็นส่วนย่อย ก่อนให้ผลลัพธ์สุดท้าย

งบประมาณการคิดที่ปรับตั้งได้: สามารถตั้งค่า thinking_budget ได้ตั้งแต่ 0 (ไม่มีการให้เหตุผล) ไปจนถึง 24,576 โทเค็น เพื่อแลกเปลี่ยนระหว่างเวลาแฝงกับคุณภาพคำตอบ

การผสานเครื่องมือ: รองรับ Grounding with Google Search, Code Execution, URL Context, และ Function Calling ช่วยให้ดำเนินการในโลกจริงได้โดยตรงจากพรอมป์ตภาษาธรรมชาติ

ผลการทดสอบมาตรฐาน

ในการประเมินอย่างเข้มงวด Gemini 2.5 Flash แสดงให้เห็นประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม:

LMArena Hard Prompts: ได้คะแนน รองจาก 2.5 Pro เพียงรุ่นเดียว บนชุดทดสอบ Hard Prompts ที่ท้าทาย แสดงความสามารถด้านการให้เหตุผลหลายขั้นตอนที่แข็งแกร่ง
คะแนน MMLU 0.809: สูงกว่าค่าเฉลี่ย สะท้อนความรู้ข้ามโดเมนและศักยภาพการให้เหตุผล
เวลาแฝงและอัตราผ่านงาน: ทำความเร็วการถอดรหัสได้ 271.4 tokens/sec พร้อม Time-to-First-Token 0.29 s เหมาะสำหรับงานที่ไวต่อเวลาแฝง
ผู้นำด้านราคา-ต่อ-ประสิทธิภาพ: ที่ \$0.26/1 M tokens Flash ตั้งราคาต่ำกว่าคู่แข่งหลายราย ขณะเดียวกันก็ทำได้เทียบเท่าหรือเหนือกว่าในตัวชี้วัดสำคัญ

ผลลัพธ์เหล่านี้บ่งชี้ถึงความได้เปรียบของ Gemini 2.5 Flash ในด้านการให้เหตุผล ความเข้าใจเชิงวิทยาศาสตร์ การแก้ปัญหาทางคณิตศาสตร์ การโค้ด การตีความภาพ และความสามารถหลายภาษา:

ข้อจำกัด

แม้จะทรงพลัง แต่ Gemini 2.5 Flash ยังมีข้อจำกัดบางประการ:

ความเสี่ยงด้านความปลอดภัย: โมเดลอาจมีน้ำเสียงแนว “สั่งสอน” และอาจสร้างผลลัพธ์ที่ดูน่าเชื่อถือแต่ไม่ถูกต้องหรือมีอคติ (hallucinations) โดยเฉพาะบนคำถามกรณีขอบ จึงยังจำเป็นต้องมีการกำกับดูแลโดยมนุษย์อย่างเข้มงวด
ขีดจำกัดอัตรา: การใช้งาน API ถูกจำกัดด้วย rate limits (10 RPM, 250,000 TPM, 250 RPD) ซึ่งอาจกระทบต่อการประมวลผลแบบแบตช์หรือการใช้งานปริมาณมาก
ระดับพื้นฐานของความฉลาด: แม้จะยอดเยี่ยมสำหรับโมเดลแบบ flash แต่ยังแม่นยำน้อยกว่า 2.5 Pro ในงาน agentic ที่ท้าทายที่สุด เช่น การโค้ดขั้นสูงหรือการประสานงานหลายเอเจนต์
การแลกเปลี่ยนต้นทุน: แม้ว่าจะมอบ ราคา-ต่อ-ประสิทธิภาพ ที่ดีที่สุด แต่การใช้โหมด thinking อย่างหนักจะเพิ่มการใช้โทเค็นโดยรวม ทำให้ต้นทุนสูงขึ้นสำหรับพรอมป์ตที่ต้องให้เหตุผลอย่างลึก

คุณสมบัติสำหรับ Gemini 2.5 Flash

สำรวจคุณสมบัติหลักของ Gemini 2.5 Flash ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ Gemini 2.5 Flash

สำรวจราคาที่แข่งขันได้สำหรับ Gemini 2.5 Flash ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า Gemini 2.5 Flash สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้

gemini-2.5-flash (same price across variants)

Model family	Variant (model name)	Input price (USD / 1M tokens)	Output price (USD / 1M tokens)
gemini-2.5-flash	gemini-2.5-flash-thinking	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash-all	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash	$0.24	$2.00

โค้ดตัวอย่างและ API สำหรับ Gemini 2.5 Flash

Gemini 2.5 Flash API เป็นโมเดล AI แบบมัลติโมดัลรุ่นล่าสุดของ Google ออกแบบมาสำหรับงานที่ต้องการความเร็วสูงและคุ้มค่าต้นทุน พร้อมความสามารถในการให้เหตุผลที่ควบคุมได้ ช่วยให้นักพัฒนาสามารถสลับเปิดหรือปิดคุณสมบัติ "thinking" ขั้นสูงผ่าน Gemini API

Python
JavaScript
Curl

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

รุ่นของ Gemini 2.5 Flash

เหตุผลที่ Gemini 2.5 Flash มีสแนปช็อตหลายตัวอาจรวมถึงปัจจัยที่อาจเกิดขึ้น เช่น ความแปรผันของผลลัพธ์หลังการอัปเดตที่ต้องการสแนปช็อตรุ่นเก่าสำหรับความสม่ำเสมอ การให้ช่วงเวลาเปลี่ยนผ่านสำหรับนักพัฒนาเพื่อการปรับตัวและการย้ายข้อมูล และสแนปช็อตที่แตกต่างกันซึ่งสอดคล้องกับเอนด์พอยต์ระดับโลกหรือระดับภูมิภาคเพื่อเพิ่มประสิทธิภาพประสบการณ์ผู้ใช้ สำหรับความแตกต่างโดยละเอียดระหว่างเวอร์ชัน โปรดอ้างอิงเอกสารทางการ

version
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-image
gemini-2.5-flash-image-preview
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-thinking
gemini-2.5-flash-all
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking

ข้อมูลพื้นฐาน (คุณสมบัติ)

Gemini 2.5 Flash นำเสนอคุณสมบัติเด่นหลายประการที่ทำให้แตกต่างภายในตระกูล Gemini 2.5:

การให้เหตุผลแบบไฮบริด: นักพัฒนาสามารถตั้งค่าพารามิเตอร์ thinking_budget เพื่อควบคุมอย่างละเอียดว่ามีโทเค็นจำนวนเท่าใดที่โมเดลทุ่มให้กับการให้เหตุผลภายในก่อนแสดงผลลัพธ์
Pareto Frontier: อยู่ที่จุด ต้นทุน-ประสิทธิภาพที่เหมาะสมที่สุด โดย Flash มอบอัตราส่วนราคาต่อความฉลาดที่ดีที่สุดในบรรดาโมเดล 2.5
การรองรับมัลติโหมด: ประมวลผล ข้อความ, รูปภาพ, วิดีโอ และ เสียง ได้โดยตรง เปิดทางสู่บทสนทนาและการวิเคราะห์ที่หลากหลายยิ่งขึ้น
บริบท 1 ล้านโทเค็น: ความยาวบริบทยาวเป็นพิเศษ ช่วยให้วิเคราะห์เชิงลึกและเข้าใจเอกสารยาวในคำขอเดียว

การจัดการเวอร์ชันของโมเดล

Gemini 2.5 Flash มีการเปลี่ยนผ่านเวอร์ชันหลักดังต่อไปนี้:

gemini-2.5-flash-lite-preview-09-2025: การใช้งานเครื่องมือดีขึ้น: ปรับปรุงประสิทธิภาพบนงานที่ซับซ้อนหลายขั้นตอน โดยคะแนน SWE-Bench Verified เพิ่มขึ้น 5% (จาก 48.9% เป็น 54%) ประสิทธิภาพดีขึ้น: เมื่อเปิดใช้ reasoning ผลลัพธ์คุณภาพสูงขึ้นด้วยจำนวนโทเค็นที่น้อยลง ลดเวลาแฝงและค่าใช้จ่าย
Preview 04-17: การเปิดให้เข้าถึงล่วงหน้าพร้อมความสามารถ “thinking” สามารถใช้งานผ่าน gemini-2.5-flash-preview-04-17.
Stable General Availability (GA): ณ วันที่ 17 มิถุนายน 2025 ปลายทางเสถียร gemini-2.5-flash แทนที่รุ่นพรีวิว โดยรับรองความเชื่อถือได้ระดับการผลิต โดยไม่มีการเปลี่ยนแปลง API จากรุ่นพรีวิววันที่ 20 พฤษภาคม
Deprecation of Preview: ปลายทางพรีวิวถูกกำหนดให้ปิดในวันที่ 15 กรกฎาคม 2025; ผู้ใช้ต้องย้ายไปยังปลายทาง GA ก่อนวันที่นี้

เร็วขึ้น ถูกลง ฉลาดขึ้น:

เป้าหมายการออกแบบ: เวลาแฝงต่ำ + อัตราผ่านงานสูง + ต้นทุนต่ำ;
ความเร็วโดยรวมดีขึ้นในการให้เหตุผล การประมวลผลมัลติโหมด และงานข้อความยาว;
การใช้โทเค็นลดลง 20–30% ลดต้นทุนการให้เหตุผลอย่างมีนัยสำคัญ.

ข้อมูลทางเทคนิค

โทเค็นผลลัพธ์: สามารถสร้างได้สูงสุด 8,192 โทเค็นต่อการตอบแต่ละครั้ง

รูปแบบที่รองรับ: ข้อความ รูปภาพ เสียง และวิดีโอ

แพลตฟอร์มสำหรับผสานใช้งาน: มีให้บริการผ่าน Google AI Studio และ Vertex AI

รายละเอียดทางเทคนิค

ผลการทดสอบมาตรฐาน

LMArena Hard Prompts: ได้คะแนน รองจาก 2.5 Pro เพียงรุ่นเดียว บนชุดทดสอบ Hard Prompts ที่ท้าทาย แสดงความสามารถด้านการให้เหตุผลหลายขั้นตอนที่แข็งแกร่ง
คะแนน MMLU 0.809: สูงกว่าค่าเฉลี่ย สะท้อนความรู้ข้ามโดเมนและศักยภาพการให้เหตุผล
เวลาแฝงและอัตราผ่านงาน: ทำความเร็วการถอดรหัสได้ 271.4 tokens/sec พร้อม Time-to-First-Token 0.29 s เหมาะสำหรับงานที่ไวต่อเวลาแฝง
ผู้นำด้านราคา-ต่อ-ประสิทธิภาพ: ที่ \$0.26/1 M tokens Flash ตั้งราคาต่ำกว่าคู่แข่งหลายราย ขณะเดียวกันก็ทำได้เทียบเท่าหรือเหนือกว่าในตัวชี้วัดสำคัญ

ข้อจำกัด

แม้จะทรงพลัง แต่ Gemini 2.5 Flash ยังมีข้อจำกัดบางประการ:

ความเสี่ยงด้านความปลอดภัย: โมเดลอาจมีน้ำเสียงแนว “สั่งสอน” และอาจสร้างผลลัพธ์ที่ดูน่าเชื่อถือแต่ไม่ถูกต้องหรือมีอคติ (hallucinations) โดยเฉพาะบนคำถามกรณีขอบ จึงยังจำเป็นต้องมีการกำกับดูแลโดยมนุษย์อย่างเข้มงวด
ขีดจำกัดอัตรา: การใช้งาน API ถูกจำกัดด้วย rate limits (10 RPM, 250,000 TPM, 250 RPD) ซึ่งอาจกระทบต่อการประมวลผลแบบแบตช์หรือการใช้งานปริมาณมาก
ระดับพื้นฐานของความฉลาด: แม้จะยอดเยี่ยมสำหรับโมเดลแบบ flash แต่ยังแม่นยำน้อยกว่า 2.5 Pro ในงาน agentic ที่ท้าทายที่สุด เช่น การโค้ดขั้นสูงหรือการประสานงานหลายเอเจนต์
การแลกเปลี่ยนต้นทุน: แม้ว่าจะมอบ ราคา-ต่อ-ประสิทธิภาพ ที่ดีที่สุด แต่การใช้โหมด thinking อย่างหนักจะเพิ่มการใช้โทเค็นโดยรวม ทำให้ต้นทุนสูงขึ้นสำหรับพรอมป์ตที่ต้องให้เหตุผลอย่างลึก

Gemini 2.5 Flash

โมเดลเพิ่มเติม

Claude Opus 4.7

Claude Sonnet 4.6

GPT 5.5 Pro

GPT 5.5

GPT Image 2 ALL

GPT 5.5 ALL

บล็อกที่เกี่ยวข้อง

Nano Banana 2 Flash เร็วๆ นี้ – วิวัฒนาการความเร็วสูงของการสร้างภาพด้วย AI

ส่วนลด Nano Banana: ประหยัดเงินได้จริงในปี 2026 สำหรับนักพัฒนา

API Gemini 2.5 Pro แบบฟรีเสียหรือ? การเปลี่ยนแปลงโควต้าฟรีในปี 2025

คู่มือฉบับสมบูรณ์สำหรับ Nano-Banana: วิธีใช้และคำแนะนำสำหรับสิ่งที่ดีที่สุด

วิธีการใช้ Nano Banana ผ่าน API (Gemini-2-5-flash-image)