Gemini Embedding 2 คืออะไร?

CometAPI
AnnaMar 11, 2026
Gemini Embedding 2 คืออะไร?

Gemini Embedding 2 คือโมเดลฝังความหมาย (embedding) แบบ multimodal โดยกำเนิด ตัวแรกของ Google ที่แมปข้อความ รูปภาพ เสียง วิดีโอ และ PDF เข้าสู่พื้นที่เวกเตอร์เชิงความหมายมิติ 3,072 หน่วยเดียว (พร้อมตัวเลือกปรับขนาดเอาต์พุตได้) นำเสนอ Matryoshka Representation Learning เพื่อให้ได้ embedding แบบซ้อน/ตัดทอน ประสิทธิภาพหลายภาษาที่ดีขึ้น (100+ ภาษา) และการควบคุมที่ปรับให้เหมาะกับงานเฉพาะ (เช่น task:search, task:code)

Gemini Embedding 2 คืออะไร?

Gemini Embedding 2 คือโมเดล embedding แบบรวมจาก Google ที่แมปอินพุตหลายโมดาลิตี — ข้อความ รูปภาพ เสียง วิดีโอ และเอกสาร — เข้าสู่พื้นที่เวกเตอร์เชิงความหมายเดียว แต่ละ embedding โดยค่าเริ่มต้นเป็นเวกเตอร์จำนวนจริงแบบลอยตัวความยาว 3,072 มิติที่แทนความหมายเชิงความหมายของอินพุต เพื่อให้รายการที่มีความหมายใกล้เคียงกัน (ไม่ขึ้นกับโมดาลิตี) อยู่ใกล้กันในพื้นที่เวกเตอร์ ความสามารถเด่น ได้แก่:

  • รองรับภาษาและรูปแบบกว้าง: โมเดลเดียวที่รับข้อความ รูปภาพ เสียง วิดีโอ และเอกสาร และวางไว้ในพื้นที่เวกเตอร์เชิงความหมายเดียว Gemini Embedding 2 มีรายงานว่าสามารถจับเจตนาเชิงความหมายได้ครอบคลุม 100+ ภาษา และรับรูปแบบไฟล์ทั่วไป (PNG/JPEG, MP4/MOV, MP3/WAV, PDF) พร้อมขีดจำกัดต่อคำขอที่ระบุไว้อย่างชัดเจน (เช่น สูงสุดไม่กี่รูปภาพต่อคำขอ หรือเสียง/วิดีโอความยาวหลายสิบวินาที—ดู “วิธีใช้งาน” ด้านล่าง)
  • มัลติโมดาลิตี้อย่างแท้จริง: โมเดลเดียวที่รับข้อความ รูปภาพ เสียง วิดีโอ และเอกสาร และวางไว้ในพื้นที่เวกเตอร์เชิงความหมายเดียว เพื่อให้สามารถเปรียบเทียบหรือค้นหาข้ามโมดาลิตี (เช่น ข้อความ → รูปภาพ, เสียง → ข้อความ)
  • มิติโดยค่าเริ่มต้นขนาดใหญ่พร้อมการตัดทอนได้อย่างยืดหยุ่น: โมเดลส่งออกเวกเตอร์ความยาว 3072 มิติ โดยค่าเริ่มต้น แต่ใช้ Matryoshka Representation Learning (MRL) เพื่อรวบรวมสาระสำคัญเชิงความหมายไว้ในมิติแรกๆ ทำให้สามารถตัดทอนเหลือ 1536, 768 (หรือต่ำกว่านั้น) โดยคุณภาพการค้นคืนลดลงเพียงเล็กน้อย ช่วยลดต้นทุนการจัดเก็บและการประมวลผล

เหตุผลที่สำคัญ: ในอดีต embedding มักเป็นแบบข้อความเท่านั้นหรือจำเป็นต้องมี encoder แยกต่อโมดาลิตีพร้อมเลเยอร์จัดแนวข้ามโมดาลิตีที่ซับซ้อน Gemini Embedding 2 ขจัดอุปสรรคดังกล่าวด้วยการรองรับหลายรูปแบบโดยกำเนิด—ทำให้คำค้นเป็นข้อความสามารถค้นหารูปภาพหรือคลิปสั้นๆ ตามความคล้ายคลึงเชิงความหมายได้โดยไม่ต้องถอดเสียงหรือแมปด้วยมือก่อน ช่วยให้ RAG (retrieval-augmented generation), การค้นหาเชิงความหมาย และท่อการค้นคืนแบบมัลติโมดาลง่ายขึ้น

คุณสมบัติและความสามารถหลัก (มีอะไรใหม่)

1. มัลติโมดาลโดยกำเนิดจริง (พื้นที่ embedding เดียว)

โมเดลเดียวที่รับข้อความ รูปภาพ เสียง วิดีโอ และเอกสาร และวางไว้ในพื้นที่เวกเตอร์เชิงความหมายเดียว Gemini Embedding 2 แมปข้อความ รูปภาพ เสียง วิดีโอ และเอกสารเข้าสู่พื้นที่ embedding เดียวกัน ทำให้การค้นคืนข้ามโมดาลิตี (ข้อความ→รูปภาพ, เสียง→ข้อความ) ใช้งานได้โดยตรงโดยไม่ต้องจัดแนวข้ามโมเดล ลดความซับซ้อนของไปป์ไลน์และทำให้สแต็ก RAG (Retrieval-Augmented Generation) ง่ายขึ้น

2. เวกเตอร์ค่าเริ่มต้น 3,072 มิติพร้อมการปรับขนาดเอาต์พุต

Gemini Embedding 2 ส่งออกเวกเตอร์ความยาว 3072 มิติ โดยค่าเริ่มต้น แต่ใช้ Matryoshka Representation Learning (MRL) เพื่อรวบรวมเนื้อหาสำคัญเชิงความหมายไว้ในมิติแรกๆ จึงสามารถตัดทอนเหลือ 1536, 768 (หรือต่ำกว่านั้น) โดยมีการลดคุณภาพการค้นคืนเพียงเล็กน้อย ช่วยลดต้นทุนพื้นที่เก็บและการคำนวณ

3. Matryoshka Representation Learning (MRL)

MRL สร้าง embedding แบบ “ซ้อนชั้น”—เหมือนตุ๊กตารัสเซีย—ทำให้ส่วนตัดทอนที่มีมิติน้อยยังคงรักษาความหมายระดับสูงไว้ได้ ช่วยให้ระบบเลือกจุดทำงาน (สมดุลพื้นที่จัดเก็บ/ความแม่นยำ) โดยไม่ต้องคงหลายโมเดล embedding แยกกัน บทวิเคราะห์และเอกสารช่วงแรกอธิบายเทคนิคนี้ว่าเป็นนวัตกรรมหลักเพื่อความยืดหยุ่น

4. ตัวบอกใบ้งาน / วัตถุประสงค์ embedding แบบปรับแต่ง

API รองรับตัวบอกใบ้ task (เช่น task:search, task:code retrieval, task:semantic-similarity) เพื่อให้โมเดลปรับปรุงรูปทรงเรขาคณิตของ embedding ให้เหมาะกับความสัมพันธ์ปลายทางเฉพาะ คล้ายการปรับตามงานในระบบ embedding รุ่นก่อนแต่ขยายสู่ข้อมูลแบบมัลติโมดาล

5. ความกว้างของภาษาและโมดาลิตี

มีรายงานว่าสามารถจับเจตนาเชิงความหมายได้ครอบคลุม 100+ ภาษา และรับรูปแบบไฟล์ทั่วไป (PNG/JPEG, MP4/MOV, MP3/WAV, PDF) พร้อมขีดจำกัดต่อคำขอที่ชัดเจน (เช่น สูงสุดไม่กี่รูปภาพต่อคำขอ หรือเสียง/วิดีโอความยาวหลายสิบวินาที—ดู “วิธีใช้งาน” ด้านล่าง)

ตัวชี้วัดประสิทธิภาพ

Gemini Embedding 2 คืออะไร?

สรุปตัวชี้วัดสำคัญ:

  • MTEB (Massive Text Embedding Benchmark): มีรายงานว่าทำอันดับได้ดีบนกระดานผู้นำ MTEB แบบหลายภาษาสำหรับงานภาษาอังกฤษและงานหลายภาษา; การวิเคราะห์ชี้ให้เห็นถึงการยกระดับอย่างมีนัยสำคัญเมื่อเทียบกับโมเดล embedding รุ่นก่อนของ Gemini และตัวเลือกเชิงพาณิชย์อื่นๆ หลายตัว
  • การค้นคืนแบบมัลติโมดาล: ทำได้ดีกว่าหรือทัดเทียม embedding แบบโมดาลเดียวชั้นนำเมื่อใช้สำหรับความคล้ายคลึงข้ามโมดาลิตี (เช่น การค้นคืนข้อความ→รูปภาพ) อันเป็นผลจากการฝึกแบบมัลติโมดาลโดยกำเนิด
  • เวลาแฝงและอัตราส่งผ่าน: การสร้าง embedding โฮสต์บนคลาวด์ แต่กรณีที่ไวต่อเวลาแฝงอาจเลือกใช้เวกเตอร์แบบตัดทอนหรือโมเดล embedding น้ำหนักเบาทางเลือกสำหรับงาน on-edge

Gemini Embedding 2 เทียบกับ gemini-embedding-001 และ text-embedding-3-large

AttributeGemini Embedding 2 (embedding-2)Gemini Embedding (gemini-embedding-001)OpenAI text-embedding-3-large
Release / availabilityMar 10, 2026 — public preview (Gemini API / Vertex AI).Earlier Gemini embedding (text-only variants) — GA earlier.Announced Jan 2024 (text-only GA).
Modalities supportedText, images, audio, video, documents (PDF) — unified vector space.Text (primarily).Text only (high-quality multilingual).
Default embedding dim.3072 (MRL / truncation recommended: 1536, 768).3072 (for large) — text only.3072 (text-embedding-3-large).
Reported MTEB (example)High-60s on MTEB; shows 68.17 at 1536 in vendor table (see docs).gemini-embedding-001 reported ~68.32 mean in some leaderboards.~64.6 (MTEB average reported by OpenAI for text-embedding-3-large).
Native audio/video supportYes (direct audio/video embedding).No (text only).No (text only).
Typical use casesMultimodal retrieval, RAG, semantic search across file types, speech retrieval, video search.Text retrieval, multilingual RAG.Text retrieval, semantic search, RAG — strong multilingual text performance.

ข้อมูลเชิงเทคนิคและขีดจำกัด

ขนาด embedding ค่าเริ่มต้นและแบบปรับได้

  • ค่าเริ่มต้น: 3,072 มิติ
  • ปรับได้: พารามิเตอร์ output_dimensionality ช่วยให้ขอเอาต์พุตที่มีมิติน้อยลงเพื่อประหยัดพื้นที่จัดเก็บ/CPU กรณีใช้งานที่มีคลังเวกเตอร์ขนาดใหญ่มากมักลดมิติเหลือ 512–1,024 เพื่อเหตุผลด้านต้นทุน โดยยอมรับความแม่นยำที่ลดลงบ้าง

โมดาลิตีที่รองรับและขีดจำกัดต่อคำขอ

  • รูปภาพ: PNG, JPEG — สูงสุด 6 รูปภาพต่อคำขอ (ตามรายงานผู้ให้บริการ)
  • วิดีโอ: MP4, MOV — ผู้ให้บริการรายงานว่าสูงสุดประมาณ 128 วินาทีต่อวิดีโอสำหรับการฝังในคำขอเดียว
  • เสียง: MP3, WAV — ผู้ให้บริการรายงานว่าสูงสุดประมาณ 80 วินาทีต่ออินพุตเสียง
  • เอกสาร: PDF — สูงสุด 6 หน้า/คำขอ (ตามรายงานผู้ให้บริการ)
  • ขีดจำกัดโทเค็นสำหรับข้อความ: โมเดลรองรับอินพุตโทเค็นจำนวนมาก; มีขีดจำกัดโทเค็นต่อคำขอในทางปฏิบัติ (ตรวจสอบเอกสาร API และโควตา Vertex AI)

ความพร้อมใช้งานและการเข้าถึง

  • Public preview: Gemini Embedding 2 เปิดตัวเป็น public preview และพร้อมใช้งานผ่าน Gemini API และ Google Cloud’s Vertex AI สำหรับการทดลองใช้งานทันที

คำถามที่พบบ่อย (FAQ)

Q1: โมเดล Gemini Embedding 2 รองรับโมดาลิตีใดบ้าง?
A: ข้อความ รูปภาพ (PNG/JPEG), วิดีโอ (MP4/MOV), เสียง (MP3/WAV) และเอกสาร PDF — ทั้งหมดถูกแมปเข้าสู่พื้นที่เวกเตอร์เชิงความหมายเดียวกัน

Q2: ขนาดเวกเตอร์เริ่มต้นของ Gemini Embedding 2 คือเท่าไร?
A: เริ่มต้นที่ 3,072 มิติ คุณสามารถขอเอาต์พุตที่มีมิติน้อยลงผ่าน API ได้

Q3: Gemini Embedding 2 พร้อมใช้งานแล้วหรือไม่?
A: พร้อมแล้ว — เปิดตัวเป็น public preview และใช้งานผ่าน Gemini API และ Vertex AI (ตรวจสอบรหัสโมเดล gemini-embedding-2-preview และบันทึกการเปลี่ยนแปลงล่าสุด)

Q4: เมื่อเทียบกับ embedding จากผู้ให้บริการรายอื่นเป็นอย่างไร?
A: การทดสอบโดยผู้ให้บริการอิสระรายงานว่า Gemini Embedding 2 อยู่ในกลุ่มโมเดลเชิงพาณิชย์ชั้นนำสำหรับข้อความหลายภาษา และแสดงประสิทธิภาพระดับ state-of-the-art สำหรับงานมัลติโมดาลบางรายการ อันดับที่แน่นอนขึ้นกับงานและชุดข้อมูล; ควรทดสอบกับข้อมูลของคุณเอง

Q5: จำเป็นต้องถอดเสียง (transcribe) เสียงก่อนใช้ Gemini Embedding 2 หรือไม่?
A: ไม่จำเป็น — Gemini Embedding 2 รับเสียงโดยตรงและสร้าง embedding ได้โดยไม่ต้องถอดเสียงก่อน ช่วยให้ค้นคืนความหมายจากเสียงแบบ end-to-end

Q6: จะลดต้นทุนพื้นที่จัดเก็บสำหรับเวกเตอร์ 3,072 มิติได้อย่างไร?
A: ตัวเลือกได้แก่ การขอ output_dimensionality ที่ต่ำลง การใช้ float16/quantization/PQ และการเก็บตัวแทนแบบบีบอัดในฐานข้อมูลเวกเตอร์ของคุณ โพสต์จากผู้ให้บริการมีเวิร์กโฟลว์และแนวปฏิบัติที่ดีที่สุด

ต่อไปคืออะไร — ควรนำไปใช้ตอนนี้หรือไม่?

Gemini Embedding 2 เป็นก้าวสำคัญในการรวมการค้นคืนแบบมัลติโมดาลและทำให้ง่ายขึ้นสำหรับสถาปัตยกรรมที่ก่อนหน้านี้ต้องใช้ตัวค้นคืนแยกสำหรับข้อความ ภาพ และเสียง ประเด็นตัดสินใจสำคัญสำหรับการนำไปใช้:

  • ควรนำไปใช้เร็วขึ้น หากผลิตภัณฑ์ของคุณต้องการการค้นคืนข้ามโมดาลิตีที่แข็งแกร่ง (ข้อความ↔รูปภาพ/วิดีโอ/เสียง) หรือหากการดูแลตัวค้นคืนแบบโมดาลเดียวหลายตัวมีต้นทุนและความซับซ้อนสูง
  • ทดสอบนำร่องตอนนี้ หากต้องการประเมินการตัดทอนแบบ MRL และวัดต้นทุนเทียบคุณภาพ (คงการปรับใช้แบบผสม: 1536 เป็นหลัก, 3072 สำหรับการจัดอันดับซ้ำ)
  • รอก่อนหาก งานของคุณไวต่อราคามากและต้องการเพียงการค้นคืนข้อความ — โมเดลข้อความเท่านั้นระดับท็อป (เช่น OpenAI text-embedding-3-large) ยังคงแข่งขันได้และบางครั้งมีต้นทุนต่ำกว่า ขึ้นกับไปป์ไลน์และสัญญาของคุณ

นักพัฒนาสามารถเข้าถึง Gemini Embedding 2 และ OpenAI text-embedding-3 API ผ่าน CometAPI ได้แล้ว เริ่มต้นโดยสำรวจความสามารถของโมเดลใน Playground และดูรายละเอียดใน คู่มือ API ก่อนการเข้าถึง โปรดตรวจสอบว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับคีย์ API แล้ว CometAPI มีราคาโดยรวมต่ำกว่าราคาทางการเพื่อช่วยให้คุณผสานระบบได้ง่ายขึ้น

พร้อมเริ่มต้นหรือยัง?→ Sign up for cometapi today!

หากต้องการเคล็ดลับ คู่มือ และข่าวสารด้าน AI เพิ่มเติม ติดตามเราได้ที่ VK, X และ Discord!

เข้าถึงโมเดลชั้นนำ ด้วยต้นทุนต่ำ

อ่านเพิ่มเติม