Dalam beberapa bulan terakhir, OpenAI telah memperluas kemampuan API-nya untuk mencakup penyerapan langsung dokumen PDF, yang memungkinkan pengembang membangun aplikasi yang lebih kaya dan lebih peka konteks. CometAPI kini mendukung panggilan langsung ke OpenAI API untuk memproses PDF tanpa mengunggah berkas dengan memberikan URL berkas PDF. Anda dapat menggunakan model OpenAI seperti o3 di CometAPI untuk memproses PDF melalui URL. Artikel ini membahas status terkini dukungan PDF di ChatGPT API, merinci cara kerjanya, cara mengintegrasikannya, dan sebagainya.
Apa fitur input file PDF untuk ChatGPT melalui OpenAI API?
Fitur input berkas PDF memungkinkan pengembang mengirimkan dokumen PDF langsung ke Chat Completions API, sehingga model dapat mengurai elemen tekstual dan visual—seperti diagram, tabel, dan bagan—tanpa pra-pemrosesan manual atau konversi ke gambar. Hal ini menandai evolusi signifikan dari pendekatan sebelumnya, yang mengharuskan ekstraksi teks melalui OCR atau konversi halaman menjadi gambar sebelum mengirimkannya untuk dianalisis.
Model mana yang mendukung input PDF?
Saat peluncuran, hanya model yang mendukung penglihatan—yaitu GPT‑4o, GPT‑4.1, dan seri o3—yang mampu memproses berkas PDF. Model multimoda ini menggabungkan OCR tingkat lanjut, analisis tata letak, dan pemahaman gambar untuk memberikan wawasan yang komprehensif. Model teks saja (misalnya, GPT‑4 Turbo tanpa penglihatan) tidak akan menerima lampiran PDF secara langsung, dan pengembang harus terlebih dahulu mengekstrak dan mengirimkan teks secara terpisah dalam kasus tersebut.
Mengapa menggunakan model cometapi untuk memproses PDF?
CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.
Pengembang dapat mengakses API o3-Pro, API O4-Mini dan API GPT-4.1 melalui API Komet, versi model terbaru yang tercantum adalah versi per tanggal publikasi artikel. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.
Apa itu pemrosesan URL PDF langsung di OpenAI API?
API OpenAI kini mendukung pemrosesan berkas PDF dengan menyediakan URL yang dapat diakses publik, sehingga menghilangkan kebutuhan untuk mengunggah berkas secara manual. Kemampuan baru ini diumumkan pada awal Juli 2025, dan memungkinkan pengembang untuk cukup meneruskan URL dalam payload permintaan mereka, alih-alih mengunggah byte berkas terlebih dahulu.
Apa saja yang dimungkinkan oleh fitur baru ini?
Dengan pemrosesan URL PDF langsung, API:
- Mengambil PDF dari URL yang diberikan.
- Mengekstrak teks, gambar, dan elemen struktural.
- Mengembalikan konten yang telah diurai, siap untuk petunjuk penyelesaian atau penyematan.
Sebelumnya, pengembang harus mengunduh PDF secara lokal, mengonversinya menjadi base64 atau multipart/form-data, lalu mengunggahnya ke titik akhir berkas OpenAI. Pendekatan URL baru menyederhanakan alur kerja tersebut.
Apa manfaatnya dibandingkan unggahan tradisional?
- Kecepatan & kesederhanaan: Tidak perlu menangani I/O file atau penyimpanan di aplikasi Anda.
- Penghematan biaya: Lewati komputasi ekstra dan beban jaringan untuk mengunggah file besar.
- Konten dinamis: Memproses dokumen yang sering diperbarui dengan menunjuk ke versi URL terbaru.
- Mengurangi kerumitan: Kode boilerplate yang lebih sedikit untuk konversi berkas dan pemformatan multibagian.
Bagaimana cara mengakses fitur URL PDF?
Sebelum Anda dapat memanfaatkan pemrosesan URL PDF langsung, Anda memerlukan pengaturan API dan izin yang tepat.
Prasyarat dan pendaftaran
- Dapatkan url situs ini: https://api.cometapi.com/
- Masuk ke cometapi.comJika Anda belum menjadi pengguna kami, silakan mendaftar terlebih dahulu
- Dapatkan kunci API kredensial akses antarmuka. Klik “Tambahkan Token” pada token API di pusat personal, dapatkan kunci token: sk-xxxxx dan kirimkan.
Titik akhir dan parameter mana yang harus Anda gunakan?
Gunakan POST https://api.cometapi.com/v1/responsesIsi JSON-nya terlihat seperti ini:
curl
--location
--request POST 'https://api.cometapi.com/v1/responses' \
--header 'Authorization: Bearer {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "gpt-4o",
"input": [
{
"role": "user",
"content": [ {
"type": "input_file",
"file_url": "https://www.berkshirehathaway.com/letters/2024ltr.pdf"
},
{
"type": "input_text", "text": "Analyze the letter and provide a summary of the key points."
} ]
}]}'
file_url(string, diperlukan): URL publik ke PDF.model(string, opsional): Model mana yang akan digunakan untuk penguraian (misalnya,gpt-4.1untuk penanganan konteks panjang terbaik).extract(array): Komponen yang akan diekstrak (text,images,metadata).response_format(jsonortext): Bagaimana konten yang diekstrak diformat.
Bagaimana cara menerapkan pemrosesan PDF melalui URL dengan kode?
Mari kita telusuri contoh lengkap dalam Python menggunakan kode resmi openai Perpustakaan.
Langkah 1: Mempersiapkan URL PDF
Pertama, pastikan PDF Anda dihosting di titik akhir HTTPS yang stabil. Jika dokumen Anda memerlukan autentikasi, pertimbangkan untuk membuat URL bertanda tangan dengan batas waktu (misalnya, melalui URL AWS S3 yang telah ditandatangani sebelumnya) agar API dapat mengambilnya tanpa mengalami kesalahan akses.
PDF_URL = "https://my-bucket.s3.amazonaws.com/reports/latest.pdf?X-Amz-Signature=..."
Langkah 2: Memanggil API OpenAI
Instal OpenAI Python SDK (jika belum):
pip install openai
Kemudian, buat panggilan API OpenAI:
import os
import openai
openai.api_key = os.getenv("CometAPI_API_KEY")
response = openai.File.process_pdf(
pdf_url=PDF_URL,
model="gpt-4.1",
extract=,
response_format="json"
)
parsed = response
File.process_pdfadalah pembungkus praktis; jika tidak tersedia, gunakanopenai.requestdengan jalur titik akhir yang tepat.- The
responseberisi halaman yang diurai, blok teks, dan metadata.
Langkah 3: Menangani respons
Respons JSON biasanya terlihat seperti:
{
"data": [
{
"page": 1,
"text": "Lorem ipsum dolor sit amet...",
"metadata": { "width": 612, "height": 792 }
},
{
"page": 2,
"text": "Consectetur adipiscing elit...",
"images":
}
]
}
Anda dapat melakukan pengulangan pada beberapa halaman dan menyusun rangkaian dokumen lengkap, mengekstrak tabel untuk pemrosesan selanjutnya, atau memasukkan bagian-bagian ke dalam embedding untuk pembangkitan augmented retrieval (RAG).
Apa praktik terbaik untuk pemrosesan URL PDF?
Untuk memastikan keandalan dan keamanan, ikuti panduan berikut.
Bagaimana Anda mengamankan URL PDF Anda?
- Gunakan HTTPS saja; hindari HTTP untuk mencegah kesalahan konten campuran.
- Menghasilkan URL bertanda tangan berumur pendek jika PDF Anda bersifat pribadi.
- Validasi domain URL di backend Anda untuk mencegah SSRF atau pengambilan data berbahaya.
Bagaimana Anda harus menangani kesalahan dan percobaan ulang?
Masalah jaringan atau URL yang tidak valid dapat menyebabkan kesalahan HTTP 4xx/5xx. Terapkan:
- Kemunduran eksponensial untuk percobaan ulang.
- Logging URL yang gagal dan pesan kesalahan.
- Fallback untuk mengunggah secara manual jika pengambilan URL gagal berulang kali.
Contoh pseudo-logika:
for attempt in range(3):
try:
resp = openai.File.process_pdf(pdf_url=PDF_URL, ...)
break
except openai.error.APIError as e:
logger.warning(f"Attempt {attempt}: {e}")
time.sleep(2 ** attempt)
else:
raise RuntimeError("Failed to process PDF via URL after 3 attempts")
Bagaimana pemrosesan URL PDF terintegrasi dengan alur kerja lanjutan?
Di luar penguraian sederhana, penyerapan PDF berbasis URL dapat mendukung jaringan AI yang canggih.
Bagaimana Anda dapat membangun sistem RAG dengan PDF?
- Menelan: Gunakan pemrosesan URL untuk mengekstrak potongan teks.
- Menanamkan: Melewati potongan ke
openai.Embedding.create. - Toko: Simpan vektor dalam basis data vektor (misalnya, Pinecone, Weaviate).
- Pertanyaan: Pada permintaan pengguna, ambil potongan paling atas yang relevan, lalu panggil pelengkapan obrolan.
Pendekatan ini menghilangkan kebutuhan untuk mengunggah berkas terlebih dahulu dan dapat secara dinamis menyerap dokumen yang diperbarui saat dokumen tersebut berubah di server Anda.
Bagaimana Agen dan fungsi pemanggilan mendapat manfaat?
Pemanggilan fungsi OpenAI memungkinkan Anda menentukan fungsi pemrosesan PDF yang dapat dipanggil oleh agen saat runtime. Misalnya:
{
"name": "process_pdf_url",
"description": "Fetch and parse a PDF from a URL",
"parameters": {
"type": "object",
"properties": {
"url": { "type": "string" }
},
"required":
}
}
Agen dapat menganalisis konteks percakapan dan memutuskan untuk menelepon process_pdf_url ketika pengguna meminta untuk "meringkas PDF itu." Pendekatan tanpa server ini menciptakan asisten percakapan yang menangani dokumen dengan lancar.
Bagaimana Anda dapat memantau dan mengoptimalkan penggunaan URL PDF?
Pemantauan dan penyetelan proaktif akan menjaga aplikasi Anda tetap tangguh dan hemat biaya.
Metrik apa yang harus Anda lacak?
- Tingkat kesuksesan pengambilan URL.
- Waktu pemrosesan rata-rata per dokumen.
- Penggunaan token untuk teks yang diekstraksi.
- Jenis kesalahan (4xx vs. 5xx vs. PDF yang cacat).
Anda dapat menggunakan perkakas seperti Prometheus atau DataDog untuk menyerap log yang dipancarkan oleh layanan Anda.
Bagaimana Anda mengurangi biaya token?
- Ekstrak hanya komponen yang dibutuhkan (
"extract":alih-alih JSON penuh). - Batasi konteks respons dengan menentukan rentang halaman.
- Hasil cache untuk dokumen yang sering diproses.
Kesimpulan
Memproses PDF melalui URL dengan OpenAI API membuka alur kerja penyerapan dokumen yang lebih sederhana, lebih cepat, dan lebih aman. Dengan memanfaatkan titik akhir yang baru diperkenalkan (diumumkan Juli 2025) dan mengikuti praktik terbaik seputar keamanan, penanganan kesalahan, dan pemantauan, pengembang dapat membangun aplikasi AI yang dinamis dan skalabel—mulai dari sistem RAG hingga agen interaktif—yang menangani dokumen terbaru di web dengan lancar. Seiring OpenAI terus menyempurnakan pemrosesan PDF—menambahkan operasi batch, dukungan URL privat, dan penguraian tata letak tingkat lanjut—fitur ini akan menjadi landasan alur kerja dokumen berbasis AI.
