В AI-Коннект появился новый функционал для работы с документами и изображениями.
Раньше endpoint /vision использовался в основном для работы с Google Form Parser — он помогал получать структурированную разметку документов.
Теперь /vision умеет больше: через него можно отправлять изображения и PDF-файлы на распознавание с помощью обычных AI-моделей OpenAI GPT и Google Gemini.
Как это работает?
Функционал доступен через API AI-Коннект.
Клиент отправляет:
- файл (изображение или PDF);
- название модели, которая должна обработать документ.
В ответ получает:
- распознанный текст;
- количество обработанных страниц;
- информацию о выбранной модели.
То есть логика максимально простая:
Файл → AI-модель → готовый текст
Пример API-запроса
Например, вызов через curl:
curl https://global.support.by/api/openai/vision \
-X POST \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@/path/to/image.png" \
-F "model=gpt-4o"
Где:
/path/to/image.png — путь к файлу на вашем компьютере.
model=gpt-4o — выбранная AI-модель для обработки.
Это только пример запроса через curl. В реальном проекте метод можно вызывать из любого языка программирования — Python, JavaScript, PHP, Java и других.
Какие модели доступны?
Сейчас поддерживаются:
- GPT-4o-mini
- GPT-4o
- Gemini 2.5 Pro
- Gemini 2.5 Flash
Для каждой модели в административной панели указывается тип Vision и стоимость обработки страниц.
Какие файлы можно обрабатывать?
Изображения PNG/JPEG
AI-модель анализирует изображение и извлекает текст.
Например:
- фото документа;
- скриншоты;
- изображения с текстом.
PDF с текстовым слоем
Если в PDF уже есть цифровой текст — он извлекается напрямую.
Без обращения к AI-модели.
Это быстрее и экономичнее.
Сканированные PDF
Если документ — это скан, система:
- извлекает изображение страницы;
- передаёт его AI-модели;
- получает распознанный текст.
Оплата — по страницам
Схема оплаты осталась такой же, как у form-parser:
оплата идёт за количество обработанных страниц.
Это удобно для бизнеса: не нужно считать токены или разбираться в сложности документа.
Одна страница может содержать:
- пару строк текста;
- большую таблицу;
- сложный скан с печатями и подписями.
Количество токенов в каждом случае будет разным, поэтому используется понятная модель тарификации — цена за страницу.
Что это даёт разработчикам?
Теперь через один API можно подключать:
✅ распознавание документов
✅ анализ изображений
✅ обработку PDF
✅ разные AI-модели под разные задачи и бюджеты
AI-Коннект объединяет возможности GPT и Gemini в одном удобном API для работы с документами и мультимодальными данными.
Если у вас остались вопросы, пожалуйста, свяжитесь с нами.
info@support.by
Понравилась статья? Хочешь получать еще больше полезного контента? Подписывайся на наш блог, будь в курсе последних новостей и интересных материалов из области хостинга и не только!