Новый функционал AI-Коннект: распознавание документов через GPT и Gemini

В AI-Коннект появился новый функционал для работы с документами и изображениями.

Раньше endpoint /vision использовался в основном для работы с Google Form Parser — он помогал получать структурированную разметку документов.

Теперь /vision умеет больше: через него можно отправлять изображения и PDF-файлы на распознавание с помощью обычных AI-моделей OpenAI GPT и Google Gemini.

Как это работает?

Функционал доступен через API AI-Коннект.

Клиент отправляет:

файл (изображение или PDF);
название модели, которая должна обработать документ.

В ответ получает:

распознанный текст;
количество обработанных страниц;
информацию о выбранной модели.

То есть логика максимально простая:

Файл → AI-модель → готовый текст

Пример API-запроса

Например, вызов через curl:

curl https://global.support.by/api/openai/vision \
-X POST \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@/path/to/image.png" \
-F "model=gpt-4o"

Где:

/path/to/image.png — путь к файлу на вашем компьютере.

model=gpt-4o — выбранная AI-модель для обработки.

Это только пример запроса через curl. В реальном проекте метод можно вызывать из любого языка программирования — Python, JavaScript, PHP, Java и других.

Какие модели доступны?

Сейчас поддерживаются:

GPT-4o-mini
GPT-4o
Gemini 2.5 Pro
Gemini 2.5 Flash

Для каждой модели в административной панели указывается тип Vision и стоимость обработки страниц.

Какие файлы можно обрабатывать?

Изображения PNG/JPEG

AI-модель анализирует изображение и извлекает текст.

Например:

фото документа;
скриншоты;
изображения с текстом.

PDF с текстовым слоем

Если в PDF уже есть цифровой текст — он извлекается напрямую.

Без обращения к AI-модели.
Это быстрее и экономичнее.

Сканированные PDF

Если документ — это скан, система:

извлекает изображение страницы;
передаёт его AI-модели;
получает распознанный текст.

Оплата — по страницам

Схема оплаты осталась такой же, как у form-parser:

оплата идёт за количество обработанных страниц.

Это удобно для бизнеса: не нужно считать токены или разбираться в сложности документа.

Одна страница может содержать:

пару строк текста;
большую таблицу;
сложный скан с печатями и подписями.

Количество токенов в каждом случае будет разным, поэтому используется понятная модель тарификации — цена за страницу.

Что это даёт разработчикам?

Теперь через один API можно подключать:

✅ распознавание документов
✅ анализ изображений
✅ обработку PDF
✅ разные AI-модели под разные задачи и бюджеты

AI-Коннект объединяет возможности GPT и Gemini в одном удобном API для работы с документами и мультимодальными данными.

Активировать AI-Коннект

Если у вас остались вопросы, пожалуйста, свяжитесь с нами.

info@support.by

Понравилась статья? Хочешь получать еще больше полезного контента? Подписывайся на наш блог, будь в курсе последних новостей и интересных материалов из области хостинга и не только!

Метки: ai, ai коннект, ai-коннект, ai-модель, API, Artificial Intelligence, chat-gpt, Gemini, google form parser, OpenAI, vision, ии

Корпоративный хостинг провайдер и цод-оператор. Основные услуги – размещение сайтов и виртуальной инфраструктуры заказчика в облаке, колокейшн клиентского оборудования в дата-центрах, находящихся в Беларуси и Германии.