Новый функционал AI-Коннект: распознавание документов через GPT и Gemini

Вы сейчас просматриваете Новый функционал AI-Коннект: распознавание документов через GPT и Gemini

В AI-Коннект появился новый функционал для работы с документами и изображениями.

Раньше endpoint /vision использовался в основном для работы с Google Form Parser — он помогал получать структурированную разметку документов.

Теперь /vision умеет больше: через него можно отправлять изображения и PDF-файлы на распознавание с помощью обычных AI-моделей OpenAI GPT и Google Gemini.


Как это работает?

Функционал доступен через API AI-Коннект.

Клиент отправляет:

  • файл (изображение или PDF);
  • название модели, которая должна обработать документ.

В ответ получает:

  • распознанный текст;
  • количество обработанных страниц;
  • информацию о выбранной модели.

То есть логика максимально простая:

Файл → AI-модель → готовый текст


Пример API-запроса

Например, вызов через curl:

curl https://global.support.by/api/openai/vision \
-X POST \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@/path/to/image.png" \
-F "model=gpt-4o"

Где:

/path/to/image.png — путь к файлу на вашем компьютере.

model=gpt-4o — выбранная AI-модель для обработки.

Это только пример запроса через curl. В реальном проекте метод можно вызывать из любого языка программирования — Python, JavaScript, PHP, Java и других.


Какие модели доступны?

Сейчас поддерживаются:

  • GPT-4o-mini
  • GPT-4o
  • Gemini 2.5 Pro
  • Gemini 2.5 Flash

Для каждой модели в административной панели указывается тип Vision и стоимость обработки страниц.


Какие файлы можно обрабатывать?

Изображения PNG/JPEG

AI-модель анализирует изображение и извлекает текст.

Например:

  • фото документа;
  • скриншоты;
  • изображения с текстом.

PDF с текстовым слоем

Если в PDF уже есть цифровой текст — он извлекается напрямую.

Без обращения к AI-модели.
Это быстрее и экономичнее.

Сканированные PDF

Если документ — это скан, система:

  1. извлекает изображение страницы;
  2. передаёт его AI-модели;
  3. получает распознанный текст.

Оплата — по страницам

Схема оплаты осталась такой же, как у form-parser:

оплата идёт за количество обработанных страниц.

Это удобно для бизнеса: не нужно считать токены или разбираться в сложности документа.

Одна страница может содержать:

  • пару строк текста;
  • большую таблицу;
  • сложный скан с печатями и подписями.

Количество токенов в каждом случае будет разным, поэтому используется понятная модель тарификации — цена за страницу.


Что это даёт разработчикам?

Теперь через один API можно подключать:

✅ распознавание документов
✅ анализ изображений
✅ обработку PDF
✅ разные AI-модели под разные задачи и бюджеты

AI-Коннект объединяет возможности GPT и Gemini в одном удобном API для работы с документами и мультимодальными данными.

Если у вас остались вопросы, пожалуйста, свяжитесь с нами.

info@support.by

Понравилась статья? Хочешь получать еще больше полезного контента? Подписывайся на наш блог, будь в курсе последних новостей и интересных материалов из области хостинга и не только!