OpenAI GPT-4o — прорывная модель искусственного интеллекта получила потрясающие разговорные навыки / NV

Автор: Анастасия Печенюк

OpenAI выпустила новую модель искусственного интеллекта GPT-4o, которая поддерживает разговор с использованием видеосвязи и может выполнять роль умного голосового помощника.

Обновленная модель, как утверждают в OpenAI, намного быстрее предыдущей и имеет улучшенные возможности обработки текста, изображений и аудио. Пользователи GPT-4o смогут использовать визуальные данные различными способами: можно не только загружать документы или делиться изображениями с чат-ботом, но и вживую общаться с ChatGPT с помощью видео, используя камеру своего устройства. В этом случае приложение может действовать как умный голосовой помощник, отвечая на ваши запросы в реальном времени и наблюдая за миром вокруг вас. Эта модель будет бесплатной для всех пользователей, но владельцами подписки будут иметь больший лимит взаимодействий.

Новая модель умеет распознавать эмоции пользователей (это продемонстрировали, попросив чат-бота успокоить кого-то перед публичным выступлением) и взаимодействовать с пользователями, которые перебивают ее, пока она отвечает на запрос, и многое другое.

Новые возможности OpenAI продемонстрировала многочисленными роликами, которые, по утверждениям компании, не были ускорены. В частности, компания показала взаимодействие пользователя с собакой с помощью голосового помощника. Также показан ролик, в котором чат-бот отгадывает, что в помещении празднуют день рождения, только увидев определенные атрибуты с помощью видеосвязи. Кроме этого, продемонстрировали, что эту версию ChatGPT можно делать участником вашего видеозвонка с другими участниками, использовать как переводчика в реальном времени или привлекать к изучению языков, решению задач по математике и так далее. Сейчас модель позволяет ChatGPT работать с 50 различными языками.

Dog meets GPT-4o pic.twitter.com/5C0hlYq5ws
— OpenAI (@OpenAI) May 13, 2024

Meeting AI with GPT-4o pic.twitter.com/rHkQ316MYj
— OpenAI (@OpenAI) May 13, 2024

Happy birthday with GPT-4o pic.twitter.com/OuEkfQsap9
— OpenAI (@OpenAI) May 13, 2024

GPT-4o получила существенно улучшенные разговорные навыки. Она имеет выразительную интонацию, может смеяться, шептать, петь. OpenAI продемонстрировала потрясающее взаимодействие между двумя искусственными интеллектами, которые спели вместе.

Two GPT-4os interacting and singing pic.twitter.com/u9VuZoroxm
— OpenAI (@OpenAI) May 13, 2024

Компания отмечает, что звуковые возможности GPT-4o создают различные новые риски, поэтому голосовые функции будут внедряться постепенно и с ограничениями.

«Сегодня мы публично запускаем ввод и вывод текста и изображений. В течение следующих недель и месяцев мы будем работать над технической инфраструктурой, удобством использования через постобучение и безопасностью, необходимыми для выпуска других модальностей. Например, при запуске аудиовыходы будут ограничены выбором предустановленных голосов и будут соответствовать нашим существующим правилам безопасности», — информирует компания в своем блоге.

Генеральный директор OpenAI Сэм Альтман в X отметил, что модель изначально является мультимодальной и может генерировать контент или понимать команды голосом, текстом или изображениями. По его словам, разработчики, которые хотят поработать с GPT-4o, будут иметь доступ к API, и он будет вдвое дешевле и вдвое быстрее, чем API последней модели GPT-4 Turbo.

Выпуск новой модели, в которой существенно улучшили выполнение функций голосового помощника, состоялся на фоне объявлений о том, что Apple договорилась с OpenAI о внедрении функций искусственного интеллекта на iPhone. ChatGPT должен быть интегрирован в iOS 18, которая ожидается в ближайшие недели. В каком формате — пока неизвестно.

Почти как живой человек. ChatGPT теперь реагирует на видео в реальном времени и распознает ваши эмоции