Gemini получил «уши». Google научила своего чат-бота с ИИ прослушивать аудиофайлы

Инновации

10 апреля 2024, 12:42

Обновленная модель искусственного интеллекта Gemini 1.5 Pro теперь может прослушивать загруженные аудиофайлы и выводить информацию о них.

Во время мероприятия Google Next компания Google объявила, что впервые сделает модель Gemini 1.5 Pro, анонсированную в феврале, доступной для общественности через свою платформу для создания программ искусственного интеллекта Vertex AI, пишет The Verge.

Gemini Pro, которая является средней моделью семейства Gemini, превосходит самую большую и мощную модель Gemini Ultra по производительности. Обновленная модель способна обрабатывать аудиофайлы, например, звонки или аудиозапись с видео, не требуя создания письменной стенограммы. Кроме этого, Google утверждает, что Gemini 1.5 Pro может понимать сложные инструкции и избавляет от необходимости точной настройки моделей, может постоянно запускать 1 миллион токенов информации и давать "новые возможности открывать и создавать с помощью ИИ».

Gemini 1.5 Pro — не единственная большая модель AI от Google, которая получает обновление. Модель для работы с изображениями Imagen 2 получит новые функции зарисовки и закрашивания. Они позволят пользователям добавлять или удалять элементы на сгенерированных по текстовым подсказкам изображениях.

NV Техно писал, что инструмент от Google создавал исторически неточные изображения (например, изображения темнокожих отцов-основателей США и викингов) и при этом имел значительные проблемы с генерированием образов людей с белой кожей. Когда информация о проблеме получила огласку, Google заявила, что ограничивает доступ к недавно развернутой функции Gemini. В конце февраля в Google заявили, что на устранение проблемы уйдут недели.

Другие новости

Все новости