Gemini отримав «вуха». Google навчила свого чат-бота з ШІ прослуховувати аудіофайли

Інновації

10 квітня 2024, 12:42

Оновлена модель штучного інтелекту Gemini 1.5 Pro тепер може прослуховувати завантажені аудіофайли та виводити інформацію про них.

Під час заходу Google Next компанія Google оголосила, що вперше зробить модель Gemini 1.5 Pro, анонсовану в лютому, доступною для громадськості через свою платформу для створення програм штучного інтелекту Vertex AI, пише The Verge.

Gemini Pro, яка є середньою моделлю сімейства Gemini, перевершує найбільшу та найпотужнішу модель Gemini Ultra за продуктивністю. Оновлена модель здатна обробляти аудіофайли, наприклад, дзвінки чи аудіозапис з відео, не потребуючи створення письмової стенограми. Крім цього, Google стверджує, що Gemini 1.5 Pro може розуміти складні інструкції та позбавляє від необхідності точного налаштування моделей, може постійно запускати 1 мільйон токенів інформації надаючи «нові можливості відкривати та створювати за допомогою ШІ».

Gemini 1.5 Pro — не єдина велика модель AI від Google, яка отримує оновлення. Модель для роботи з зображеннями Imagen 2 отримає нові функції замальовування та зафарбовування. Вони дозволять користувачам додавати або видаляти елементи на згенерованих за текстовими підказками зображеннях.

NV Техно писав, що інструмент від Google створював історично неточні зображення (як-от зображення темношкірих батьків-засновників США та вікінгів) і при цьому мав значні проблеми з генеруванням образів людей з білою шкірою. Коли інформація про проблему набула розголосу, Google заявила, що обмежує доступ до нещодавно розгорнутої функції Gemini. Наприкінці лютого в Google заявили, що на усунення проблеми підуть тижні.

Інші новини

Всі новини