Битва техногігантів. Google представила свою версію суперрозумного голосового помічника — відео

Інновації

15 травня 2024, 17:01

Google презентувала мультимодального асистента зі штучним інтелектом Project Astra. Він може бачити світ у реальному часі та розпізнавати об'єкти.

Генеральний директор Google DeepMind Деміс Хасабіс у блозі Google заявив, що компанія «завжди хотіла розробити універсальних агентів штучного інтелекту, які можуть бути корисними в повсякденному житті».

«Спираючись на Gemini, ми розробили прототип агентів, які можуть швидше обробляти інформацію шляхом безперервного кодування відеокадрів, поєднання відео та мовного введення в часову шкалу подій і кешування цієї інформації для ефективного відкликання. Використовуючи наші провідні моделі мовлення, ми також покращили їх звучання, надавши агентам ширший діапазон інтонацій. Ці агенти можуть краще розуміти контекст, у якому вони використовуються, і швидко реагувати в розмові», — розповів він.

Частина таких розробок — розумний помічник Project Astra, презентований на події Google I/O. Компанія провела відеодемонстрацію Project Astra та назвала її системою, що «відбиває бачення майбутнього помічників штучного інтелекту Google DeepMind». На відео зображено жінку, яка взаємодіє з агентом зі штучним інтелектом через додаток на телефоні та в окулярах Google. Вона ставить запитання про речі в її оточенні, і агент швидко відповідає. Приміром, розповідає, що робить продемонстрований комп’ютерний код, розгадує ребус, надає довідку про локацію, допомагає знайти загублений предмет тощо. Компанія стверджує, що кожна частина була знята за один дубль у режимі реального часу.

«З подібними технологіями легко уявити майбутнє, де люди зможуть мати експертного помічника зі штучним інтелектом через телефон або окуляри. І деякі з цих можливостей з’являться в продуктах Google, як-от додаток Gemini та вебінтерфейс, пізніше цього року», — каже Хасабіс.

Демонстрація Project Astra співпала в часі з гучним анонсом від OpenAI, яка випустила нову модель штучного інтелекту GPT-4o, що підтримує розмову з використанням відеозв'язку і може виконувати роль розумного голосового помічника. На відміну від попередніх випусків, ця потужніша модель з самого початку доступна для всіх користувачів ChatGPT.

Інші новини

Всі новини