Поглотитель Интернета. Назван самый агрессивный инструмент сбора данных для искусственного интеллекта
IT-индустрия9 октября 2024, 11:15
Производители продуктов с искусственным интеллектом используют веб-сканеры, чтобы собирать учебные данные для своих моделей. ByteDance, которая, вероятно, планирует выпустить собственную большую языковую модель вроде GPT от OpenAI, делает это бешеными темпами.
Как сообщает Fortune, веб-сканер компании Bytespider, который появился в апреле, уже обогнал по объемам сбора информации сканеры лидеров рынка ИИ — OpenAI, Google, Meta и Anthropic. По оценке Сэма Кроутера, генерального директора компании по управлению ботами Kasada, скорость сканирования Bytespider в 25 раз больше, чем у GPTbot OpenAI, и в 3000 раз больше, чем у ClaudeBot, который является веб-сканером Anthropic. Кроутер также сказал, что за последние шесть недель Kasada наблюдала огромные всплески активности сбора данных со стороны Bytespider.
По состоянию на лето 2024 года вебсканер Bytespider был лидером не только по количеству запросов, но и по степени сканирования Интернет-ресурса и частоте, с которой его блокируют. Что ByteDance планирует делать со всеми этими полученными данными, еще неизвестно. Ранее появлялась информация о том, что китайская компания ByteDance планирует разработать модель искусственного интеллекта, обученную с помощью чипов, созданных ее земляком Huawei. Сама компания не объявляла о таких планах.