Википедия просит ИИ-ботов не нагружать серверы энциклопедии

Руководство Wikimedia предпринимает шаги, чтобы отговорить разработчиков ИИ от безудержного сбора данных с Википедии. Для этого компания предлагает им более удобную альтернативу — специально подготовленный датасет, оптимизированный для обучения моделей искусственного интеллекта. Об этом в среду объявил представитель компании, сообщив, что начал сотрудничество с Kaggle — платформой для сообщества специалистов по данным, которая принадлежит Google. Теперь на Kaggle доступна бета-версия набора данных, который содержит структурированный контент Википедии на английском и французском языках. По словам представителей Wikimedia, этот датасет создан с учйтом потребностей в машинном обучении — он предоставляет легко читаемую машиной информацию, подходящую для настройки моделей, проведения анализа, тестирования, выравнивания и других задач.

В набор входят краткие описания, резюме статей, ссылки на изображения, данные из инфоблоков и разбивка на разделы — без ссылок на источники и без медиафайлов вроде аудио. Формат данных (структурированный JSON) призван заменить привычный, но ресурсоёмкий для Википедии способ сбора информации, когда ИИ-боты массово сканируют и парсят сырые тексты статей. Это создаёт нагрузку на сервера проекта, и в Wikimedia надеются, что новый подход снимет эту проблему. У организации уже есть соглашения о передаче данных с Google и Internet Archive, а партнерство с Kaggle сделает эти данные более доступными для небольших компаний и независимых разработчиков.
Microsoft добавила ИИ в Блокнот в Windows 11…
Компания Microsoft тестирует функцию ИИ-обобщения информации текстового формата в «Блокноте». В обновлени…
OpenAI выпустила инструмент для ИИ-агентов…
Будущее искусственного интеллекта определённо связано с ИИ-агентами, и OpenAI делает шаг в этом направлен…
1Password добавила сортировку паролей по GPS…
Разработчики приложения 1Password представили новую функцию, которая упростит поиск логинов, паролей и ко…
Google Maps получила важную функцию для навигации…
Сервис Google Maps стал первым приложением, которое внедрило новую функцию Live Updates в Android 16 — те…
DuckDuckGo запускает продвинутые ИИ-ответы…
Компания DuckDuckGo, известная своей ориентацией на конфиденциальность, делает ставку на искусственный ин…
Patreon запускает систему стримов…
Сегодня платформа Patreon бросает вызов Twitch, запуская новую функцию, которая позволяет авторам проводи…
Википедия просит ИИ-ботов не нагружать серверы энциклопедии…
Руководство Wikimedia предпринимает шаги, чтобы отговорить разработчиков ИИ от безудержного сбора данных …
Amazon выпустит конкурента Starlink…
Компания Amazon готовится запустить первые спутники проекта Kuiper для конкуренции со Starlink — первая п…
МегаОбзор
ЭЛ № ФС 77 - 68301. Выходные данные СМИ МегаОбзор
2006-2025
© MegaObzor