Википедия просит ИИ-ботов не нагружать серверы энциклопедии

Руководство Wikimedia предпринимает шаги, чтобы отговорить разработчиков ИИ от безудержного сбора данных с Википедии. Для этого компания предлагает им более удобную альтернативу — специально подготовленный датасет, оптимизированный для обучения моделей искусственного интеллекта. Об этом в среду объявил представитель компании, сообщив, что начал сотрудничество с Kaggle — платформой для сообщества специалистов по данным, которая принадлежит Google. Теперь на Kaggle доступна бета-версия набора данных, который содержит структурированный контент Википедии на английском и французском языках. По словам представителей Wikimedia, этот датасет создан с учйтом потребностей в машинном обучении — он предоставляет легко читаемую машиной информацию, подходящую для настройки моделей, проведения анализа, тестирования, выравнивания и других задач.

В набор входят краткие описания, резюме статей, ссылки на изображения, данные из инфоблоков и разбивка на разделы — без ссылок на источники и без медиафайлов вроде аудио. Формат данных (структурированный JSON) призван заменить привычный, но ресурсоёмкий для Википедии способ сбора информации, когда ИИ-боты массово сканируют и парсят сырые тексты статей. Это создаёт нагрузку на сервера проекта, и в Wikimedia надеются, что новый подход снимет эту проблему. У организации уже есть соглашения о передаче данных с Google и Internet Archive, а партнерство с Kaggle сделает эти данные более доступными для небольших компаний и независимых разработчиков.
Японские гиганты требуют от OpenAI прекратить их копирование…
Организация Content Overseas Distribution Association, представляющая интересы японских правообладателей,…
Google разрешила переименовать почтовый ящик…
Компания Google анонсировала весьма крупное нововведение, связанное с фирменной электронной почтой Gmail.…
ИИ от Google теперь анализирует финансовый рынок и даёт сове…
Google продолжает неуклонно следовать своей стратегии внедрения искусственного интеллекта во все сервисы.…
Яндекс запустил платформу Промптхаб с идеями по применению и…
Яндекс представила онлайн‑платформу Промпт…
МегаОбзор
ЭЛ № ФС 77 - 68301. Выходные данные СМИ МегаОбзор
2006-2026
© MegaObzor