Википедия просит ИИ-ботов не нагружать серверы энциклопедии

Руководство Wikimedia предпринимает шаги, чтобы отговорить разработчиков ИИ от безудержного сбора данных с Википедии. Для этого компания предлагает им более удобную альтернативу — специально подготовленный датасет, оптимизированный для обучения моделей искусственного интеллекта. Об этом в среду объявил представитель компании, сообщив, что начал сотрудничество с Kaggle — платформой для сообщества специалистов по данным, которая принадлежит Google. Теперь на Kaggle доступна бета-версия набора данных, который содержит структурированный контент Википедии на английском и французском языках. По словам представителей Wikimedia, этот датасет создан с учйтом потребностей в машинном обучении — он предоставляет легко читаемую машиной информацию, подходящую для настройки моделей, проведения анализа, тестирования, выравнивания и других задач.

В набор входят краткие описания, резюме статей, ссылки на изображения, данные из инфоблоков и разбивка на разделы — без ссылок на источники и без медиафайлов вроде аудио. Формат данных (структурированный JSON) призван заменить привычный, но ресурсоёмкий для Википедии способ сбора информации, когда ИИ-боты массово сканируют и парсят сырые тексты статей. Это создаёт нагрузку на сервера проекта, и в Wikimedia надеются, что новый подход снимет эту проблему. У организации уже есть соглашения о передаче данных с Google и Internet Archive, а партнерство с Kaggle сделает эти данные более доступными для небольших компаний и независимых разработчиков.
Браузер Opera GX выпустили на Linux…
Игровой браузер Opera GX от норвежской компании Opera наконец стал доступен на платформе Linux. Теперь по…
Adobe передумала закрывать Animate…
Adobe больше не планирует прекращать поддержку Adobe Animate с 1 марта текущего года — в разделе FAQ комп…
Генератор видео Sora добавят в ChatGPT…
Генератор видео Sora от OpenAI в ближайшее время может стать встроенной функцией ChatGPT. Сейчас Sora дос…
Google разрешила переименовать почтовый ящик…
Компания Google анонсировала весьма крупное нововведение, связанное с фирменной электронной почтой Gmail.…
Google позволит удалить личные данные из сети…
Google расширяет набор инструментов для удаления конфиденциальной информации и изображений, опубликованны…
Родители смогут ограничить своим детям время просмотра Short…
Родители получили возможность вручную устанавливать лимит времени для просмотра YouTube Shorts в аккаунта…
В Google Gemini появился импорт и экспорт истории ИИ…
После того как компания Anthropic обновила свой инструмент для переноса памяти между чат-ботами в систему…
Adobe закрывает приложение Animate…
Компания Adobe официально закрывает Adobe Animate. В разделе FAQ на своём сайте компания сообщила, что пр…
МегаОбзор
ЭЛ № ФС 77 - 68301. Выходные данные СМИ МегаОбзор
2006-2026
© MegaObzor