Википедия просит ИИ-ботов не нагружать серверы энциклопедии

Руководство Wikimedia предпринимает шаги, чтобы отговорить разработчиков ИИ от безудержного сбора данных с Википедии. Для этого компания предлагает им более удобную альтернативу — специально подготовленный датасет, оптимизированный для обучения моделей искусственного интеллекта. Об этом в среду объявил представитель компании, сообщив, что начал сотрудничество с Kaggle — платформой для сообщества специалистов по данным, которая принадлежит Google. Теперь на Kaggle доступна бета-версия набора данных, который содержит структурированный контент Википедии на английском и французском языках. По словам представителей Wikimedia, этот датасет создан с учйтом потребностей в машинном обучении — он предоставляет легко читаемую машиной информацию, подходящую для настройки моделей, проведения анализа, тестирования, выравнивания и других задач.

В набор входят краткие описания, резюме статей, ссылки на изображения, данные из инфоблоков и разбивка на разделы — без ссылок на источники и без медиафайлов вроде аудио. Формат данных (структурированный JSON) призван заменить привычный, но ресурсоёмкий для Википедии способ сбора информации, когда ИИ-боты массово сканируют и парсят сырые тексты статей. Это создаёт нагрузку на сервера проекта, и в Wikimedia надеются, что новый подход снимет эту проблему. У организации уже есть соглашения о передаче данных с Google и Internet Archive, а партнерство с Kaggle сделает эти данные более доступными для небольших компаний и независимых разработчиков.
В Google Gemini появился импорт и экспорт истории ИИ…
После того как компания Anthropic обновила свой инструмент для переноса памяти между чат-ботами в систему…
Браузер Opera GX выпустили на Linux…
Игровой браузер Opera GX от норвежской компании Opera наконец стал доступен на платформе Linux. Теперь по…
Samsung выпустила ИИ-браузер для десктопа…
Сегодня компания Samsung представила нового ИИ-ассистента для браузера Samsung Browser, созданного в парт…
Генератор видео Sora добавят в ChatGPT…
Генератор видео Sora от OpenAI в ближайшее время может стать встроенной функцией ChatGPT. Сейчас Sora дос…
Google позволит удалить личные данные из сети…
Google расширяет набор инструментов для удаления конфиденциальной информации и изображений, опубликованны…
Adobe закрывает приложение Animate…
Компания Adobe официально закрывает Adobe Animate. В разделе FAQ на своём сайте компания сообщила, что пр…
Adobe передумала закрывать Animate…
Adobe больше не планирует прекращать поддержку Adobe Animate с 1 марта текущего года — в разделе FAQ комп…
МегаОбзор
ЭЛ № ФС 77 - 68301. Выходные данные СМИ МегаОбзор
2006-2026
© MegaObzor