Некоторое время компании вроде OpenAI и Google подверглись критике за то, что они использовали транскрипцию YouTube-видео для обучения своих больших языковых моделей искусственного интеллекта, нарушая при этом авторские права создателей данного контента контента. А теперь появились сообщения о том, что Apple последовала их примеру, обучая свои нейросетевые модели на основе транскрипций видео без согласия авторов. И самое забавное, что они обучали свою LLM на основе роликов крупных технологических блогеров, которые теперь разносят компанию в пух и прах. По информации Wired, сотрудники Apple загружали видео в виде файлов субтитров, которые затем использовались для обучения языковых моделей — всего было использовано более 170000 видео, включая контент MKBHD, MrBeast и многих других известных личностей.
В отчёте специалистов подчеркивается, что разработчики Apple использовали этот контент для обучения своих моделей несмотря на то, что такой способ извлечения материалов нарушает правила YouTube о независимом использовании видео и автоматическом доступе без разрешения со стороны правообладателя. При этом забавно, что сама Apple непосредственно не выполняла транскрипцию видео — вместо этого всю работу выполнило некоммерческое агентство EleutherAI, которое якобы использовало ролики в образовательных целях, а на деле предоставляла Apple информацию для обучения больших языковых моделей. Интересно подадут ли на Apple в суд за это.