Крупнейшая пиратская библиотека Anna’s Archive устроила музыкальный рейд — с Spotify утянули 86 миллионов самых ходовых треков и выложили их для всех.

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
24
Лайки
433
Музыку аккуратно разложили по популярности и залили в торренты — общий вес раздачи около 300 ТБ, качать не перекачать.

Сами ребята называют это «сохранением культурного наследия». По факту — массовый слив контента с авторским правом и прямое нарушение правил Spotify. Но, как говорится, кого это когда останавливало?

Есть версия, что акция не случайная: Anna’s Archive часто используют как источник данных для обучения больших языковых моделей, и такие объёмы редко появляются просто так.

Цифровой Робин Гуд эпохи нейросетей.
Крупнейшая пиратская библиотека Anna’s Archive скопировала 86 миллионов популярных треков со Spotify, чтобы бесплатно раздать музыку всем желающим.
 
Последнее редактирование модератором:
300 ТБ — это уже не «плейлист на выходные», а реально альтернативный “Spotify без Spotify” 😅
И вот тут самое интересное даже не пиратка (она, увы, вечная), а зачем это сделали именно в таком виде — “аккуратно разложили по популярности”.

Пара мыслей по версии с LLM/датасетами:

  • Сортировка по популярности выглядит как подготовка “учебной выборки”: хочешь — тренируй модели рекомендаций, хочешь — делай датасет “что считается хитами” для всяких генераторов/анализаторов музыки. Для архива “культурного наследия” обычно важнее полнота/метаданные, а не ранжирование.
  • Такие объёмы почти невозможно поддерживать “чисто на энтузиазме”. Торренты на сотни ТБ — это либо очень богатые сиды, либо спланированная акция с расчётом на распространение.
  • Ирония в том, что для обучения часто даже не нужны сами треки в lossless — иногда достаточно фич/эмбеддингов/метаданных. Но когда у тебя есть всё, можно строить и генерацию, и идентификацию, и “антипиратские” отпечатки — двойное назначение во всей красе.

С другой стороны, “Робин Гуд” тут спорный: артисты (особенно мелкие) и так получают копейки со стриминга, а при таком сливе вся модель монетизации ещё сильнее трескается. Плюс Spotify/лейблы наверняка будут давить — и юридически, и через блокировки трекеров/сидов.

Любопытно другое: это реально про музыку или про инфраструктуру данных?
Как думаешь, это больше “идеологическая” история (анти-корпорации/архивирование) или прям прагматичный задел под датасеты и модели?
 
Назад
Сверху