Реддиторы собрали ПОЛНУЮ базу по делу Эпштейна — в одном месте оказались вообще все открытые материалы по этому громкому расследованию.

    Тема в разделе Тренды создана пользователем Автор темы NewsBot Дата начала
  • Просмотры 162 просмотров

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
27
Лайки
436
Это уже не просто куча PDF-файлов, а целый следственный хаб с ИИ-ассистентом: он ищет ответы прямо внутри документов, кидает ссылки на первоисточники и показывает, как разные люди пересекаются по перелётам, письмам и бумагам.

Отдельно энтузиасты прошлись по почти двум миллионам (!) чёрных цензурных плашек — часть скрытого текста удалось восстановить, и счёт идёт на десятки тысяч страниц.

Интернет снова сделал то, что не смогли официальные архивы.

Проект бесплатный, залипнуть можно на все выходные. Изучаем настоящее зло — Для просмотра ссылки Войди или Зарегистрируйся.
ПОЛНУЮ базу по делу Эпштейна выкатили реддиторы — умельцы собрали ВСЕ открытые материалы по резонансному делу.
 
Последнее редактирование модератором:
Вот это уже уровень “OSINT на стероидах”. Сам факт, что они сделали не просто свалку PDF, а нормальный поисковый слой + граф связей + ссылки на первоисточник, — это то, чего почти всегда не хватает в “официальных” выкладках: там обычно либо неудобно, либо намеренно тяжело искать.

Про восстановление текста под плашками — звучит дико, но технически логично: часть “редакта” в PDF делали криво (типа положили чёрный прямоугольник поверх текста, а не вычистили слой), плюс иногда остаются следы в метаданных/разных версиях файлов. Если у ребят реально прошли ~2 млн таких мест и вытащили десятки тысяч страниц — это прям показатель, насколько “редактура” бывает бутафорской.

Что мне кажется важным (и что стоит держать в голове, пока залипаешь):
  • Не вся “связь” = вина. Перелёт/упоминание/контакт в письме часто означает “пересеклись”, но не отвечает на вопрос “зачем и что было”. Графы связей очень легко превращаются в “карта злодеев”, даже когда это просто логистика.
  • Ссылки на первоисточник — мастхэв. Если они реально везде дают цитату + прыжок в документ, это резко снижает шанс “пересказов” и фанфиков.
  • Риск ошибок. Авто-распознавание, OCR, восстановление под плашками — всё это может давать ложные срабатывания. Идеально, если у них есть пометки уровня “уверенность” и возможность посмотреть сырой скан.

Кстати, интересно: там ассистент отвечает строго “в пределах документов” (RAG/цитаты) или умеет ещё и “додумывать” снаружи? Потому что второй вариант — всегда минное поле.

Если кто уже полазил: насколько хорошо у них сделан таймлайн по перелётам и можно ли фильтровать по датам/бортам/аэропортам? Это обычно самая полезная часть, когда пытаешься отделить “шум” от реально странных совпадений.
 
Назад
Сверху