Парсер медиа файлов hard-pic

seemylove

HUESOS
Статус
Offline
Регистрация
8 Авг 2021
Сообщения
2
Лайки
9
Парсер HARD-PIC minecraft-heart
Для просмотра ссылки Войди или Зарегистрируйся
На все входящие файлы в программу vt не нужны тк как посмотреть код вы можете на github

Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся

EXE:
1. Создать папку,поместить туда exe и создать файл urls.txt
2. Открыть urls.txt ,вставить ссылки , нажать CTRL+s
3. Ждать загрузки , папка сама откроется

PYTHON:
1. Распаковать файлы в папку
2. Ввести ссылки в urls.txt и нажать CTRL+s
3. Открыть Консоль(WIN+q или нажать на поиск на панели задач , ввести cmd и запустить от имени администратора
4. Написать cd [Путь до вашей папки с программой]
5. Написать python main.py и ожидать загрузки

ИЛИ:
1. Распаковать файлы в папку
2. Ввести ссылки в urls.txt и нажать CTRL+s
3. Запустить run.bat (он сделает все остальные шаги за вас)

(Ссылки на медиа можно получить зайдя по ссылке на hard-pic > Коды для встраивания > В списке выбрать "Прямая ссылка" и копировать)
Важно!!!
Чтобы все работало если вы не используете exe версию вам надо скачать python и библиотеку

Для просмотра ссылки Войди или Зарегистрируйся
|
Библиотека:

pip install requests

НИЖЕ ЕСТЬ ОБНОВЛЕНИЯ
 
Последнее редактирование:
О, это как раз тот случай, когда «нн-антивирусы ругаются» может быть и тупо из‑за упаковщика/pyinstaller, и реально из‑за сомнительного поведения EXE. На VirusTotal по одному факту детекта истину не поймёшь, но проверить адекватно можно.

Что бы я сделал на месте тех, кто боится EXE:

### 1) Самый безопасный вариант — запускать Python-версию
Если код на GitHub открыт и совпадает с тем, что ты запускаешь — это прям мастхэв. EXE часто ловит ложняки (особенно если собран PyInstaller’ом и лезет в сеть/файлы).

Мини-чеклист:
  • Скачай исходники с GitHub, а не архив «с файликом где-то».
  • Поставь зависимости в виртуальное окружение, чтобы не засорять систему:
- python -m venv venv
- venv\Scripts\activate
- pip install -r requirements.txt (если файла нет — тогда твой pip install requests)
- Запускай python main.py.

### 2) Если хочешь, чтобы EXE выглядел “белее” — приложи доказательства сборки
Сейчас у человека выбор: “верить на слово” или “не качать”. Упростишь доверие, если добавишь:
  • как собирался exe (pyinstaller-команда, версия питона)
  • хэш исходного релиза + хэш собранного exe
  • лучше всего — GitHub Releases + подпись (хотя бы хэши SHA256 рядом)

### 3) Поведение программы: что вызывает детекты
Антивирусам обычно не нравится:
  • автоскачивание файлов по ссылкам (network activity)
  • запись на диск пачкой
  • открытие папки/вызов проводника
  • упаковка/обфускация exe

То есть даже «чистая» утилита может получать красные флажки просто за механику.

### 4) Для юзеров: как запускать без риска
Если кому страшно:
  • запускать в песочнице Windows Sandbox / виртуалке
  • ограничить доступ в интернет (если возможно) и смотреть, куда лезет
  • мониторить трафик (Fiddler/Wireshark) и файлы (Process Monitor)

---

И пару вопросов по делу, чтобы не гадать:
1) EXE чем собран? PyInstaller/UPX использовался?
2) Качает контент напрямую с hard-pic или через какие-то сторонние хосты/редиректы?
3) Куда именно сохраняет файлы (только в папку рядом или куда-то в AppData/Temp)?

Если ответишь — можно прикинуть, почему именно VT ругается и как уменьшить ложные срабатывания.
 
Спасибо большое
 
инсту можно парсить через этот парсер? только картинки ? комменты парсит?
 
seemylove
seemylove
Фото и видео парсит,он может спарсить все на что есть прямые ссылки , чтобы парсить коменты тебе нужно юзать lxml и не только
 
Спасибо большое, огромную головную боль снял. Я раньше вручную искал прямые ссылки, чтобы скачать или заходил в каждый файл. Не додумал что можно посмотреть раздел встраиваемые коды. Скорее вопрос, почему по дефолту нет такой кнопки чтобы скачать все?) Я подозреваю для того чтобы чаще посещали... но это уже риторический вопрос.В любом случае спасибо.

p.s. кстати, если кто разберет экзешник, скажите там ок не ок все...
 
seemylove
seemylove
На GitHub полный открытый код программы лежит , можешь посмотреть и сам собрать
 
seemylove
seemylove
Чтобы собрать .py файлы в exe тебе понадобиться auto py
 
UPDATE 1.1 minecraft-heart
Что было добавленно:
1. Авто парсинг
• Не надо больше в файл urls вставлять ссылки на медиа,теперь достаточно просто вставить в консоль ссылку на сам альбом
2. Пагинация
• Обходит все страницы автоматически и качает с них медиа
3. Фильтрация (не будет качать превью,лого и тд)
4. Статистика
• Показывает что найдено и отфильтровано
5. Сохранение
• Сохраняет спаршенные ссылки в файл parsed_urls
Старая версия встроена в этот билд и все также можно качать из urls.txt по прямым ссылкам
Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся (.zip)
И кому правда интересна эта программа вы можете предлагать что можно добавить и доработать
 

После какого этапа начинали искать свою первую работу?

Назад
Сверху