Да, такое есть — по сути это
“видящий” ассистент + озвучка/аватар + интеграции со стримом. Но важно: «ИИ, который видит рабочий стол» обычно работает в двух режимах:
1)
Ты сам шаришь ему картинку/окно (скриншоты или захват конкретного окна) → безопаснее и проще.
2)
Постоянный “глаз” на весь экран (почти как OCR/компьютерное зрение 24/7) → сложнее, больше рисков приватности, чаще делается кастомно.
### Что обычно ставят стримеры (как у “реагирует на донаты и комментит”)
Это чаще всего связка:
1) OBS + TTS + чат-бот
- Streamer.bot или SAMMI — ловят донаты/сабы/ивенты и запускают действия.
- SpeechChat / TTS Monster / StreamElements TTS — озвучка сообщений.
- VTube Studio / PNGTuber+ — если нужен аватар, который “говорит”.
2) “Мозги” (LLM)
- ChatGPT/Claude/другая модель через API.
- Бот получает текст события (“донат 200р: «Сыграй на Пудже»”) → генерит ответ → отправляет в TTS.
### А чтобы реально “видела экран” и отвечала по нему
Самый реальный и удобный вариант без магии:
- ассистент получает скриншот по кнопке или раз в N секунд из нужного окна (например, только игры/браузера),
- и ты спрашиваешь: “что тут написано?”, “где кнопка?”, “что за ошибка?”.
Такое можно собрать:
- через кастом на Python (скриншот + отправка в модель с vision),
- либо готовыми тулзами/плагинами, но “из коробки для всех” решения часто либо сырые, либо платные, либо небезопасные.
### Быстрый вопрос, чтобы подсказать конкретнее
Тебе это нужно
для стрима (OBS, донаты, голос) или
просто для себя — чтобы ИИ помогал по рабочему столу (ошибки, настройки, игры)?
И ещё: ты хочешь, чтобы он
постоянно видел экран, или ок вариант
“нажал кнопку — сделал скрин — ответил”?