Содержание
Введение
LLM Vision — это интеграция для Home Assistant, которая использует мультимодальные языковые модели (LLM) для анализа изображений, видео и потокового видео с камер. Она умеет отвечать на вопросы о происходящем в кадре, обновлять данные сенсоров на основе извлечённой информации, а также сохранять события с AI-описаниями для последующего просмотра.

LLM Vision для Home Assistant
Ключевые возможности:
- Анализ изображений и видео с помощью AI (OpenAI, Gemini, Claude, локальные модели).
- Хранение событий с описаниями и ключевыми кадрами.
- Встроенная память для распознавания людей, животных, автомобилей и других объектов.
- Гибкая интеграция с автоматизациями и уведомлениями.
Архитектура
Интеграция состоит из нескольких компонентов:
- Основной модуль LLM Vision – обрабатывает изображения и отправляет их в выбранный AI-сервис.
- Blueprint (event_summary) – готовый шаблон автоматизации для уведомлений о событиях.
- Timeline Card – карта интерфейса для просмотра событий в хронологическом порядке.

Поддерживаемые AI-провайдеры
Облачные решения
| Провайдер | Модели | Условия использования |
|---|---|---|
| OpenAI | GPT-4o, GPT-4o-mini | Плата за использование |
| Anthropic | Claude 3.5 Sonnet, Claude 3.5 Haiku | Плата за использование |
| Google Gemini | Gemini 1.5, Gemini 2.0 | Бесплатно / платно |
| Groq | Llama 3.2 Vision | Бесплатно |
| AWS Bedrock | Claude 3.5, Amazon Nova | Плата за использование |
Локальные (self-hosted) решения
| Провайдер | Модели | Требования |
|---|---|---|
| Ollama | Llama 3.2 Vision, Gemma 3, MiniCPM-V | Требуется сервер Ollama |
| LocalAI | LLaVA 1.6, Gemma 3 | Требуется сервер LocalAI |
| Open WebUI | Поддерживает те же модели, что и Ollama | Необходим API-ключ |
Установка и настройка
1. Установка через HACS
- В HACS → Интеграции найдите LLM Vision и установите.
- Перезагрузите Home Assistant.
- Добавьте интеграцию через Настройки → Устройства и сервисы.

2. Настройка провайдеров
Каждый AI-провайдер требует:
- API-ключ (для облачных решений).
- URL и порт (для локальных моделей).

Пример настройки Ollama:
|
1 2 3 |
<span class="hljs-string">base_url:</span> <span class="hljs-string">http:</span><span class="hljs-comment">//192.168.1.100:11434 </span> <span class="hljs-string">model:</span> llama3<span class="hljs-number">.2</span>-vision |
3. Настройка Memory (памяти)
Позволяет загружать эталонные изображения (например, фото членов семьи, автомобилей) для более точного распознавания.

Использование
Доступные действия
- image_analyzer – анализ статичных изображений.
- video_analyzer – анализ видео (например, событий Frigate).
- stream_analyzer – анализ потока с камеры.
- data_analyzer – обновление сенсоров на основе данных из изображений.
- remember – сохранение событий в Timeline.
Пример автоматизации
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
<span class="hljs-attribute">alias</span>: <span class="hljs-string">"Уведомление о движении"</span> <span class="hljs-attribute">trigger</span>: - <span class="hljs-attribute">platform</span>: state <span class="hljs-attribute">entity_id</span>: binary_sensor.motion_detection <span class="hljs-attribute">to</span>: <span class="hljs-string">"on"</span> <span class="hljs-attribute">action</span>: - <span class="hljs-attribute">service</span>: llm_vision.stream_analyzer <span class="hljs-attribute">data</span>: <span class="hljs-attribute">entity_id</span>: camera.front_door <span class="hljs-attribute">provider</span>: openai_gpt4 <span class="hljs-attribute">use_memory</span>: true <span class="hljs-attribute">response_variable</span>: response - <span class="hljs-attribute">service</span>: notify.mobile_app <span class="hljs-attribute">data</span>: <span class="hljs-attribute">message</span>: <span class="hljs-string">"Обнаружено: {{ response.title }}"</span> <span class="hljs-attribute">data</span>: <span class="hljs-attribute">image</span>: <span class="hljs-string">"{{ response.key_frame }}"</span> |
Сравнение моделей
Облачные модели
| Модель | Точность (MMMU) | Стоимость |
|---|---|---|
| Gemini 2.0 Flash | 72.7 | $0.175/1M токенов |
| GPT-4o | 69.1 | Дороже Gemini |
| Claude 3.5 Sonnet | 70.2 | Средняя цена |
Локальные модели
- Gemma 3 (12B) – близок по точности к GPT-4o Mini, требует 12 ГБ VRAM.
- Llama 3.2 Vision – хороший баланс между скоростью и качеством.

Итог
LLM Vision – мощная интеграция для анализа изображений и видео в Home Assistant. Она подходит как для облачных AI-сервисов, так и для локального развёртывания, обеспечивая гибкость и конфиденциальность.
Плюсы:
✅ Поддержка множества AI-провайдеров.
✅ Встроенная память для распознавания объектов.
✅ Готовые автоматизации и Timeline для удобного просмотра событий.
Минусы:
❌ Облачные провайдеры требуют оплаты.
❌ Локальные модели нуждаются в мощном железе.
Рекомендация: Если важна конфиденциальность, выбирайте Ollama или LocalAI. Для максимальной точности подойдёт Gemini 2.0 Flash.
Установите LLM Vision и превратите ваши камеры в «умных» наблюдателей! 🚀
Даже просто подбор, перевод и оформление статей требуют времени. А самостоятельный обзор устройств требует еще и финансовых вложений. Если Вы хотите больше обзоров, Вы можете помочь автору.


