Содержание
Введение
LLM Vision — это интеграция для Home Assistant, которая использует мультимодальные языковые модели (LLM) для анализа изображений, видео и потокового видео с камер. Она умеет отвечать на вопросы о происходящем в кадре, обновлять данные сенсоров на основе извлечённой информации, а также сохранять события с AI-описаниями для последующего просмотра.

LLM Vision для Home Assistant
Ключевые возможности:
- Анализ изображений и видео с помощью AI (OpenAI, Gemini, Claude, локальные модели).
- Хранение событий с описаниями и ключевыми кадрами.
- Встроенная память для распознавания людей, животных, автомобилей и других объектов.
- Гибкая интеграция с автоматизациями и уведомлениями.
Архитектура
Интеграция состоит из нескольких компонентов:
- Основной модуль LLM Vision – обрабатывает изображения и отправляет их в выбранный AI-сервис.
- Blueprint (event_summary) – готовый шаблон автоматизации для уведомлений о событиях.
- Timeline Card – карта интерфейса для просмотра событий в хронологическом порядке.
Поддерживаемые AI-провайдеры
Облачные решения
Провайдер | Модели | Условия использования |
---|---|---|
OpenAI | GPT-4o, GPT-4o-mini | Плата за использование |
Anthropic | Claude 3.5 Sonnet, Claude 3.5 Haiku | Плата за использование |
Google Gemini | Gemini 1.5, Gemini 2.0 | Бесплатно / платно |
Groq | Llama 3.2 Vision | Бесплатно |
AWS Bedrock | Claude 3.5, Amazon Nova | Плата за использование |
Локальные (self-hosted) решения
Провайдер | Модели | Требования |
---|---|---|
Ollama | Llama 3.2 Vision, Gemma 3, MiniCPM-V | Требуется сервер Ollama |
LocalAI | LLaVA 1.6, Gemma 3 | Требуется сервер LocalAI |
Open WebUI | Поддерживает те же модели, что и Ollama | Необходим API-ключ |
Установка и настройка
1. Установка через HACS
- В HACS → Интеграции найдите LLM Vision и установите.
- Перезагрузите Home Assistant.
- Добавьте интеграцию через Настройки → Устройства и сервисы.
2. Настройка провайдеров
Каждый AI-провайдер требует:
- API-ключ (для облачных решений).
- URL и порт (для локальных моделей).
Пример настройки Ollama:
base_url: http://192.168.1.100:11434
model: llama3.2-vision
3. Настройка Memory (памяти)
Позволяет загружать эталонные изображения (например, фото членов семьи, автомобилей) для более точного распознавания.
Использование
Доступные действия
- image_analyzer – анализ статичных изображений.
- video_analyzer – анализ видео (например, событий Frigate).
- stream_analyzer – анализ потока с камеры.
- data_analyzer – обновление сенсоров на основе данных из изображений.
- remember – сохранение событий в Timeline.
Пример автоматизации
alias: "Уведомление о движении"
trigger:
- platform: state
entity_id: binary_sensor.motion_detection
to: "on"
action:
- service: llm_vision.stream_analyzer
data:
entity_id: camera.front_door
provider: openai_gpt4
use_memory: true
response_variable: response
- service: notify.mobile_app
data:
message: "Обнаружено: {{ response.title }}"
data:
image: "{{ response.key_frame }}"
Сравнение моделей
Облачные модели
Модель | Точность (MMMU) | Стоимость |
---|---|---|
Gemini 2.0 Flash | 72.7 | $0.175/1M токенов |
GPT-4o | 69.1 | Дороже Gemini |
Claude 3.5 Sonnet | 70.2 | Средняя цена |
Локальные модели
- Gemma 3 (12B) – близок по точности к GPT-4o Mini, требует 12 ГБ VRAM.
- Llama 3.2 Vision – хороший баланс между скоростью и качеством.
Итог
LLM Vision – мощная интеграция для анализа изображений и видео в Home Assistant. Она подходит как для облачных AI-сервисов, так и для локального развёртывания, обеспечивая гибкость и конфиденциальность.
Плюсы:
✅ Поддержка множества AI-провайдеров.
✅ Встроенная память для распознавания объектов.
✅ Готовые автоматизации и Timeline для удобного просмотра событий.
Минусы:
❌ Облачные провайдеры требуют оплаты.
❌ Локальные модели нуждаются в мощном железе.
Рекомендация: Если важна конфиденциальность, выбирайте Ollama или LocalAI. Для максимальной точности подойдёт Gemini 2.0 Flash.
Установите LLM Vision и превратите ваши камеры в «умных» наблюдателей! 🚀
Даже просто подбор, перевод и оформление статей требуют времени. А самостоятельный обзор устройств требует еще и финансовых вложений. Если Вы хотите больше обзоров, Вы можете помочь автору.