Умное зрение для умного дома: интеграция LLM Vision для Home Assistant

от Администратор
0 Комментарии 54 просмотров 3 мин на чтение

Введение

LLM Vision — это интеграция для Home Assistant, которая использует мультимодальные языковые модели (LLM) для анализа изображений, видео и потокового видео с камер. Она умеет отвечать на вопросы о происходящем в кадре, обновлять данные сенсоров на основе извлечённой информации, а также сохранять события с AI-описаниями для последующего просмотра.

LLM Vision для Home Assistant

LLM Vision для Home Assistant

Ключевые возможности:

  • Анализ изображений и видео с помощью AI (OpenAI, Gemini, Claude, локальные модели).
  • Хранение событий с описаниями и ключевыми кадрами.
  • Встроенная память для распознавания людей, животных, автомобилей и других объектов.
  • Гибкая интеграция с автоматизациями и уведомлениями.

Архитектура

Интеграция состоит из нескольких компонентов:

  1. Основной модуль LLM Vision – обрабатывает изображения и отправляет их в выбранный AI-сервис.
  2. Blueprint (event_summary) – готовый шаблон автоматизации для уведомлений о событиях.
  3. Timeline Card – карта интерфейса для просмотра событий в хронологическом порядке.

Умное зрение для умного дома: интеграция LLM Vision для Home Assistant

Поддерживаемые AI-провайдеры

Облачные решения

Провайдер Модели Условия использования
OpenAI GPT-4o, GPT-4o-mini Плата за использование
Anthropic Claude 3.5 Sonnet, Claude 3.5 Haiku Плата за использование
Google Gemini Gemini 1.5, Gemini 2.0 Бесплатно / платно
Groq Llama 3.2 Vision Бесплатно
AWS Bedrock Claude 3.5, Amazon Nova Плата за использование

Локальные (self-hosted) решения

Провайдер Модели Требования
Ollama Llama 3.2 Vision, Gemma 3, MiniCPM-V Требуется сервер Ollama
LocalAI LLaVA 1.6, Gemma 3 Требуется сервер LocalAI
Open WebUI Поддерживает те же модели, что и Ollama Необходим API-ключ

Установка и настройка

1. Установка через HACS

  • В HACSИнтеграции найдите LLM Vision и установите.
  • Перезагрузите Home Assistant.
  • Добавьте интеграцию через НастройкиУстройства и сервисы.

Умное зрение для умного дома: интеграция LLM Vision для Home Assistant

2. Настройка провайдеров

Каждый AI-провайдер требует:

  • API-ключ (для облачных решений).
  • URL и порт (для локальных моделей).

Умное зрение для умного дома: интеграция LLM Vision для Home Assistant

Пример настройки Ollama:

base_url: http://192.168.1.100:11434  
model: llama3.2-vision

3. Настройка Memory (памяти)

Позволяет загружать эталонные изображения (например, фото членов семьи, автомобилей) для более точного распознавания.

Умное зрение для умного дома: интеграция LLM Vision для Home Assistant


Использование

Доступные действия

  1. image_analyzer – анализ статичных изображений.
  2. video_analyzer – анализ видео (например, событий Frigate).
  3. stream_analyzer – анализ потока с камеры.
  4. data_analyzer – обновление сенсоров на основе данных из изображений.
  5. remember – сохранение событий в Timeline.

Пример автоматизации

alias: "Уведомление о движении"  
trigger:  
  - platform: state  
    entity_id: binary_sensor.motion_detection  
    to: "on"  
action:  
  - service: llm_vision.stream_analyzer  
    data:  
      entity_id: camera.front_door  
      provider: openai_gpt4  
      use_memory: true  
    response_variable: response  
  - service: notify.mobile_app  
    data:  
      message: "Обнаружено: {{ response.title }}"  
      data:  
        image: "{{ response.key_frame }}"

Сравнение моделей

Облачные модели

Модель Точность (MMMU) Стоимость
Gemini 2.0 Flash 72.7 $0.175/1M токенов
GPT-4o 69.1 Дороже Gemini
Claude 3.5 Sonnet 70.2 Средняя цена

Умное зрение для умного дома: интеграция LLM Vision для Home Assistant

Локальные модели

  • Gemma 3 (12B) – близок по точности к GPT-4o Mini, требует 12 ГБ VRAM.
  • Llama 3.2 Vision – хороший баланс между скоростью и качеством.

Умное зрение для умного дома: интеграция LLM Vision для Home Assistant


Итог

LLM Vision – мощная интеграция для анализа изображений и видео в Home Assistant. Она подходит как для облачных AI-сервисов, так и для локального развёртывания, обеспечивая гибкость и конфиденциальность.

Плюсы:
✅ Поддержка множества AI-провайдеров.
✅ Встроенная память для распознавания объектов.
✅ Готовые автоматизации и Timeline для удобного просмотра событий.

Минусы:
❌ Облачные провайдеры требуют оплаты.
❌ Локальные модели нуждаются в мощном железе.

Рекомендация: Если важна конфиденциальность, выбирайте Ollama или LocalAI. Для максимальной точности подойдёт Gemini 2.0 Flash.

Установите LLM Vision и превратите ваши камеры в «умных» наблюдателей! 🚀

Даже просто подбор, перевод и оформление статей требуют времени. А самостоятельный обзор устройств требует еще и финансовых вложений. Если Вы хотите больше обзоров, Вы можете помочь автору.

Вам может понравиться

Оставить комментарий