Home » Умное зрение для умного дома: интеграция LLM Vision для Home Assistant

Умное зрение для умного дома: интеграция LLM Vision для Home Assistant

от Администратор
0 Комментарии 390 просмотров 3 мин на чтение

Введение

LLM Vision — это интеграция для Home Assistant, которая использует мультимодальные языковые модели (LLM) для анализа изображений, видео и потокового видео с камер. Она умеет отвечать на вопросы о происходящем в кадре, обновлять данные сенсоров на основе извлечённой информации, а также сохранять события с AI-описаниями для последующего просмотра.

LLM Vision для Home Assistant

LLM Vision для Home Assistant

Ключевые возможности:

  • Анализ изображений и видео с помощью AI (OpenAI, Gemini, Claude, локальные модели).
  • Хранение событий с описаниями и ключевыми кадрами.
  • Встроенная память для распознавания людей, животных, автомобилей и других объектов.
  • Гибкая интеграция с автоматизациями и уведомлениями.

Архитектура

Интеграция состоит из нескольких компонентов:

  1. Основной модуль LLM Vision – обрабатывает изображения и отправляет их в выбранный AI-сервис.
  2. Blueprint (event_summary) – готовый шаблон автоматизации для уведомлений о событиях.
  3. Timeline Card – карта интерфейса для просмотра событий в хронологическом порядке.

Поддерживаемые AI-провайдеры

Облачные решения

Провайдер Модели Условия использования
OpenAI GPT-4o, GPT-4o-mini Плата за использование
Anthropic Claude 3.5 Sonnet, Claude 3.5 Haiku Плата за использование
Google Gemini Gemini 1.5, Gemini 2.0 Бесплатно / платно
Groq Llama 3.2 Vision Бесплатно
AWS Bedrock Claude 3.5, Amazon Nova Плата за использование

Локальные (self-hosted) решения

Провайдер Модели Требования
Ollama Llama 3.2 Vision, Gemma 3, MiniCPM-V Требуется сервер Ollama
LocalAI LLaVA 1.6, Gemma 3 Требуется сервер LocalAI
Open WebUI Поддерживает те же модели, что и Ollama Необходим API-ключ

Установка и настройка

1. Установка через HACS

  • В HACSИнтеграции найдите LLM Vision и установите.
  • Перезагрузите Home Assistant.
  • Добавьте интеграцию через НастройкиУстройства и сервисы.

2. Настройка провайдеров

Каждый AI-провайдер требует:

  • API-ключ (для облачных решений).
  • URL и порт (для локальных моделей).

Пример настройки Ollama:

3. Настройка Memory (памяти)

Позволяет загружать эталонные изображения (например, фото членов семьи, автомобилей) для более точного распознавания.


Использование

Доступные действия

  1. image_analyzer – анализ статичных изображений.
  2. video_analyzer – анализ видео (например, событий Frigate).
  3. stream_analyzer – анализ потока с камеры.
  4. data_analyzer – обновление сенсоров на основе данных из изображений.
  5. remember – сохранение событий в Timeline.

Пример автоматизации


Сравнение моделей

Облачные модели

Модель Точность (MMMU) Стоимость
Gemini 2.0 Flash 72.7 $0.175/1M токенов
GPT-4o 69.1 Дороже Gemini
Claude 3.5 Sonnet 70.2 Средняя цена

Локальные модели

  • Gemma 3 (12B) – близок по точности к GPT-4o Mini, требует 12 ГБ VRAM.
  • Llama 3.2 Vision – хороший баланс между скоростью и качеством.


Итог

LLM Vision – мощная интеграция для анализа изображений и видео в Home Assistant. Она подходит как для облачных AI-сервисов, так и для локального развёртывания, обеспечивая гибкость и конфиденциальность.

Плюсы:
✅ Поддержка множества AI-провайдеров.
✅ Встроенная память для распознавания объектов.
✅ Готовые автоматизации и Timeline для удобного просмотра событий.

Минусы:
❌ Облачные провайдеры требуют оплаты.
❌ Локальные модели нуждаются в мощном железе.

Рекомендация: Если важна конфиденциальность, выбирайте Ollama или LocalAI. Для максимальной точности подойдёт Gemini 2.0 Flash.

Установите LLM Vision и превратите ваши камеры в «умных» наблюдателей! 🚀

Даже просто подбор, перевод и оформление статей требуют времени. А самостоятельный обзор устройств требует еще и финансовых вложений. Если Вы хотите больше обзоров, Вы можете помочь автору.

Вам может понравиться

Оставить комментарий