Zum Inhalt springen
HomeStackR
Smart Home Background
Zurück zur Übersicht

Stufe 3 · Kapitel 8 von 14

Voice Assistant lokal: Wyoming Protocol & Sprachsteuerung ohne Cloud

„Hey Home“ — und kein einziges Wort verlässt dein Haus. Mit dem Wyoming Protocol, Whisper STT und Piper TTS baust du einen vollständig lokalen Sprachassistenten, der deine Privatsphäre respektiert und auch ohne Internet funktioniert.

6 Min. LesezeitAktualisiert 3. Juni 2026

In 30 Sekunden

Ein lokaler Sprachassistent besteht aus vier Bausteinen: Wake-Word-Erkennung („Hey Home“), Speech-to-Text (Whisper, lokal), Intent-Verarbeitung (Home Assistant) und Text-to-Speech (Piper, lokal). Das Wyoming Protocol verbindet alles über eine standardisierte TCP-Schnittstelle. Keine Cloud, keine Kosten, volle Kontrolle.

Partnerlinks: Die mit 🛒 markierten Links sind Affiliate-Links. Bei einem Kauf erhalten wir eine kleine Provision – ohne Mehrkosten für dich.

Wyoming Protocol: Das Glied zwischen Mikrofon und Home Assistant

Das Wyoming Protocol wurde von den Home-Assistant-Entwicklern entworfen, um Sprachdienste standardisiert anzubinden. Es definiert eine einfache TCP-basierte Kommunikation zwischen Satelliten (Mikrofon-Einheiten) und Assist-Pipelines in Home Assistant. Der Clou: Jeder Dienst — egal ob Wake-Word, STT oder TTS — spricht dasselbe Protokoll und kann unabhängig ausgetauscht werden.

Architektur: Satellit, Broker, Pipeline

Ein Wyoming-Satellit (z. B. ein Raspberry Pi Zero 2W mit Respeaker 2-Mics Pi HAT) nimmt Audio auf und sendet es über Wyoming an den Broker in Home Assistant. Der Broker leitet das Audio durch die konfigurierte Assist-Pipeline: Wake-Word → STT → Intent → TTS → Antwort-Audio zurück zum Satelliten. Die gesamte Verarbeitung passiert auf deinem Server — kein Cloud-Aufruf nötig.

Satelliten einrichten

Satelliten registrieren sich automatisch beim Home Assistant Wyoming-Broker. Du musst lediglich die Add-on-URL und den Port konfigurieren. In der HA-Sidebar erscheint jeder Satellit als eigener Media-Player, über den du auch TTS-Antworten abspielen kannst. Satelliten können in verschiedenen Räumen stehen und sind per Raum-Zuordnung automatisch mit den richtigen Geräten verknüpft.

Pro-Tipp

Wenn du mehrere Satelliten hast, setze in Home Assistant einen Area pro Satellit. Wenn du dann „Licht an" sagst, schaltet HA automatisch das Licht im Raum des Satelliten — nicht im ganzen Haus.

Whisper STT: Spracherkennung auf der eigenen Hardware

Whisper ist das Open-Source-Spracherkennungsmodell von OpenAI, das in verschiedenen Größen verfügbar ist. Für Smart-Home-Befehle reicht das „tiny" oder „base" Modell — es läuft auf einem Raspberry Pi 4, wenn auch mit wenigen Sekunden Latenz. Auf einem NUC oder einem PC mit GPU wählst du die „small" oder „medium" Variante mit nahezu Echtzeit-Erkennung.

Modelle und Hardware-Anforderungen

Das tiny-Modell benötigt etwa 1 GB RAM und erkennt einfache Befehle mit rund 3–5 Sekunden Latenz auf einem Raspberry Pi 4. Das base-Modell liegt bei ca. 1,5 GB RAM und bietet bessere Erkennungsrate. Das small-Modell (ca. 2,5 GB RAM) ist auf einem Intel NUC oder Mini-PC empfehlenswert. Das medium-Modell erfordert eine GPU oder einen starken Prozessor. Für reine Smart-Home-Befehle ist tiny oder base ausreichend.

Whisper als Wyoming-Add-on

Das Whisper-Wyoming-Add-on verpackt das Modell in einen Wyoming-kompatiblen Dienst. Du wählst im Add-on das Modell und die Sprache (Deutsch: "de"), und es registriert sich automatisch beim HA-Broker. Keine manuelle Konfiguration nötig — du musst es nur in der Assist-Pipeline als STT-Dienst auswählen.

tinyWhisper-Modell: 1 GB RAM — ausreichend für einfache Smart-Home-Befehle
3–5 sTypische Latenz für Whisper tiny auf Raspberry Pi 4
GPUBeschleunigung: Mit CUDA-GPU sinkt die Latenz auf unter 1 Sekunde

Piper TTS: Natürlich klingende Antwort ohne Cloud

Nachdem Home Assistant deinen Befehl verarbeitet hat, braucht es eine Sprachausgabe. Piper ist ein schnelles, lokales TTS-System, das auf demselben Server läuft wie Whisper. Es unterstützt mehrere Sprachen und Stimmen — für Deutsch gibt es verschiedene weibliche und männliche Stimmen, die erstaunlich natürlich klingen.

Piper wandelt Text in weniger als einer Sekunde um — selbst auf einem Raspberry Pi 4. Die Audioqualität ist für kurze Antworten („Licht im Wohnzimmer eingeschaltet") völlig ausreichend. Im Vergleich zu Cloud-TTS fehlt es etwas an natürlicher Betonung bei langen Texten, aber für typische Smart-Home-Antworten ist der Unterschied marginal.

Pro-Tipp

Du kannst Piper auch unabhängig vom Sprachassistenten nutzen — zum Beispiel in Automatisierungen, die dich über wichtige Ereignisse per Sprachansage informieren („Waschmaschine ist fertig"). Kombiniere es mit einem Lautsprecher-Satelliten im entsprechenden Raum.

Lokale Wake-Word-Erkennung: „Hey Home" ohne Alexa

Das Aktivierungswort ist der erste Schritt jeder Sprachinteraktion. Statt auf Amazon „Alexa“ oder Google „Hey Google“ angewiesen zu sein, verwendet Home Assistant ein vollständig lokales Wake-Word-System basierend auf openWakeWord. Das Standard-Wake-Word ist „Hey Jarvis“, aber du kannst eigene Wörter trainieren.

openWakeWord: Leichtgewichtig und lokal

openWakeWord basiert auf kleinen ONNX-Modellen und läuft direkt auf dem Satelliten oder dem HA-Server. Es verbraucht kaum CPU und ist auf die Erkennung kurzer Phrasen optimiert. Die Erkennungsrate ist leicht niedriger als bei den Cloud-Kollegen, aber für einen dedizierten Smart-Home-Assistenten ausreichend. False Positives (Fehlauslösungen) lassen sich durch Anpassung der Schwellwerte minimieren.

Eigene Wake-Words trainieren

Wer „Hey Home“ statt „Hey Jarvis“ sagen möchte, kann ein eigenes Wake-Word mit dem openWakeWord-Trainingstool erstellen. Du nimmst etwa 50 Beispiele auf, generierst synthetische Trainingsdaten und trainierst das Modell in wenigen Minuten. Das Ergebnis ist eine .onnx-Datei, die du im Wyoming-Add-on referenzierst.

Wusstest du schon?

Wake-Word-Erkennung funktioniert nur, wenn das Mikrofon dauerhaft Audio streamt. Das bedeutet: Der Satellit ist immer aktiv und wertet das Audio lokal aus — aber es wird erst aufgezeichnet und an den Server gesendet, wenn das Wake-Word erkannt wurde. Solange du schweigst, verlässt kein Byte dein Gerät.

Hardware-Satelliten: Mikrofon + Lautsprecher pro Raum

Die Theorie steht — jetzt brauchst du Hardware. Jeder Raum, in dem du sprachsteuern willst, braucht einen Satelliten mit Mikrofon und Lautsprecher — oder ein fertiges Gerät wie das Home Assistant Voice PE. Hier die gängigsten DIY-Optionen:

Raspberry Pi Zero 2W + Respeaker 2-Mics Pi HAT

Die kostengünstigste Lösung (ca. 35–40 Euro pro Raum). Der Pi Zero 2W läuft Wyoming-Satelliten-Software, das Respeaker-HAT hat zwei Mikrofone mit Noise-Cancellation und einen 3,5-mm-Ausgang für einen kleinen Lautsprecher. Kompakt genug, um unauffällig an der Wand montiert zu werden.

ESP32-S3-Box

Für noch weniger Geld (ca. 15–20 Euro) bietet die ESP32-S3-Box ein Mikrofon-Array und einen kleinen Lautsprecher in einem kompakten Gehäuse. Die ESPHome-Firmware kann als Wyoming-Satellit konfiguriert werden. Einschränkung: Die Audioqualität und Lautstärke sind deutlich schlechter als bei einem Pi-basierten Satelliten.

DIY: Beliebiger Pi + USB-Mikrofon

Wenn du bereits einen Raspberry Pi in einem Raum hast (z. B. als Homematic-Gateway), erweiterst du ihn einfach mit einem USB-Mikrofon (z. B. PS3 Eye Camera, ca. 5 Euro) und einem Bluetooth- oder USB-Lautsprecher. Die Wyoming-Satelliten-Software erkennt alle ALSA-kompatiblen Audiogeräte automatisch.

15 €Einstiegspreis für einen ESP32-S3-Box-Satelliten
35 €Preis für einen Pi Zero 2W + Respeaker-Satelliten
0 €/MonatLaufende Kosten: Keine Cloud-Abos, kein Datenvolumen

Alle Produkte aus diesem Guide

Raspberry Pi 4 mit 4 GB

Der Preis-Leistungs-Favorit für Home Assistant und ioBroker im Einstieg.

Home Assistant Voice PE

Home Assistant Voice PE — lokale Sprachsteuerung ohne Cloud.