Raspberry pi zero 2w
Platzhalter für Raspberry pi zero 2w (TODO).

Stufe 3 · Kapitel 8 von 14
„Hey Home“ — und kein einziges Wort verlässt dein Haus. Mit dem Wyoming Protocol, Whisper STT und Piper TTS baust du einen vollständig lokalen Sprachassistenten, der deine Privatsphäre respektiert und auch ohne Internet funktioniert.
In 30 Sekunden
Partnerlinks: Die mit 🛒 markierten Links sind Affiliate-Links. Bei einem Kauf erhalten wir eine kleine Provision – ohne Mehrkosten für dich.
Das Wyoming Protocol wurde von den Home-Assistant-Entwicklern entworfen, um Sprachdienste standardisiert anzubinden. Es definiert eine einfache TCP-basierte Kommunikation zwischen Satelliten (Mikrofon-Einheiten) und Assist-Pipelines in Home Assistant. Der Clou: Jeder Dienst — egal ob Wake-Word, STT oder TTS — spricht dasselbe Protokoll und kann unabhängig ausgetauscht werden.
Ein Wyoming-Satellit (z. B. ein Raspberry Pi Zero 2W mit Respeaker 2-Mics Pi HAT) nimmt Audio auf und sendet es über Wyoming an den Broker in Home Assistant. Der Broker leitet das Audio durch die konfigurierte Assist-Pipeline: Wake-Word → STT → Intent → TTS → Antwort-Audio zurück zum Satelliten. Die gesamte Verarbeitung passiert auf deinem Server — kein Cloud-Aufruf nötig.
Satelliten registrieren sich automatisch beim Home Assistant Wyoming-Broker. Du musst lediglich die Add-on-URL und den Port konfigurieren. In der HA-Sidebar erscheint jeder Satellit als eigener Media-Player, über den du auch TTS-Antworten abspielen kannst. Satelliten können in verschiedenen Räumen stehen und sind per Raum-Zuordnung automatisch mit den richtigen Geräten verknüpft.
Pro-Tipp
Wenn du mehrere Satelliten hast, setze in Home Assistant einen Area pro Satellit. Wenn du dann „Licht an" sagst, schaltet HA automatisch das Licht im Raum des Satelliten — nicht im ganzen Haus.
Whisper ist das Open-Source-Spracherkennungsmodell von OpenAI, das in verschiedenen Größen verfügbar ist. Für Smart-Home-Befehle reicht das „tiny" oder „base" Modell — es läuft auf einem Raspberry Pi 4, wenn auch mit wenigen Sekunden Latenz. Auf einem NUC oder einem PC mit GPU wählst du die „small" oder „medium" Variante mit nahezu Echtzeit-Erkennung.
Das tiny-Modell benötigt etwa 1 GB RAM und erkennt einfache Befehle mit rund 3–5 Sekunden Latenz auf einem Raspberry Pi 4. Das base-Modell liegt bei ca. 1,5 GB RAM und bietet bessere Erkennungsrate. Das small-Modell (ca. 2,5 GB RAM) ist auf einem Intel NUC oder Mini-PC empfehlenswert. Das medium-Modell erfordert eine GPU oder einen starken Prozessor. Für reine Smart-Home-Befehle ist tiny oder base ausreichend.
Das Whisper-Wyoming-Add-on verpackt das Modell in einen Wyoming-kompatiblen Dienst. Du wählst im Add-on das Modell und die Sprache (Deutsch: "de"), und es registriert sich automatisch beim HA-Broker. Keine manuelle Konfiguration nötig — du musst es nur in der Assist-Pipeline als STT-Dienst auswählen.
Nachdem Home Assistant deinen Befehl verarbeitet hat, braucht es eine Sprachausgabe. Piper ist ein schnelles, lokales TTS-System, das auf demselben Server läuft wie Whisper. Es unterstützt mehrere Sprachen und Stimmen — für Deutsch gibt es verschiedene weibliche und männliche Stimmen, die erstaunlich natürlich klingen.
Piper wandelt Text in weniger als einer Sekunde um — selbst auf einem Raspberry Pi 4. Die Audioqualität ist für kurze Antworten („Licht im Wohnzimmer eingeschaltet") völlig ausreichend. Im Vergleich zu Cloud-TTS fehlt es etwas an natürlicher Betonung bei langen Texten, aber für typische Smart-Home-Antworten ist der Unterschied marginal.
Pro-Tipp
Du kannst Piper auch unabhängig vom Sprachassistenten nutzen — zum Beispiel in Automatisierungen, die dich über wichtige Ereignisse per Sprachansage informieren („Waschmaschine ist fertig"). Kombiniere es mit einem Lautsprecher-Satelliten im entsprechenden Raum.
Das Aktivierungswort ist der erste Schritt jeder Sprachinteraktion. Statt auf Amazon „Alexa“ oder Google „Hey Google“ angewiesen zu sein, verwendet Home Assistant ein vollständig lokales Wake-Word-System basierend auf openWakeWord. Das Standard-Wake-Word ist „Hey Jarvis“, aber du kannst eigene Wörter trainieren.
openWakeWord basiert auf kleinen ONNX-Modellen und läuft direkt auf dem Satelliten oder dem HA-Server. Es verbraucht kaum CPU und ist auf die Erkennung kurzer Phrasen optimiert. Die Erkennungsrate ist leicht niedriger als bei den Cloud-Kollegen, aber für einen dedizierten Smart-Home-Assistenten ausreichend. False Positives (Fehlauslösungen) lassen sich durch Anpassung der Schwellwerte minimieren.
Wer „Hey Home“ statt „Hey Jarvis“ sagen möchte, kann ein eigenes Wake-Word mit dem openWakeWord-Trainingstool erstellen. Du nimmst etwa 50 Beispiele auf, generierst synthetische Trainingsdaten und trainierst das Modell in wenigen Minuten. Das Ergebnis ist eine .onnx-Datei, die du im Wyoming-Add-on referenzierst.
Wusstest du schon?
Wake-Word-Erkennung funktioniert nur, wenn das Mikrofon dauerhaft Audio streamt. Das bedeutet: Der Satellit ist immer aktiv und wertet das Audio lokal aus — aber es wird erst aufgezeichnet und an den Server gesendet, wenn das Wake-Word erkannt wurde. Solange du schweigst, verlässt kein Byte dein Gerät.
Die Theorie steht — jetzt brauchst du Hardware. Jeder Raum, in dem du sprachsteuern willst, braucht einen Satelliten mit Mikrofon und Lautsprecher — oder ein fertiges Gerät wie das Home Assistant Voice PE. Hier die gängigsten DIY-Optionen:
Die kostengünstigste Lösung (ca. 35–40 Euro pro Raum). Der Pi Zero 2W läuft Wyoming-Satelliten-Software, das Respeaker-HAT hat zwei Mikrofone mit Noise-Cancellation und einen 3,5-mm-Ausgang für einen kleinen Lautsprecher. Kompakt genug, um unauffällig an der Wand montiert zu werden.
Für noch weniger Geld (ca. 15–20 Euro) bietet die ESP32-S3-Box ein Mikrofon-Array und einen kleinen Lautsprecher in einem kompakten Gehäuse. Die ESPHome-Firmware kann als Wyoming-Satellit konfiguriert werden. Einschränkung: Die Audioqualität und Lautstärke sind deutlich schlechter als bei einem Pi-basierten Satelliten.
Wenn du bereits einen Raspberry Pi in einem Raum hast (z. B. als Homematic-Gateway), erweiterst du ihn einfach mit einem USB-Mikrofon (z. B. PS3 Eye Camera, ca. 5 Euro) und einem Bluetooth- oder USB-Lautsprecher. Die Wyoming-Satelliten-Software erkennt alle ALSA-kompatiblen Audiogeräte automatisch.
Platzhalter für Raspberry pi zero 2w (TODO).
Platzhalter für Respeaker 2 mics hat (TODO).
Der Preis-Leistungs-Favorit für Home Assistant und ioBroker im Einstieg.
Home Assistant Voice PE — lokale Sprachsteuerung ohne Cloud.
Platzhalter für Esp32 s3 box (TODO).