HTML5 Speech Input mit Google’s Spracherkennung in Chrome

Ich selbst bin ja total begeistert von Google’s Android Betriebssystem für mobile Endgeräte. Ein Grund, der dazu beiträgt, ist die tolle Spracherkennung, die Google per Knopfdruck auf eine Taste der Standardtastatur bietet. Man diktiert z.B. seine SMS oder seine E-Mail, die Audiodaten werden analysiert und an einen Google-Server geschickt, welcher die Spracherkennung vornimmt und das Ergebnis als Text zurückschickt. Und das alles funktioniert in einer sehr akzeptablen Geschwindigkeit. Einfach Klasse!

Die W3C sieht eine ähnliche Vorgehensweise in Form einer Speech Input API vor. Hieraus ergeben sich viele neue Anwendungen, z.B. Website-Unterstützung für motorisch eingeschränkte Menschen. Umgesetzt ist diese API aber bisher noch in keinem Browser – zumindest nicht standardkonform. Vielleicht liegt das daran, das der Standard hierfür wie so vieles im HTML5 -Umfeld noch nicht fertig spezifiziert ist und die Browserhersteller deshalb erstmal auf eine endgültige Spezifikation warten. Übrigens stammt der Entwurf dieser API von Google selbst.

Google geht aber mit Chrome einen ersten Schritt und bindet per einfachem Input-Feld-Attribut seine eigene Spracherkennung ein, genau die, die auch bei Android zum Einsatz kommt. Die Umsetzung ist ebenso einfach wie spektakulär. Es reicht ein einfaches x-webkit-speech=”" als Attribut eines Text-Inputs und schon erscheint am Ende dieses Textfelds ein kleines Mikrofon-Symbol. Bei Klick wird die Spracherkennung gestartet und Gesprochenes von einem angeschlossenem Mikro aufgenommen. Rasend schnell wird das ganze dann durch den Google Service gejagt und der erkannte Text in das entsprechende Textfeld geschrieben.

sprachsuche HTML5 Speech Input mit Googles Spracherkennung in Chrome

Suchfeld mit Spracheingabe

Ich habe mal testweise eine einfache sprachgesteuerte Google-Suche umgesetzt, ihr findet sie hier (nur Chrome ab Version 11). Ich musste bei dem Beispiel ein wenig tricksen und statt dem vorgesehenen onspeechchange-Event den onfocus-Event missbrauchen, da ersterer anscheinend noch nicht implementiert ist. Interessant ist, dass Google anscheinend das lang-Attribut des HTML-Dokuments mit übergibt, so dass eine Spracherkennung in der jeweiligen Sprache stattfindet. Sehr komfortabel.

Fazit: Google ist hier klar Vorreiter für eine meiner Meinung nach sehr nützliche API, die von mir aus gerne in den HTML5-Standard mit einfließen sollte. Die Spracherkennung funktioniert super und könnte z.B. eingeschränkten Menschen beim Navigieren im Web helfen. Sicherlich sind aber noch viel mehr Einsatzszenarien denkbar… für mich ein ganz spannendes Thema! Ich bleib dran!

Das könnte Ihnen gefallen