Google werkt de technologie achter gesproken zoekopdrachten bij om het sneller en nauwkeuriger te maken

Google heeft een nieuwe technologie gebouwd om spraakgestuurd zoeken mogelijk te maken, die volgens het bedrijf het nog sneller en nauwkeuriger zal maken. De nieuwe technologie maakt gebruik van Connectionist Temporal Classification (CTC) en volgorde-discriminerende trainingstechnieken. In 2012 is Google overgestapt van Gaussian Mixture Model (GMM) naar Deep Neural Networks (DNN's), waardoor het bedrijf beter kon beoordelen welk geluid een gebruiker op dat moment produceerde en een verhoogde nauwkeurigheid van spraakherkenning leverde.

Onze verbeterde akoestische modellen vertrouwen op Recurrent Neural Networks (RNN). RNN's hebben feedbacklussen in hun topologie, waardoor ze temporele afhankelijkheden kunnen modelleren: wanneer de gebruiker / u / in het vorige voorbeeld spreekt, komt hun articulatoire apparaat uit a / j / sound en eerder uit een / m / sound. Probeer het hardop te zeggen - "museum" - het stroomt heel natuurlijk in één ademhaling en RNN's kunnen dat vastleggen. Het hier gebruikte type RNN is een RNN met Long Short-Term Memory (LSTM) dat door geheugencellen en een geavanceerd poortmechanisme informatie beter onthoudt dan andere RNN's. De goedkeuring van dergelijke modellen heeft de kwaliteit van onze herkenner al aanzienlijk verbeterd.

De technologische verandering is aangebracht door Google en wordt nu gebruikt om gesproken zoekopdrachten in de Google-app op zowel iOS als Android aan te sturen, evenals dicteren op Android-apparaten.

Bron: Google Research Blog