O Google construiu uma nova tecnologia para impulsionar sua pesquisa por voz, que a empresa diz que a tornará ainda mais rápida e precisa. A nova tecnologia usa a Classificação Temporal Conexionista (CTC) e técnicas de treinamento discriminativo de sequência. Em 2012, o Google mudou do Gaussian Mixture Model (GMM) para o Deep Neural Networks (DNNs), o que permitiu à empresa avaliar melhor qual som o usuário estava produzindo naquele momento e ofereceu uma precisão de reconhecimento de fala aumentada.
Nossos modelos acústicos aprimorados contam com Redes Neurais Recorrentes (RNN). As RNNs possuem loops de feedback em sua topologia, permitindo modelar dependências temporais: quando o usuário fala / u / no exemplo anterior, seu aparato articulatório vem de um som / j / e de um / m / som antes. Tente dizê-lo em voz alta - "museu" - flui muito naturalmente de uma só vez, e as RNNs podem capturar isso. O tipo de RNN usado aqui é um RNN de Memória de Longo Prazo (LSTM) que, por meio de células de memória e um sofisticado mecanismo de bloqueio, memoriza as informações melhor do que outros RNNs. A adoção de tais modelos já melhorou significativamente a qualidade do nosso reconhecedor.
A mudança na tecnologia foi feita pelo Google e agora está sendo usada para impulsionar pesquisas por voz no aplicativo do Google no iOS e no Android, além de ditar em dispositivos Android.
Fonte: Blog de pesquisa do Google