Tecnologia de reconhecimento de voz: útil ou dolorosa?

Autor: Judy Howell
Data De Criação: 28 Julho 2021
Data De Atualização: 1 Julho 2024
Anonim
Tecnologia de reconhecimento de voz: útil ou dolorosa? - Tecnologia
Tecnologia de reconhecimento de voz: útil ou dolorosa? - Tecnologia

Contente


Leve embora:

A interação com a eletrônica de conversação está se tornando cada vez mais comum - e necessária. Mas até agora, os resultados são decididamente mistos.

Você já telefonou para uma empresa para obter ajuda ou pagar sua conta, apenas para ser recebido por uma voz agradável gravada que deseja conversar com você - mas não consegue entender metade do que está dizendo? Ou talvez você possua um iPhone e, embora a Siri parecesse um bom aliado, você percebeu que às vezes (OK, vamos ser honestos, muitas vezes) ela simplesmente não entende? A tecnologia de reconhecimento de voz (VRT), também conhecida como fala para fala, cai em uma armadilha comum: ela tem o potencial de ser incrivelmente legal (e garoto, estamos torcendo por isso), mas com mais freqüência é um exercício de ranger de dentes em frustração.

Outrora uma idéia que pertencia ao domínio da ficção científica, o reconhecimento de voz cresceu desde a infância nos anos 50, quando o sistema Bell Laboratories Audrey foi projetado para reconhecer dígitos falados em uma única voz, para a moderna rede de eletrônicos de conversação com os quais agora interagimos. diariamente - com resultados mistos.

Para falar com um humano, pressione 0

Muitas das empresas de hoje usam sistemas chamados IVR (Interactive Voice Response) para lidar com chamadas de atendimento ao cliente. O uso mais comum é para menus navegados por voz, mas algumas empresas usam sistemas de URA que podem acessar informações da conta do cliente e responder a perguntas menores. O software Menu IVR geralmente possui um vocabulário limitado, que pode ser restrito a "sim", "não" e números. Sistemas mais complicados podem reconhecer palavras e frases específicas da empresa.

Esses sistemas estão se tornando mais populares - pelo menos para as empresas - por uma simples razão: eles são econômicos. De acordo com um relatório de 2010 do Wall Street Journal, uma ligação típica de cliente que atinge um agente custa entre US $ 3 e US $ 9, enquanto uma ligação realizada através de um sistema automatizado custa apenas de cinco a sete centavos. E, é claro, os programas de computador não se cansam, ficam doentes ou ficam frustrados com os clientes (embora os clientes certamente fiquem frustrados com eles!).

Felizmente, isso nem sempre significa que a URA retira empregos das pessoas - ou pelo menos que todas as pessoas estão desaparecendo dos call centers. Esses auxiliares ativados por voz permitem que os representantes de atendimento ao cliente sejam mais produtivos, direcionando chamadas e respondendo a perguntas simples.

Obviamente, para os usuários humanos que interagem com essas tecnologias, nem sempre é fácil. A tecnologia está ajudando a melhorar os problemas comuns da tecnologia de URA, como problemas com sotaques, mas despedir sistemas automatizados ainda é um tema comum online. Confira este esquete cômico sobre um elevador equipado com reconhecimento de voz, que destaca a frustração que os defeitos nos sistemas de URA podem produzir.

Aplicativos pessoais para telefone: Siri, Google Now

A maioria das pessoas está familiarizada com o reconhecimento de voz para smartphones. Enquanto a maioria dos modelos de telefones mais recentes vem com VR, sua popularidade - e notoriedade - aumentou quando a Apple apresentou o Siri, o "assistente pessoal" levemente sarcástico e ativado por voz para o iPhone 4S em 2011. O Google logo criou um concorrente direto: o Google Agora, para o Android Jelly Bean OS. Ambos os sistemas possuem vozes femininas e recursos sofisticados de reconhecimento que permitem que os usuários "conversem" com seus telefones usando linguagem casual.

Mas, embora esses sistemas sejam consideravelmente mais sofisticados e funcionais que seus antecessores, eles também mostram que a tecnologia ainda tem um longo caminho a percorrer. Piadas sobre o fracasso de Siris se tornaram um meme popular da Internet. Um homem chegou a processar a Apple por propaganda enganosa sobre os recursos da Siris.

Talvez seja por isso que, embora a Apple tenha criado o Siri para ser avançado e informativo, o software VR também é um pouco atrevido. Por exemplo, se você falar uma das linhas de tecnologia de inteligência mais infames da história do cinema do filme de 1968 "2001: Uma Odisséia no Espaço" - "abra as portas do compartimento" - a Siri responderá com a linha de resposta do filme " Sinto muito (seu nome), receio que não possa fazer isso ", ou o mais sarcástico", nós, agentes de inteligência, nunca iremos provar isso.

Chamar você pelo nome é apenas uma das funções que tenta tornar a Siri mais fácil de amar e um pouco mais humana. O assistente de realidade virtual pode seguir comandos de voz para fazer chamadas, ditar es, executar pesquisas na Internet por informações, encontrar lojas próximas, fornecer instruções de direção e muito mais, tudo sem a necessidade de tocar em nada. As respostas são faladas simultaneamente pelo telefone e exibidas na tela.

O Google Now, a parte VR da plataforma Android Jelly Bean, é muito semelhante à Siri. O sistema oferece os mesmos recursos extensos de reconhecimento, traduzindo a fala casual em comandos que permitem aos usuários fazer chamadas, executar pesquisas, executar cálculos e conversões, obter definições de palavras, definir alarmes, tocar alarmes, tocar músicas e obter mapas e orientações.

Com assistentes de voz pessoais como Siri e Google Now, os benefícios são óbvios. Tudo, desde ligações e chamadas até pesquisa e entretenimento, é mais rápido e fácil. Basta dizer o que deseja e (na maioria das vezes) o aplicativo VR o agarra para você. A tecnologia hands-off da VR é especialmente útil ao dirigir. E embora muitas pessoas tenham criticado as falhas da Siris, e os escritores tenham argumentado que a capacidade do Google Nows de executar essencialmente a vida dos usuários é assustadora e um pouco ofensiva, a maioria das pessoas ainda sente que essas tecnologias futuristas são bem legais.

É claro que aplicativos de telefone pessoais como Siri e Google Now estão longe de serem perfeitos - embora mostrem para onde essa tecnologia pode chegar no futuro. Isso significa que, mesmo quando Siri apresenta uma resposta errada, é provável que riam e a perdoem, sabendo que a próxima versão será muito melhor.

Where VR Falls Flat

Se você já encontrou uma URA quando ligou para uma empresa, talvez tenha percebido certas barreiras à comunicação. Alguns programas usam uma voz robótica de fala que pronuncia incorretamente as palavras e torna as coisas difíceis de entender. Outros têm problemas de sensibilidade que resultam na impossibilidade de o software processar o que você está dizendo, se você estiver alto demais, suave demais ou não enunciando com cuidado.

Além disso, muitas pessoas ainda não se sentem confortáveis ​​conversando com uma máquina. Se você fizer algumas pesquisas em URA, encontrará listas que as pessoas criaram de maneiras de contornar os sistemas de URA e chegar a uma "pessoa real". Essas soluções variam de "continue pressionando 0 para um operador" a "xingar a máquina até buscar um ser humano". Como resultado, grande parte do desenvolvimento recente dos sistemas de URA girou em torno de torná-los mais palatáveis ​​para os seres humanos; tornando as vozes mais compreensivas e menos robóticas, facilitando a navegação do sistema e informando aos chamadores quanto tempo a coisa toda levará do começo ao fim. Isso sugere que a melhor tecnologia é apenas metade da batalha aqui; a outra metade está convencendo os usuários a falar com uma máquina.

O que o futuro nos reserva

Apesar desses desafios, a tecnologia de reconhecimento de voz está melhorando o tempo todo. Aplicativos como Siri e Google Now - falhas e tudo - ainda são extraordinariamente impressionantes em seu desempenho, e várias empresas estão expandindo os recursos de VR para outros aplicativos.

Por exemplo, a Nuance, criadora do software de fala Dragon NaturallySpeaking, já desenvolveu controles de voz para televisões e automóveis, e versões dessa tecnologia estão incorporadas em algumas TVs Samsung e nos sistemas de entretenimento SYNC usados ​​em determinados veículos da Ford.

E, à medida que o Google e a Apple continuam encontrando novos usos para suas tecnologias de reconhecimento de voz, é provável que cada vez mais conversemos com todos os tipos de máquinas do dia-a-dia, de nossas televisões a torradeiras. E, mais uma vez, parece que a ficção científica estava certa. Bem, só espero que esses escritores inteligentes estejam errados sobre uma coisa. Se essas máquinas estiverem assumindo o controle, você poderá ter muitos problemas na próxima vez que pedir à Siri para "abrir as portas do compartimento".