Hay más cosas en 'Hey Siri' de lo que piensas

"Oye Siri" incluye más de lo que piensas

Siri Alexa en informe de voz
Es posible que muchas personas no sepan que su iPhone tiene una red neuronal dedicada a escuchar que digan "Hola Siri".
Foto: Apple

Hacer que tu iPhone responda a "Hey Siri" parece algo muy simple, pero en realidad es bastante complicado. Reconocer esta frase de código y la persona que la dijo es fundamental para el sistema de reconocimiento de voz de Apple.

Una publicación en Apple Diario de aprendizaje automático recién publicado hoy describe muchos de los desafíos que los desarrolladores superaron para hacer que esto funcione.

Una de las complicaciones es que el reconocimiento de "Hey Siri" tiene que suceder en el iPhone o iPad. La mayor parte del reconocimiento de voz de Siri se realiza cargando las palabras del usuario en un servidor remoto, pero eso solo comienza después de que el teléfono reconoce la frase "Hey Siri". El compromiso de Apple con la privacidad evita que el iPhone envíe todo lo que escucha a un servidor.

Todos los teléfonos y la mayoría de las tabletas de Apple desde el iPhone 6s han tenido un procesador de bajo consumo y siempre encendido que escucha continuamente la frase clave "Hey Siri". Eso es todo lo que hace este chip. Este procesador de reconocimiento de voz utiliza una red neuronal que imita el diseño de un cerebro vivo.

los Diario de aprendizaje automático El artículo solo trata sobre "Hey Siri" porque todo el resto del reconocimiento de voz de Siri se realiza en servidores. Ese es un proceso completamente diferente. Y uno que tiene toda una serie de problemas. Aún así, Apple es en una juerga de contratación para arreglarlos.

¿Por qué "Hey Siri"?

Apple eligió su frase clave porque es corta y fácil de decir. El sistema de reconocimiento de voz Siri debutó en el iPhone 4S varios años antes, pero requería presionar el botón Inicio para activarlo. Según Apple, muchas personas comenzaron sus solicitudes con "Hey Siri" incluso antes de que esta frase tuviera un papel.

La desventaja es que esta fase clave se parece a muchas otras frases, como "¿hablas en serio?". El procesador dedicado del iPhone también tiene que lidiar con todas las demás personas que conversan cerca, algunas de las cuales podrían estar hablando con sus propios iPhones.

Según la de hoy Diario de aprendizaje automático artículo, el chip primero selecciona la frase "Hey Siri" de lo que escucha, luego verifica si la frase fue dicha por la persona a la que fue entrenado para escuchar.

El procesador convierte el audio en un vector de 13 dimensiones para reconocer que alguien dijo "Hey Siri". Luego convierte el audio en un vector de 442 dimensiones para ver si el hablante correcto pronunció la frase clave.

Apple publicó los detalles de cómo elige la frase más importante del aire en un Diario de aprendizaje automático artículo en octubre. La publicación más reciente analiza cómo el chip neuronal aprende a reconocer a su propietario.

Entrenando "Hey Siri"

Todos recuerdan que tuvieron que entrenar su iPhone para que reconociera su propia voz diciendo "Hey Siri" varias veces. A esto se le llama inscripción explícita.

Lo que muy pocas personas se dan cuenta es que el sistema continúa aprendiendo cómo suena su voz después de la sesión de entrenamiento. Esto se debe a que la sesión casi siempre se realiza en condiciones ideales, mientras que el iPhone tiene que aprender a reconocer "Hey Siri" con todo tipo de ruido ambiental. Durante algún tiempo después de que finalice oficialmente el entrenamiento, cada uso de "Hey Siri" se utiliza para aprender más.

Así que trata de evitar que otras personas digan "Oye Siri" cerca de tu iPhone mientras aún está aprendiendo tu voz.

La privacidad importa

Apple se propuso una tarea difícil cuando decidió hacer el reconocimiento de voz directamente en un teléfono inteligente. Pero la alternativa era enviar grabaciones de todo lo dicho cerca del iPhone a un servidor remoto para reconocer la frase clave. Apple no iba a convertir sus dispositivos en espías.

Por supuesto, eso no molestó a Amazon. Así es exactamente como sus dispositivos Echo hacen todo su reconocimiento de voz.

Última publicación de blog

Actualice su Mac a 802.11ac con la llave USB de QuickerTech
September 11, 2021

Actualice su Mac a 802.11ac con la llave USB de QuickerTechEl discurso de QuickerTech para su transceptor USB 802.11AC es bueno en esta era derroch...

| Culto de Mac
September 11, 2021

iTwin SecureBox combina el cifrado de hardware con DropboxiTwin SecureBox es una trama de película de suspenso que espera suceder. También es un di...

El inserto Lightning hace que el iPhone 5 de Elevation Dock sea compatible
September 11, 2021

El inserto Lightning hace que el iPhone 5 de Elevation Dock sea compatibleArreglar.Estoy tan desesperado por una base para mi nuevo iPhone 5 que he...