Saltar al contenido

¿Alexa quien lo creo? Los orígenes secretos

21 Oct, 2022
alexa-quien-lo-creo
¡Compartelo con tus amigos!

¿Alexa quien lo creo?

Historia

JEFF BEZOS primero describió lo que se convertiría en Amazon Echo en la pizarra de una sala de conferencias a principios de 2011. Quiere que el dispositivo cueste 20€ y esté completamente controlado por voz. Su cerebro residirá en la nube, aprovechando la oferta de servicios web de la compañía y permitiendo que Amazon la mejore continuamente sin requerir que los propietarios actualicen su hardware.

La primera representación de Bezos del dispositivo, Alexa, el asistente virtual de inteligencia artificial que lleva el nombre de la antigua biblioteca de Alexandria, muestra el altavoz, el micrófono y el botón de silencio. No comprende directamente los comandos listos para usar, por lo que el boceto identifica el comportamiento de configurar un dispositivo en una red inalámbrica como un desafío que requiere una mayor reflexión.

Greg Hart, el asesor técnico o «asistente de enseñanza» de Bezos en ese momento, era otra persona en la reunión que escuchaba atentamente. Bezos dijo que espera que Hart dirija al equipo para convertir el concepto algo extravagante de una computadora de voz en un producto real. Hart tomó la foto con su teléfono.

«Jeff, no tenía experiencia en hardware, y el equipo de software más grande que he dirigido tenía solo unas 40 personas», recuerda.

«Estarás bien», respondió Bezos.

Hart le agradeció el voto de confianza y dijo: «Está bien, está bien, solo recuerda eso cuando vayamos por el camino equivocado».

alexa-quien-lo-creo

Orígenes Secretos

Bezos seguirá estrechamente involucrado en el proyecto durante los próximos tres años. Antes de que se lanzara el primer Echo, autorizó cientos de millones de dólares en inversiones, tomó decisiones detalladas sobre productos y se reunió con el equipo cada dos días. Usando el superlativo alemán, los empleados lo llaman el gerente de producto über.

Pero fue Hart quien lideró el esfuerzo, en un edificio frente a la oficina de Bezos donde se encontraba el equipo que desarrolló el Kindle. Durante los meses siguientes, Hart contrató a un pequeño grupo de personas de dentro y fuera de la empresa.

Al igual que su jefe, está obsesionado con el secreto. Envió a los posibles empleados correos electrónicos imprecisos con el asunto «Únete a mi misión» e hizo preguntas en la entrevista como «¿Cómo diseñarías un Kindle para ciegos?» Se negó a especificar en qué productos trabajarían los candidatos. Un entrevistado recordó haber especulado que se rumoreaba que era un teléfono inteligente de Amazon y dijo que Hart respondió: «Hay otro equipo que fabrica el teléfono. Pero es más interesante».

alexa-quien-lo-creo

 

El equipo original de Alexa trabajó con un febril sentido de urgencia. De manera poco realista, Bezos espera lanzar el dispositivo dentro de 6 a 12 meses. Tiene buenas razones para darse prisa. El 4 de octubre de 2011, mientras el equipo de Alexa se reunía, Apple presentó el asistente virtual Siri en el iPhone 4S.

Es el último proyecto apasionante del cofundador Steve Jobs, quien murió de cáncer al día siguiente. La noticia de que Apple revivió también está trabajando en un asistente personal activado por voz confirmó a Hart y su equipo, pero se retrasó por el hecho de que Siri fue el primero en comercializar e inicialmente recibió algunas críticas negativas.

El equipo de Amazon trató de asegurarse de que su producto fuera único porque sería independiente del teléfono inteligente. También intentaron lograr una hazaña técnicamente más compleja. Los usuarios de Siri pronuncian comandos directamente en el micrófono. Amazon está tratando de usar una tecnología relativamente inmadura llamada reconocimiento de voz de campo lejano para construir un servicio que pueda entender el lenguaje hablado desde una habitación ruidosa.

Para acelerar el desarrollo, Hart y su equipo buscaron nuevas empresas para adquirir. No es un desafío trivial, ya que el gigante de voz Nuance, con sede en Boston, cuya tecnología ha sido licenciada por Apple para Siri (recientemente adquirida por Microsoft), ha crecido a lo largo de los años, engullendo a las principales compañías de voz estadounidenses.

Los ejecutivos de Alexa intentaron comprender cuáles de las empresas emergentes restantes eran prometedoras preguntando a los objetivos potenciales si habilitaran las capacidades de voz del catálogo de libros digitales de Kindle y luego estudiando sus métodos y resultados. La búsqueda condujo a varias adquisiciones rápidas durante los dos años siguientes, incluida la startup polaca Ivona.

Ivona fue fundada en 2001 por Lukasz Osowski, un estudiante de informática de la Universidad Tecnológica de Gdansk. La idea de Osowski es que el llamado texto a voz, o TTS, podría leer texto digital en voz alta con voz natural y ayudar a las personas con discapacidad visual en Polonia. Junto con su joven compañero de clase Michal Kaszczuk, grabó la voz del actor y seleccionó fragmentos de palabras llamados diphones, luego los mezcló o «conectó» en diferentes combinaciones para acercarse a palabras y oraciones que suenan naturales. pronunciar.

Cuando los fundadores de Ivona le pagaron a un famoso actor polaco llamado Jacek Labijak para grabar horas de discurso para crear una base de datos de sonido, vieron cuán poderosa era su tecnología. El producto resultante, al que llamaron Spiker, se convirtió rápidamente en la voz de computadora más vendida en Polonia. Durante los años siguientes, se utilizó ampliamente en actividades de metro, ascensores y teléfonos robóticos.

Posteriormente, Labijak comenzó a escuchar su voz en todas partes y, a menudo, recibía llamadas instándolo a usar su voz, por ejemplo, para votar por un candidato en las próximas elecciones. Los bromistas manipularon el software para decir palabras inapropiadas y publicaron los clips en línea, donde sus hijos los descubrieron. Después de que Ivona intentara enojada eliminar su voz del software, los fundadores de Ivona tuvieron que renegociar el contrato del actor.

Recta final

En 2006, Ivona comenzó a participar y ganó repetidamente el Blizzard Challenge anual, la competencia de habla por computadora más natural organizada por la Universidad Carnegie Mellon. Para 2012, Ivona se había expandido a otros 20 idiomas, ofreciendo más de 40 voces.

Hart y el primer director de ingeniería del proyecto, Al Lindsay, los visitaron en Gdansk mientras viajaban por Europa en busca de objetivos de adquisición. “Desde el momento en que entramos en su oficina, supimos que encajaba con la cultura”, dijo Lindsay, señalando que Ivona ha progresado en un área donde los investigadores a menudo se distraen con actividades altruistas y tienen dificultades para enviar productos reales. «Su descuido los lleva más allá de la pura academia, en lugar de ser cegados por la ciencia».

La adquisición de aproximadamente 30 millones se completó en 2012, pero se mantuvo en secreto durante un año. El equipo de Ivona y el creciente número de ingenieros de voz que Amazon contratará para su nuevo centro de I+D en Gdansk tienen la tarea de crear la voz de Alexa. El programa está microgestionado por el propio Bezos y está sujeto a las cositas y caprichos habituales del CEO.

Al principio, Bezos dijo que quería que el dispositivo emitiera docenas de sonidos diferentes, cada uno asociado con un objetivo o tarea diferente, como escuchar música o reservar un vuelo. Cuando esto resultó poco práctico, el equipo consideró una lista de los rasgos de personalidad individuales que querían, como la confiabilidad, la empatía y el entusiasmo, y determinó que estos se asociaban con mayor frecuencia con las voces femeninas.

Para desarrollar el sonido y asegurarse de que no tuviera acentos locales, el equipo polaco trabajó con el estudio de doblaje GM Voices del área de Atlanta, que había ayudado a convertir las grabaciones de voz en off de la actriz Susan Bennett. En el proxy de Apple, Siri. Para crear personalidades sintéticas para sus clientes, GM Voices proporciona a los actores de doblaje cientos de horas de texto para leer, desde libros completos hasta artículos aleatorios, un proceso abrumador que puede prolongarse durante meses.

Creyendo que elegir la voz adecuada para Alexa era fundamental, Hart y sus colegas pasaron meses revisando las grabaciones de varios candidatos que GM Voices había hecho para el proyecto y llegaron a la mejor opción para Bezos. El equipo de Amazon calificó a los mejores, ordenó muestras adicionales y tomó una decisión final. Firmó Bezos.

La misteriosa Amazon nunca ha revelado el nombre del artista sonoro detrás de Alexa. Después de consultar con la comunidad de locutores profesionales, supe quién es: la actriz de doblaje y cantante Nina Rohr, que vive en Boulder, Colorado. Su sitio web profesional contiene enlaces a viejos anuncios de radio de productos como el jugo de manzana de Mott y el Volkswagen Passat, y los tonos cálidos de la voz de Alexa son palpables.

ALEXA ahora tiene voz, pero pronto queda claro que necesita un nuevo cerebro. A principios de 2013, Amazon comenzó a trasladar prototipos del Echo original a los hogares de cientos de empleados, a quienes se les pidió que firmaran acuerdos de confidencialidad y completaran encuestas sobre sus experiencias con el producto.

«Todos pensamos que este podría ser el final del proyecto, o al menos el final de algunos de nosotros en Amazon».

INGENIERO DE AMAZON

En cualquier caso, el equipo experimental es lento y torpe. Quizás el comentario más desgarrador vino del propio Bezos. Aparentemente, el CEO, que estaba probando una unidad en su casa de Seattle, le dijo a Alexa que «se disparara en la cabeza» en un momento en que estaba frustrada por su falta de comprensión. “Todos pensamos que esto podría ser el final del proyecto, o al menos el final de algunos de nosotros en Amazon”, dijo un ingeniero que escuchó los comentarios mientras revisaba las interacciones con el equipo de prueba.

Durante los siguientes meses, Amazon continuó trabajando para hacer que sus productos fueran más inteligentes, pero terminó envuelto en una batalla entre los dogmas de la IA que condujo a su mayor desafío hasta el momento.

Gracias a la adquisición de una empresa de inteligencia artificial llamada Evi en Cambridge, Reino Unido, Alexa ha dominado una pequeña charla culturalmente común llamada habla fática. Si el usuario le dice al dispositivo: «Alexa, buenos días, ¿cómo estás?», Alexa puede establecer la conexión correcta y responder. También puede manejar consultas objetivas, como solicitudes para nombrar planetas en el sistema solar. Estas cualidades son el resultado de una técnica de programación llamada gráfico de conocimiento, que da la impresión de que Alexa es inteligente.

¿Pero es? Los defensores de otro enfoque para la comprensión del lenguaje natural, llamado aprendizaje profundo, argumentan que el enfoque de Evi es demasiado restrictivo para darle a Alexa un asistente versátil capaz de cumplir los sueños de Bezos de conversar con los usuarios y responder cualquier pregunta. Si el usuario dice «Reproducir música a través de Sting»

En un enfoque de aprendizaje profundo, una máquina recibe una gran cantidad de datos sobre cómo hablan las personas y qué respuestas son exitosas, y luego se programa para entrenarse a sí misma para generar la mejor respuesta. En otras palabras, cuanto más se usa Alexa, más inteligente se vuelve.

El principal defensor de este enfoque fue un ingeniero de origen indio llamado Rohit Prasad. Prasad y sus colegas deben abordar la paradoja que enfrentan todas las empresas que desarrollan IA: si implementan un sistema tonto, los clientes no lo usarán y, por lo tanto, no generarán suficientes datos para mejorar el servicio. Pero las empresas necesitan estos datos para entrenar los sistemas y hacerlos más inteligentes. Google y Apple resolvieron parcialmente esta paradoja al licenciar la tecnología de Nuance, usar los resultados para entrenar sus propios modelos de voz y luego cortar los lazos con la empresa.

A lo largo de los años, Google también ha recopilado datos de voz de su servicio de búsqueda de números gratuitos, 800-Goog-411. Amazon no tiene tal servicio disponible, y Hart está en contra de otorgar licencias de tecnología externa. Piensa que esto limitará la flexibilidad de la empresa a largo plazo. Pero los escasos datos de capacitación de las pruebas beta en los hogares de los empleados equivalen a cientos de discursos administrativos, a menudo pronunciados desde salas ruidosas por la mañana y por la noche cuando no están en la oficina. Los datos son malos y no son suficientes.

alexa-quien-lo-creo

Mientras tanto, Bezos se impacientaba. «¿Cómo sabemos si este producto es bueno?», seguía preguntando. Hart, Prasad y su equipo crearon gráficos que predicen cómo Alexa mejorará a medida que avanza la recopilación de datos. Las matemáticas mostraron que tendrían que duplicar aproximadamente el tamaño de sus esfuerzos de recopilación de datos por cada 3 por ciento de mejora consecutiva en la precisión de Alexa.

Esa primavera, solo unas semanas después de que Prasad se uniera a la compañía, el equipo le presentó a Bezos una narración de seis páginas que exponía los hechos, proponía duplicar el tamaño del equipo de ciencias del habla y se planea lanzar en el verano. La reunión de otoño no fue bien. «Lo estás haciendo mal”, dijo Bezos después de leer sobre el retraso, según los presentes. “Dime primero cuál es el producto mágico y luego cómo llegar allí”.

Bezos se puso de pie y dijo: «Ustedes no se toman en serio este producto», y terminó la reunión abruptamente.

El entonces asesor tecnológico de Bezos, Dilip Kumar, preguntó si la empresa tenía suficientes datos. Prasad, que convocó la reunión desde Cambridge, respondió que necesitaban miles de horas de comandos de voz complejos y de campo lejano. Aparentemente, Bezos tomó en cuenta la solicitud de aumentar la cantidad de científicos del habla y completó sus cálculos en segundos, según un ejecutivo en la sala. «Déjame entender, ¿quieres decir que tus grandes requisitos hacen que este producto sea exitoso, no 40 años, solo necesitamos 20 años?

Prasad trató de bailar a su alrededor. «Jeff, no lo creíamos».

«¡Dime dónde están mal mis matemáticas!», dijo Bezos, según alguien en la sala. Hart saltó. “Espera, Jeff, lo escuchamos, lo entendimos”. Prasad y otros ejecutivos de Amazon recordarán esa reunión y otras interacciones difíciles con Bezos durante el desarrollo de Alexa de diferentes maneras. Pero el CEO se puso de pie y dijo: «Ustedes no se toman en serio este producto», y terminó la reunión abruptamente, según una de las personas presentes.

Después de que Jeff Bezos los dejó, los ejecutivos de Alexa que desarrollaron el prototipo se retiraron a una sala de conferencias cercana con el orgullo herido y reconsideraron su solución a la paradoja de los datos. Tu jefe tiene razón. Las pruebas internas y la capacitación de los empleados de Amazon son demasiado limitadas. Necesitan escalar masivamente la versión beta de Alexa y de alguna manera mantenerla en secreto del mundo exterior.

El programa resultante llevaría el programa de Alexa al siguiente nivel y respondería una pregunta que desde entonces ha atormentado a los expertos en voz: ¿Cómo Amazon superó repentinamente a Google y Apple en la carrera por desarrollar un asistente virtual habilitado para voz?

Para llevar a cabo su programa, conocido internamente como AMPED, Amazon contrató a una empresa australiana de recopilación de datos llamada Appen y realizó una gira con Alexa disfrazada. Comenzando en Boston, Appen alquiló casas y apartamentos, y Amazon llenó las habitaciones con varios dispositivos de «cebo»: micrófonos de pie, consolas Xbox, televisores y tabletas.

También hay alrededor de 20 dispositivos Alexa de diferentes alturas colocados alrededor de la habitación, cada uno envuelto en una tela acústica que los oculta pero permite que pase el sonido. Luego, Appen contrató a una agencia de trabajo temporal, un grupo de trabajadores contratados que revisan las propiedades 8 horas al día, 6 días a la semana, leen guiones con líneas fijas desde iPads y abren cosas como «solicitar reproducir su canción favorita». Información. ” y “Pregunte cualquier cosa que desee que haga el asistente. «

alexa-quien-lo-creo

Los altavoces estaban apagados para que Alexa no espiara, pero los siete micrófonos en cada dispositivo capturaron todo y reenviaron el audio a los servidores de Amazon. Luego, otro grupo de trabajadores revisó manualmente la grabación y anotó la grabación, clasificando las consultas que podrían haber desconcertado a la máquina, como «encender los juegos del hambre», como una solicitud para reproducir una película, para que Alexa lo supiera la próxima vez.

El juicio de Boston se mostró prometedor, por lo que Amazon amplió el programa para alquilar más casas y apartamentos en Seattle y otras 10 ciudades durante los próximos seis meses para capturar los sonidos y patrones de voz de miles de oradores pagados.

Es una nube de datos en forma de hongo sobre la ubicación del dispositivo, el entorno acústico, el ruido de fondo, los acentos regionales y todas las formas maravillosamente aleatorias en que un ser humano puede hacer una solicitud simple para escuchar el clima o reproducir un éxito de Justin Timberlake. .

Las personas al azar siguen entrando a las casas y apartamentos, causando repetidamente que los vecinos sospechosos llamen a la policía. En un caso, un residente de un complejo de apartamentos de Boston sospechó que había una red de drogas o prostitución en el vecino y llamó a la policía, que pidió entrar al apartamento. El nervioso personal les dio una elusiva explicación y un recorrido antes de cerrar apresuradamente el sitio.

De vez en cuando aparecen sindicatos temporales, dado el extraño guión y la ambigüedad de todo el asunto, y luego simplemente se niegan a participar. Más tarde, un empleado de Amazon recordó que escuchó a un trabajador temporal interrumpir una reunión y susurrarle a alguien que sospechaba que estaba escuchando: «Esto es estúpido. ¡La compañía detrás de esto debería estar avergonzada!».

Amazon no se avergüenza en absoluto. Para 2014, tenía 10 000 veces más almacenamiento de datos de voz y cerró en gran medida la brecha de datos con rivales como Apple y Google. Bezos estaba mareado. Alexa fue alimentada con el equivalente a un superalimento que estimula el cerebro. Para el otoño, estará listo para su lanzamiento.

Amazon Echo se lanzó el 6 de noviembre de 2014 debido a la falla del Fire Phone de la compañía unos meses antes. Bezos no realizó una conferencia de prensa ni pronunció un discurso visionario: aparentemente, su fría impresión del difunto Steve Jobs, que lanzó nuevos productos con tanto entusiasmo, se acabó para siempre.

En cambio, Bezos pareció preferir un enfoque nuevo y discreto: el equipo anunció el Echo a través de un comunicado de prensa y un video explicativo de dos minutos en YouTube, que mostraba a una familia conversando felizmente con Alexa. Los ejecutivos de Amazon no están promocionando el nuevo dispositivo como una computadora totalmente conversacional, pero destacaron cuidadosamente varias áreas en las que creen que será útil, como transmitir noticias y el clima, configurar temporizadores, crear listas de compras y reproducir música.

Luego pidieron a los clientes que se unieran a una lista de espera para comprar un Echo y examinaron la lista, considerando factores como si el solicitante era usuario de Amazon Music y poseía un Kindle. Al reconocer que se trataba de un mercado no probado, también realizaron un pedido inicial de 80 000 unidades, en comparación con un pedido inicial de más de 300 000 Fire Phones, que se enviaron gradualmente durante los meses siguientes. «Fire Phone hace que la gente sea un poco cautelosa», dijo Hart. «Él nos llevó a través de todo».

Más de un veterano de Alexa sospecha que Amazon Echo podría dejar otro cráter humeante en la tecnología de consumo justo al lado del Fire Phone. El día del lanzamiento, se acurrucaron frente a sus computadoras portátiles en la «sala de guerra», viendo cómo la lista de espera superaba incluso sus predicciones más exageradas. Resulta que el concepto de una computadora conectada a la nube escuchando y respondiendo en una habitación es tan tentador y novedoso como Jeff Bezos esperaba que fuera cuando lo dibujó por primera vez en la pizarra de una sala de conferencias hace unos cuatro años. .

Durante la vigilia, se percató de que estaba dejando pasar desapercibido un gran logro. Entonces, unos 100 empleados se dirigieron a un bar cercano para la tan esperada celebración, que fue clausurada durante la noche por algunos de los ejecutivos e ingenieros del proyecto desde hace mucho tiempo.

¡Compartelo con tus amigos!