«Fprimero texto, luego imágenes, ahora OpenAI tiene un modelo para generar videos«, gritó Mashable el otro día. Los creadores de ChatGPT y Dall-E habían Acabo de anunciar Sora, un modelo de difusión de texto a vídeo. Deje comentarios entusiastas en toda la web sobre lo que sin duda se conocerá como T2V, y cubrirá el espectro habitual, desde «¿Esto marca el final de (inserte aquí actividad amenazada)?» a «meh» y todo lo demás.

Sora (el nombre japonés significa «cielo») no es la primera herramienta T2V, pero parece más sofisticada que esfuerzos anteriores como el de Meta. IA para hacer un vídeo. Él puede convierta una breve descripción de texto en un clip de película detallado de alta definición hasta un minuto de duración. Por ejemplo, el mensaje “Un gato despierta a su dueño dormido y le exige el desayuno. El dueño intenta ignorar al gato, pero el gato intenta nuevas tácticas y finalmente el dueño saca su reserva secreta de golosinas de debajo de la almohada para retener al gato un poco más”, produce un elegante videoclip que se volvería viral en cualquier red social. red.

¿Hermoso, verdad? Bueno, hasta cierto punto. OpenAI parece extrañamente sincero acerca de las limitaciones de la herramienta. Puede, por ejemplo, «tener dificultades para simular con precisión la física de una escena compleja».

Eso es por decir lo menos. Uno de los vídeos del conjunto de muestra ilustra las dificultades del modelo. El mensaje que produce la película es “Video fotorrealista en primer plano de dos barcos piratas peleando entre sí mientras navegas dentro de una taza de café”. A primera vista, es impresionante. Pero luego se nota que uno de los barcos se mueve rápidamente de una manera inexplicable, y queda claro que aunque Sora puede saber mucho sobre el reflejo de la luz en los fluidos, sabe poco o nada sobre las leyes físicas que gobiernan los galeones. 'movimientos. .

Te Puede Interesar:   Febrero fue el más caluroso jamás registrado en el mundo, dicen los científicos | Crisis climática

Otras limitaciones: Sora puede ser un poco confuso en cuanto a causa y efecto; “una persona puede darle un mordisco a una galleta, pero es posible que la galleta no tenga la marca del mordisco”. Tut, tut. También puede “confundir los detalles espaciales de una indicación, por ejemplo, confundir izquierda y derecha”. Etcétera.

Aun así, es un comienzo y sin duda mejorará con otro. mil millones de teraflops de potencia computacional. Y aunque los jefes de los estudios de Hollywood pueden seguir durmiendo tranquilamente en sus camas tamaño king, Sora pronto será lo suficientemente bueno como para reemplazar algunos tipos de video, al igual que las IA como Midjourney y Dall-E están reemplazando la fotografía al estilo de Shutterstock.

A pesar de sus concesiones sobre las limitaciones de la herramienta, OpenAI dice que Sora «sirve como base para modelos que pueden comprender y simular el mundo real». Esto, afirma, será un “hito importante” en el logro de la inteligencia artificial general (AGI).

Te Puede Interesar:   El primer satélite espía de Corea del Norte está "vivo" y bajo control, dicen los expertos | Corea del Norte

Y aquí es donde las cosas se ponen interesantes. Recuerde que el objetivo corporativo de OpenAI es lograr el Santo Grial de la AGI, y la empresa parece creer que las IA generativas representan un paso tangible hacia ese objetivo. El problema es que llegar a AGI significa construir máquinas que tengan una comprensión del mundo real al menos igual a la nuestra. Esto requiere, entre otras cosas, conocimientos de la física de los objetos en movimiento. Así que la apuesta implícita en el proyecto OpenAI parece ser que algún día, con suficiente potencia informática, las máquinas capaces de predecir cómo se mueven los píxeles en una pantalla también habrán aprendido cómo se comportarán en la vida real los objetos físicos que representan. En otras palabras, es una apuesta a que la extrapolación del paradigma del aprendizaje automático nos llevará eventualmente a máquinas superinteligentes.

Pero las IA capaces de navegar en el mundo real necesitarán comprender más que cómo funcionan las leyes de la física en ese mundo. También necesitarán descubrir cómo operan los humanos dentro de él. Y para los que siguieron El trabajo de Alison Gopnik.Esto parece un poco extremo para el tipo de máquina que el mundo considera actualmente «IA».

Te Puede Interesar:   La opinión de The Guardian sobre las lenguas en peligro de extinción: habladas por unos pocos pero valiosas para muchos | Editorial

Gopnik es famosa por su investigación sobre cómo aprenden los niños. Viendo su Ted Talk, ¿Qué piensan los bebés?, sería una experiencia saludable para los técnicos que imaginan que la tecnología es la respuesta a la cuestión de la inteligencia. Décadas de investigación que exploran la sofisticada recopilación de información y la toma de decisiones que realizan los bebés cuando juegan la han llevado a la conclusión de que “los bebés y los niños pequeños son como la división de I+D de la especie humana”. Después de pasar un año observando el primer año de desarrollo de nuestra nieta y, en particular, observando cómo comienza a descubrir la causalidad, este columnista tiende a estar de acuerdo. Si Sam Altman y la gente de OpenAI están realmente interesados ​​en AGI, tal vez deberían dedicar algo de tiempo a los bebés.

lo que he leído

Política algorítmica
Henry Farrell escribió un ensayo fundamental sobre La economía política de la IA..

Hábitos de los robots
Existe uno pieza reflectante en el atlántico de Albert Fox Cahn y Bruce Schneier sobre cómo los chatbots cambiarán la forma en que hablamos.

Ninguna llamada
El escritor de ciencia ficción Charlie Stross escribió una publicación de blog sobre ¿Por qué Gran Bretaña no implementó el servicio militar obligatorio?incluso si quisieras.

Deja un comentario