Noticias Programación

AI construye Lego a partir del manual

AI parece apoderarse de todos los placeres. Luchas durante horas para construir ese modelo de Lego, pero ahora la IA puede hacer el trabajo por ti en poco tiempo y, por lo tanto, te priva de toda tu diversión…


Construir modelos de Lego a partir de instrucciones estándar paso a paso es algo que mucha gente encuentra divertido y se puede argumentar que es un precursor de la programación y construcción de muebles de paquete plano, pero eso es otro tormento.

En caso de que nunca antes hayas seguido un manual de Lego, ¿de verdad? – Vale decir que son pictóricas. Obtenga una serie de imágenes que muestren la secuencia de bloques que deben agregarse para hacer el modelo. Este es un lenguaje de programación gráfico muy simple donde usted es la computadora. En la práctica, funciona bien, siempre que pueda encontrar el bloque que necesita y es difícil equivocarse, excepto en los casos extremos en los que hay alguna ambigüedad en el diagrama.

Dicho esto, si bien puede ser en su mayoría sencillo, no subestimes la cantidad de inteligencia que se dedica a esta tarea. El procesamiento de imágenes por sí solo es algo con lo que habríamos tenido muchos problemas hasta hace poco. Un equipo de Stanford, MIT y Autodesk AI trabajaron duro en el problema:

«Identificamos dos desafíos clave en la interpretación de manuales visuales. Primero, requiere identificar la correspondencia entre una imagen manual 2D y las formas geométricas 3D de los componentes del edificio. Dado que cada imagen manual es la proyección 2D de la forma 3D deseada, comprender la manuales requiere que las máquinas piensen en orientaciones 3D y alineaciones de componentes, posiblemente en presencia de oclusiones».

Por supuesto, la solución involucra redes neuronales e investigación. La red Manual-to-Executable-Plan Network (MEPNet) es un enfoque híbrido que combina lo mejor de ambos mundos. MEPNet tiene dos fases. En la primera etapa, una red neuronal convolucional toma como entrada la forma LEGO 3D actual, el modelo 3D de los nuevos componentes y la imagen 2D manual de la forma objetivo. Proporciona una serie de puntos clave y máscaras 2D para cada nuevo componente. En la segunda fase, los puntos clave 2D previstos en la primera fase se retroproyectan en 3D encontrando posibles conexiones entre la forma básica y los nuevos componentes. También refina las predicciones de orientación de los componentes mediante una búsqueda local.

Echa un vistazo a cómo funciona:

Sistemas como este son el siguiente paso en la construcción de sistemas complejos de IA. Ya no es suficiente usar una red neuronal y emplear capacitación de extremo a extremo para una tarea. Es difícil ver cómo podría funcionar esto para esta tarea, por ejemplo. Las redes neuronales, quizás más de una, serán componentes de un gran sistema que emplea una variedad de técnicas.

lego2

El sistema parece funcionar bien y no me sorprendería si el siguiente paso fuera una IA interpretando las instrucciones del flatpack: «no, no como ese estúpido humano, el conector T4 se usa en el zócalo S23 y la pata va al otro lado»

Si realmente quieres ayuda con tu Lego, puedes descargar el código de Github.

También puede gustarte...