WiMi Hologram Cloud Inc. ha anunciado un método de segmentación semántica de nube de puntos con imagen fusionada basado en la red convolucional de grafos fusionados, con el objetivo de utilizar la diferente información de la imagen y la nube de puntos para mejorar la precisión y la eficacia de la segmentación semántica. Los datos de la nube de puntos son muy eficaces para representar la geometría y la estructura de los objetos, mientras que los datos de la imagen contienen una rica información de color y textura. La fusión de estos dos tipos de datos puede aprovechar sus ventajas simultáneamente y proporcionar una información más completa para la segmentación semántica.

La red convolucional de grafos fusionados (FGCN) es un modelo eficaz de aprendizaje profundo que puede procesar simultáneamente datos de imágenes y de nubes de puntos y tratar eficazmente características de imágenes de diferentes resoluciones y escalas para una extracción de características y una segmentación de imágenes eficientes. El FGCN es capaz de utilizar los datos multimodales de forma más eficiente extrayendo la información semántica de cada punto implicado en los datos bimodales de la imagen y la nube de puntos. Este módulo permite al FGCN utilizar la información espacial de los datos de la imagen para comprender mejor la información contextual de la imagen mediante el cálculo de la información semántica de los k vecinos más próximos alrededor de cada punto.

Esto ayuda al FGCN a distinguir mejor las características más importantes y a eliminar el ruido relevante. Además, FGCN emplea un mecanismo de atención espacial para centrarse mejor en las características más importantes de los datos de la nube de puntos. Este mecanismo permite al modelo asignar distintos pesos a cada punto en función de su geometría y de la relación de los puntos vecinos para comprender mejor la información semántica de los datos de la nube de puntos.

Al fusionar características multiescala, la FGCN aumenta la capacidad de generalización de la red y mejora la precisión de la segmentación semántica. La extracción de características multiescala permite al modelo considerar la información en diferentes escalas espaciales, lo que conduce a una comprensión más completa del contenido semántico de las imágenes y los datos de las nubes de puntos. Esta segmentación semántica de nubes de puntos fusionadas con redes convolucionales de grafos de fusión es capaz de utilizar la información de datos multimodales como imágenes y nubes de puntos de forma más eficiente para mejorar la precisión y la eficiencia de la segmentación semántica, lo que se espera que haga avanzar la visión artificial, la inteligencia artificial, la fotogrametría, la teledetección y otros campos, proporcionando un nuevo método para la futura investigación en segmentación semántica.

Esta segmentación semántica de nubes de puntos con red convolucional de grafos de fusión tiene amplias perspectivas de aplicación y puede aplicarse en muchos campos, como la conducción autónoma, la robótica y el análisis de imágenes médicas. Con el rápido desarrollo de la conducción autónoma, la robótica, el análisis de imágenes médicas y otros campos, existe una creciente demanda de procesamiento y segmentación semántica de datos de imágenes y nubes de puntos. Por ejemplo, en el campo de la conducción autónoma, los coches autoconducidos necesitan percibir y comprender con precisión el entorno circundante, lo que incluye la segmentación semántica de objetos como carreteras, vehículos y peatones.

Esta segmentación semántica de nubes de puntos de imágenes fusionadas con una red convolucional de grafos de fusión puede mejorar la percepción y la comprensión del entorno circundante y proporcionar un soporte de datos más preciso para la toma de decisiones y el control de los coches autoconducidos. En el campo de la robótica, los robots necesitan percibir y comprender el entorno exterior para realizar diversas tareas. La segmentación semántica de nubes de puntos por fusión de imágenes con redes convolucionales de grafos de fusión puede fusionar datos de imágenes y nubes de puntos adquiridos por robots para mejorar la capacidad de percibir y comprender el entorno externo, lo que ayuda a los robots a realizar mejor las tareas.

En el campo de la medicina, el análisis de imágenes médicas requiere una segmentación y un reconocimiento precisos de las imágenes médicas para ayudar mejor al diagnóstico y el tratamiento médicos. La segmentación semántica de nubes de puntos con redes convolucionales de gráficos de fusión puede fusionar imágenes médicas y datos de nubes de puntos para mejorar la precisión de la segmentación y el reconocimiento de imágenes médicas, proporcionando así un soporte de datos más preciso para el diagnóstico y el tratamiento médicos. En el futuro, la investigación WiMi optimizará aún más la estructura del modelo.

Al mismo tiempo, el modelo se combinará con la tecnología de aprendizaje profundo para aprovechar la tecnología de aprendizaje profundo para mejorar el rendimiento del modelo. Y seguirá desarrollando la tecnología de fusión de datos multimodal para fusionar diferentes tipos de datos (por ejemplo, imagen, nube de puntos, texto, etc.) con el fin de proporcionar una información más completa y rica y mejorar la precisión de la segmentación semántica. WiMi seguirá mejorando el procesamiento en tiempo real de la segmentación semántica de nubes de puntos fusionadas con imágenes con capacidad de red convolucional de gráficos de fusión para satisfacer la demanda.