WiMi Hologram Cloud Inc. ha anunciado que ha desarrollado un sistema de recomendación de vídeos multimodal basado en el aprendizaje profundo. Esta tecnología emergente utiliza algoritmos avanzados y análisis de datos multimodales para ofrecer a los usuarios servicios personalizados de recomendación de vídeos, lo que permitirá a los usuarios disfrutar de un mundo completamente nuevo a la hora de ver películas. El núcleo del sistema de recomendación de WiMi es un algoritmo de aprendizaje profundo, capaz de extraer ricas características ocultas de los datos de vídeo y generar recomendaciones precisas basadas en las preferencias personales del usuario.

Entre ellos, la extracción de características es el paso clave de todo el sistema. Actualmente, la tecnología adopta una red neuronal convolucional (CNN) como algoritmo principal para la extracción de características. La CNN es un modelo de aprendizaje profundo basado en redes neuronales con excelentes capacidades de procesamiento de imágenes y extracción de características.

En el sistema de recomendación de vídeos multimodal, la empresa utiliza la CNN para desenterrar las características ocultas de los usuarios y los vídeos a partir de conjuntos de datos de secuencias de vídeo. El algoritmo contiene tres partes principales: capa convolucional, capa de agrupación y capa totalmente conectada. La capa convolucional es el núcleo de la CNN que reconoce y extrae diversas características de los datos de entrada.

Mediante múltiples operaciones convolucionales, puede capturar características contextuales de los datos de las secuencias de vídeo, como el tipo de vídeo, el título, la portada, etc. La extracción de estas características permite al sistema comprender mejor el contenido del vídeo y las preferencias del usuario. La capa de agrupación desempeña el papel de compresión y cribado en el proceso de extracción de características.

Es capaz de seleccionar características locales representativas y comprimir los datos en una representación más compacta. Mediante el funcionamiento de la capa de agrupación, el sistema es capaz de procesar datos de vídeo a gran escala de forma más eficaz y comprender mejor los intereses del usuario. La capa totalmente conectada es la última capa de una CNN.

La capa totalmente conectada es la última capa de la CNN. Con el funcionamiento de la capa totalmente conectada, el sistema es capaz de combinar la información personalizada del usuario con las características del vídeo para calcular el interés potencial del usuario y sus preferencias por el vídeo. Para aplicar este algoritmo, WiMi modificó ligeramente la estructura de la CNN.

Este modelo consta de cuatro componentes clave: una capa de entrada, una capa convolucional, una capa de agrupación y una capa de salida. En un sistema de recomendación de vídeos, la capa de entrada desempeña el papel de convertir los datos brutos en una matriz digital. Esta matriz representa los datos necesarios para la siguiente operación convolucional.

A continuación, las características contextuales de los datos de entrada se extraen del conjunto de datos de secuencias de vídeo a través de tres capas convolucionales. Estas capas convolucionales están diseñadas para tener diferentes dimensiones con el fin de captar mejor la diversidad del contenido del vídeo. A continuación viene la capa de agrupación, cuya tarea consiste en comprimir y filtrar las características extraídas de la capa convolucional.

Al seleccionar las características locales más representativas, la capa de pooling es capaz de reducir la dimensionalidad de los datos y retener la información más importante. Esto tiene la ventaja de reducir la complejidad computacional del sistema al tiempo que mejora la comprensión de los intereses del usuario. Por último, está la capa de salida, que genera los resultados finales de la recomendación.

Las preferencias potenciales del usuario por los vídeos se calculan a través de la capa de conexión completa. Basándose en los resultados, el sistema puede generar los mejores vídeos recomendados para que el usuario elija verlos. En las aplicaciones prácticas, se suelen seleccionar como datos de entrada cuatro parámetros clave del vídeo (ID del vídeo, tipo, título y portada) y cuatro parámetros clave del usuario (ID del usuario, sexo, edad y ocupación).