Investigadores en informática de Nvidia, la Universidad de Toronto y el Instituto Vector de Inteligencia Artificial de Toronto han ideado una forma de detectar y predecir con mayor precisión dónde comienza y termina un objeto. Este tipo de conocimiento puede ayudar a mejorar la inferencia de los modelos actuales de visión por computadora y, al mismo tiempo, respaldar el etiquetado de datos de entrenamiento para modelos futuros.
En una serie de experimentos realizados por el equipo de investigación, los científicos descubrieron que el modelo de inteligencia artificial Semantically Thinned Edge Alignment Learning (STEAL) puede ayudar a mejorar la precisión del modelo de predicción de “límites semánticos”. El moderno CASENet aumentó en un 4%. La capacidad de identificar con mayor precisión los límites y bordes de un objeto podría tener aplicaciones prácticas para tareas de visión por computadora, desde la generación de imágenes hasta la reconstrucción espacial 3D para detectar objetos.
Aprendizaje de alineación de bordes semánticamente adelgazado (STEAL)
STEAL se puede aplicar para mejorar las CNN existentes o los modelos de detección de bordes de objetos, pero los investigadores también creen que también puede ayudarlos a etiquetar o anotar datos de manera más efectiva en los modelos de visión por computadora. Para demostrar este punto, los científicos utilizaron el método STEAL para refinar los paisajes urbanos, un conjunto de datos con contenido relacionado con el entorno urbano, presentado por primera vez en la conferencia Machine Vision, Computer Vision and Pattern Recognition (CVPR) en 2016.
Actualmente en GitHub , el marco STEAL puede aprender y predecir cada esquina de un objeto en píxeles con relativa precisión utilizando un método que los investigadores llaman "alineación activa". El razonamiento explícito sobre el ruido de las anotaciones durante el entrenamiento y las fórmulas de ajuste de niveles para las redes neuronales en el aprendizaje a partir de representaciones de etiquetas sesgadas de un extremo a otro también ayudan a producir resultados.
Capacidad para identificar con mayor precisión los límites y bordes de un objeto.
"Además, demostramos que nuestros límites de predicción superan a los obtenidos con los últimos resultados del segmento DeepLab-v3, mientras que el uso de solo la arquitectura es mucho más ligera", dijo un representante del equipo de investigación en una entrevista en profundidad con el sitio de noticias arXiv.
Este trabajo de investigación se titula: "El diablo está en los bordes: aprendiendo límites semánticos a partir de anotaciones ruidosas", y será ampliamente presentado a través de una presentación en el marco de la conferencia CVPR 2019 que se llevará a cabo en Long Beach, California. Los expertos de Nvidia Research han hecho una contribución significativa a esta investigación y también presentarán específicamente la investigación desde una perspectiva personal en el CVPR de este año.

Según noticias recientemente informadas, Nvidia dijo que admitirá sistemas de hardware informático de alto rendimiento del fabricante británico Arm en 2020 y el software de inferencia de análisis de código abierto TensorRT en Github para permitir una mayor personalización.