Quizás haya escuchado que las personas pueden detectar y evaluar las emociones y el estado de ánimo de un individuo con relativa precisión a través de la entonación de la voz o cualquier sonido que emita esa persona. De hecho, muchas nuevas empresas ambiciosas como Beyond Verbal, Affectiva y Cogito, spin-out del MIT, están impulsando actualmente proyectos de procesamiento del lenguaje natural para que esto suceda. Sin embargo, también ha habido muchas opiniones escépticas sobre estos proyectos y creen que los datos sólidos por sí solos no son suficientes para analizar con precisión el estado de ánimo de una persona, y mucho menos para aplicarlo, y utilizar los resultados de estos análisis para diagnosticar la depresión y su gravedad.

Esta es la razón por la que científicos del Instituto Indio de Tecnología de Patna y de la Universidad Caen-Normandy se embarcaron en la implementación de un proyecto potencial que utiliza señales verbales y no verbales (lenguaje corporal), combinadas con acústica, texto e imágenes para diagnosticar y evaluar la Nivel de depresión o estrés que una persona está experimentando. En particular, las señales verbales y no verbales seguirán desempeñando un papel clave en el diagnóstico, mientras que las señales no verbales y las imágenes se utilizarán como factores que ayudarán a mejorar significativamente el diagnóstico y ser más precisos en la estimación de la gravedad de la depresión.
“La carga del trabajo y de la vida está provocando que cada vez más personas vivan con depresión e incluso enfermedades mentales que a veces ni siquiera conocen, lo que lleva a enfermedades cada vez más graves, que se vuelven más graves y provocan impactos negativos en la vida y el trabajo. Esta es también la razón por la que debemos promover aún más el despliegue de tecnologías más avanzadas, personalizadas y automatizadas en la detección, evaluación y tratamiento de las enfermedades mentales en general y la depresión en particular. Sin embargo, detectar los primeros signos de depresión es un problema desafiante porque muchos síntomas de esta enfermedad aún son secretos y pueden ser engañosos", compartieron los investigadores.

Para resolver este problema, científicos del Instituto Indio de Tecnología de Patna y de la Universidad Caen Normandy han codificado una serie de elementos que pueden referirse implícitamente a emociones y estados humanos, incluidos pensamientos, como la cabeza caída, el contacto visual, la duración y la intensidad de las sonrisas, gestos que tocan ciertas áreas del cuerpo, junto con texto y señales verbales... y luego se introducen en la máquina modelo de aprendizaje y luego se combinan en vectores (representaciones matemáticas). Estos vectores combinados luego se pasaron a través de un segundo sistema que predijo los niveles de depresión basándose en la Escala de angustia de salud personal (PHQ-8), una prueba de diagnóstico comúnmente utilizada en ensayos clínicos de investigación de psicología clínica a gran escala.
Para entrenar varios sistemas de IA, los investigadores utilizaron datos de AIC-WOZ, un conjunto de datos relacionados con la depresión compilados a partir del Distress Analysis Interview Corpus. Este conjunto de datos incluye una gran cantidad de datos sobre gestos, habla, ojos y acciones extraídas a partir de muestras de grabaciones de audio y videoclips que responden a preguntas de 189 entrevistas clínicas, listos para respaldar el diagnóstico psicológico de síntomas como ansiedad, depresión y postraumáticos. trastorno de estrés (se han eliminado las respuestas que están fuera de tema o que quedaron sin terminar).

Después de varios pasos de preprocesamiento y de entrenar el modelo de aprendizaje automático, el equipo de investigación comparó los resultados de los sistemas de IA utilizando 3 métricas: error cuadrático medio (RMSE), error medio absoluto (MAE) y puntuación de varianza explicada (EVS). Según el informe de los investigadores, la fusión de los tres elementos: sonido, texto e imagen ayudó a proporcionar la estimación más precisa del nivel de depresión de un sujeto específico, superando un máximo de 7,17% en RMSE y 8,08% en MAE.
En el futuro, el equipo de investigación también planea probar arquitecturas de aprendizaje multitarea más modernas y "profundizar" en nuevos problemas relacionados con los datos de texto. Si dan resultados positivos, estos proyectos supondrán realmente un gran paso adelante en la aplicación de la inteligencia artificial a la medicina en general y al tratamiento de enfermedades neurológicas en particular, al tiempo que ofrecerán perspectivas prometedoras para los más de 300 millones de personas que actualmente padecen depresión, y se espera que aumente aún más rápido en los próximos años, a escala mundial.