
Enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras de profundidad
Author(s) -
Diego Gabriel Alonso
Publication year - 2020
Language(s) - Spanish
DOI - 10.52278/2415
Subject(s) - humanities , art , philosophy
En los últimos años, en combinación con los avances tecnológicos hansurgido nuevos paradigmas de interacción con el usuario. Esto ha motivado a laindustria a la creación de dispositivos de Interfaz Natural de Usuario (NUI, delinglés Natural User Interface) cada vez más potentes y accesibles. En particular,las cámaras de profundidad han alcanzado grandes niveles de adopción porparte de los usuarios. Entre estos dispositivos se destacan la Microsoft Kinect, laIntel RealSense y el Leap Motion Controller.Este tipo de dispositivos facilitan la adquisición de datos en elReconocimiento de Actividades Humanas (HAR, del inglés Human ActivityRecognition). HAR es un área que tiene por objetivo la identificación automática,dentro de secuencias de imágenes, de actividades realizadas por seres humanos.Entre los diferentes tipos de actividades humanas se encuentran los gestosmanuales, es decir, aquellos realizados con las manos. Los gestos manualespueden ser estáticos o dinámicos, según si presentan movimiento en lassecuencias de imágenes.El reconocimiento de gestos manuales permite a los desarrolladores desistemas de Interacción Humano-Computadora (HCI, del inglésHuman-Computer Interaction) crear experiencias e interacciones másinmersivas, naturales e intuitivas. Sin embargo, esta tarea no resulta sencilla. Espor ello que, en la academia se ha abordado esta problemática con el uso detécnicas de aprendizaje de máquina.Tras el análisis del estado del arte actual, se ha identificado que la granmayoría de los enfoques propuestos no contemplan el reconocimiento de losgestos estáticos y los dinámicos en forma simultánea (enfoques híbridos). Esdecir, los enfoques están destinados a reconocer un solo tipo de gestos. Además,dado el contexto de sistemas HCI reales debe tenerse en cuenta también el costocomputacional y el consumo de recursos de estos enfoques, con lo cual losenfoques deberían ser livianos. Por otra parte, casi la totalidad de los enfoquespresentes en el estado del arte abordan la problemática ubicando las cámarasfrente a los usuarios (perspectiva de segunda persona) y no desde la perspectivade primera persona (FPV, del inglés First-Person View), en la que el usuario poseeun dispositivo colocado sobre sí mismo. Esto puede asociarse con que recién enlos últimos años han surgido dispositivos relativamente ergonómicos (pequeños,de peso ligero) que permitan considerar una perspectiva FPV viable.En este contexto, en la presente tesis se propone un enfoque liviano para elreconocimiento de gestos híbridos con cámaras de profundidad teniendo encuenta la perspectiva FPV. El enfoque propuesto consta de 3 grandescomponentes. En primer lugar, el de Adquisición de Datos, en el cual se define eldispositivo a utilizar y se recopilan las imágenes y la información de profundidadque es normalizada al rango de valores de 0 a 255 (escala de los canales RGB).En segundo lugar, el de Preprocesamiento, el cual tiene por objetivo hacerque dos secuencias de imágenes con variaciones temporales sean comparables.Para ello, se aplican técnicas de remuestreo y reducción de resolución. Además,en este componente se computa el flujo óptico determinado por las secuenciasde imágenes a color que se poseen. En particular, se utiliza el flujo óptico comoun nuevo canal de información dadas sus ventajas en lo que respecta a unanálisis espacio-temporal de los videos.En tercer lugar, con las secuencias muestreadas y con la información deflujo óptico, se procede al componente Modelo de Aprendizaje Profundo, dondese aplican técnicas de aprendizaje profundo que permiten abordar las etapas deextracción de características y de clasificación. Particularmente, se propone unaarquitectura de red convolucional densamente conectada con soportemulti-modal. Cabe destacar que, la fusión de las modalidades no es en etapatemprana ni tardía sino dentro del mismo modelo. De esta manera, se obtiene unmodelo end-to-end que obtiene beneficios de los canales de información enforma separada y también conjunta.Los experimentos realizados han mostrado resultados muy alentadores(alcanzando un 90% de exactitud) indicando que la elección de este tipo dearquitecturas permite obtener una gran eficiencia de parámetros así comotambién de tiempos de predicción. Cabe resaltar que, las pruebas son realizadassobre un conjunto de datos relevante del área. En base a ello, se analiza eldesempeño de la presente propuesta en relación a diferentes escenarios comocon variación de iluminación o movimiento de cámara, diferentes tipos de gestos,sensibilidad o sesgo por personas, entre otros.