Regresar

Implementación de un sistema para el conteo volumétrico de objetos mediante redes neuronales convolucionales

Abstract:

En la actualidad, la congestión del tráfico se ha convertido en un problema que afecta a toda la sociedad en general, tanto a conductores que ocupan mucho tiempo en filas inmensas de automóviles, así como también de transeúntes que al estar agobiados por la cantidad de autos se les dificulta el paso entre una acera a la otra. Para esto se ha implementado diferentes soluciones para reducir este problema desde la colocación de semáforos en puntos estratégicos, también el aumento de carriles, pero estas soluciones no disipan del todo la congestión del tráfico. Por consiguiente, la búsqueda de un mejor manejo de información de tráfico, ha dado lugar a la necesidad de beneficiarse de un sistema de detección vehicular y peatonal. Es por ello que surge la idea de implementar un sistema para el conteo de objetos volumétrico mediante redes neuronales. Esta investigación describe el proceso de detección y conteo de objetos en tiempo real los cuales serán de las siguientes clases: vehículos, motocicletas, bicicletas y personas, mediante el uso de redes neuronales convolucionales, a partir de la adquisición y preparación de un conjunto de imágenes, las cuales serán etiquetadas de acuerdo a cada clase a la que pertenezcan. Empleamos un total de 2320 imágenes tomadas en la ciudad de Machala que incluyen carros, motos, bicicletas y personas, de las cuales el 90% se escogió para el entrenamiento y el 10% para la validación. Para el etiquetado de las imágenes se utilizó la herramienta LabelImg, la cual es una herramienta gráfica de anotación de imágenes y soporta el formato YOLO. En el entrenamiento de las imágenes se utilizó la red neuronal Yolov3, la cual utiliza un algoritmo de detección de objetos más eficiente en tiempo real que las demás redes. Para evaluar nuestra red, se estableció el uso de métricas de evaluación, para lo cual hemos probado la red con el conjunto de datos que se ha construido. Las pruebas demuestran que la red tiene un rendimiento de detección eficiente con mAP(precisión promedio) de un 65% con alrededor de 8000 iteraciones, con entradas de imágenes de 416 x 416 en una NVIDIA Geforce 940M. Lo que tomó bastante tiempo solo para el entrenamiento de las imágenes alrededor de unos 5 días por entrenamiento. Para el conteo de objetos se utilizó el API de TensorFlow, Object Counting con el que se logró resultados eficientes con la red neuronal previamente entrenada, se utilizó el protocolo RTSP para la obtención de vídeo en tiempo real, con una cámara Dahua-1218 con resolución de 1280x720(720p) y 40 cuadros por segundo (fps), la cual se instaló en las calles Junín entre Guabo y Kléber Franco por situaciones de seguridad y porque dicha dirección se considera una zona con afluencia de carros, peatones, motos, entre otros. Se realizaron pruebas de rendimiento del sistema de conteo con diferentes archivos de pesos entrenados, con cantidades de imágenes distintas, así como variaciones en las iteraciones. El resultado de estas pruebas arrojaron resultados favorables para la red entrenada con 2320 imágenes con alrededor de 8000 iteraciones con respecto a la precisión (0.52), valor de referencia (0.53) y un mAP de 65.22%. Quedando así un sistema de conteo preciso y que detecta la mayoría de objetos que se presenten en tiempo real.