Documentos de Furkan Biten A. | REDI

Regresar

Mostrando 10 resultados de: 10

Filtros aplicados

Objetivos de Desarrollo Sostenible: "ODS 17: Alianzas para lograr los objetivos"

Subtipo de publicación

Conference Object(9)

Publisher

Proceedings - 2022 IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2022(3)

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)(2)

Proceedings of the International Conference on Document Analysis and Recognition, ICDAR(2)

Pattern Recognition Letters(1)

Proceedings - 2021 IEEE Winter Conference on Applications of Computer Vision, WACV 2021(1)

Área temáticas

Métodos informáticos especiales(7)

Funcionamiento de bibliotecas y archivos(3)

Imprenta y actividades conexas(2)

Biblioteconomía y Documentación informatica(1)

Área de conocimiento

Ciencias de la computación(9)

Visión por computadora(4)

Aprendizaje automático(3)

Inteligencia artificial(2)

Minería de datos(1)

Objetivos de Desarrollo Sostenible

ODS 9: Industria, innovación e infraestructura(10)

ODS 4: Educación de calidad(9)

ODS 8: Trabajo decente y crecimiento económico(1)

Año de Publicación

Origen

Palabras Claves

Visual question answering(3)

Vision and Languages(2)

ICDAR 2019 competition on scene text visual question answering

Conference Object

Abstract: This paper presents final results of ICDAR 2019 Scene Text Visual Question Answering competition (ST

Palabras claves:

Scene text, Scene understanding, Vision and language, Visual question answering

Furkan Biten A., Jawahar C.V., Karatzas D., Lluís Álvarez Gómez, Mafla A., Mathew M., Rusiñol M., Tito R., Valveny E.

MUST-VQA: MUltilingual Scene-Text VQA

Conference Object

Abstract: In this paper, we present a framework for Multilingual Scene Text Visual Question Answering that dea

Palabras claves:

Multilingual models, Power of language models, Scene text, Translation robustness, Visual question answering, Zero-shot transfer

Furkan Biten A., Karatzas D., Lluís Álvarez Gómez, Mafla A., Vivoli E.

Let there be a clock on the beach: Reducing Object Hallucination in Image Captioning

Conference Object

Abstract: Explaining an image with missing or non-existent objects is known as object bias (hallucination) in

Palabras claves:

Vision and Languages

Furkan Biten A., Karatzas D., Lluís Álvarez Gómez

Is An Image Worth Five Sentences? A New Look into Semantics for Image-Text Matching

Conference Object

Abstract: The task of image-text matching aims to map representations from different modalities into a common

Palabras claves:

Vision and Languages

Furkan Biten A., Karatzas D., Lluís Álvarez Gómez, Mafla A.

One-shot Compositional Data Generation for Low Resource Handwritten Text Recognition

Conference Object

Abstract: Low resource Handwritten Text Recognition (HTR) is a hard problem due to the scarce annotated data a

Palabras claves:

Document Analysis

Dey S., Fornes A., Furkan Biten A., Karatzas D., Kessentini Y., Llados J., Lluís Álvarez Gómez, Souibgui M.A.

Scene text visual question answering

Conference Object

Abstract: Current visual question answering datasets do not consider the rich semantic information conveyed by

Palabras claves:

Furkan Biten A., Jawahar C.V., Karatzas D., Lluís Álvarez Gómez, Mafla A., Rusiñol M., Tito R., Valveny E.

Selective style transfer for text

Conference Object

Abstract: This paper explores the possibilities of image style transfer applied to text maintaining the origin

Palabras claves:

data augmentation, Scene text detection, Style transfer, Text style transfer

Furkan Biten A., Gibert J., Gómez R., Karatzas D., Lluís Álvarez Gómez, Rusiñol M.

Multi-modal reasoning graph for scene-text based fine-grained image classification and retrieval

Conference Object

Abstract: Scene text instances found in natural images carry explicit semantic information that can provide im

Palabras claves:

Dey S., Furkan Biten A., Karatzas D., Lluís Álvarez Gómez, Mafla A.

Multimodal grid features and cell pointers for scene text visual question answering

Abstract: This paper presents a new model for the task of scene text visual question answering. In this task q

Palabras claves:

41A05, 41A10, 65D05, 65D17, deep learning, MSC, Multi-modal learning, Scene text, Visual question answering

Furkan Biten A., Karatzas D., Lluís Álvarez Gómez, Mafla A., Rusiñol M., Tito R., Valveny E.

OCR-IDL: OCR Annotations for Industry Document Library Dataset

Conference Object

Abstract: Pretraining has proven successful in Document Intelligence tasks where deluge of documents are used

Palabras claves:

Furkan Biten A., Karatzas D., Lluís Álvarez Gómez, Tito R., Valveny E.