Algoritmo para la Generación Automática de Resúmenes de un Documento HTML.


Abstract:

En los últimos años el rápido crecimiento de Internet, ha traído consigo un vertiginoso aumento de la información disponible, en este sentido la Generación Automática de Resúmenes juega un papel de suma importancia. Los algoritmos encontrados en la literatura no hacen uso de la información de marcado accesible desde la propia página web, por lo que no tienen en cuenta información relativa a la intención del autor en el momento de crear el documento. En el presente trabajo se desarrolló un algoritmo para la Generación Automática de Resúmenes de páginas web, que utiliza información de marcado presente en el código HTML, se define una función para determinar la relevancia de un término en el contenido de un documento y se propuso un método para identificar el idioma. Para evaluar la calidad del algoritmo se aplicaron las métricas ROUGE-1, ROUGE-2, ROUGE-L y ROUGE-W y se compararon los resultados obtenidos con los sistemas comerciales Copernic Summarizer, Pertinence Summarizer y Swensun, obteniéndose resultados significativamente superiores en la métrica ROUGE-1 y sólo superado por el sistema Copernic Summarizer para el resto de las métricas.

Año de publicación:

2012

Keywords:

    Fuente:

    googlegoogle

    Tipo de documento:

    Other

    Estado:

    Acceso abierto

    Áreas de conocimiento:

    • Inteligencia artificial
    • Algoritmo

    Áreas temáticas:

    • Funcionamiento de bibliotecas y archivos
    • Métodos informáticos especiales
    • Retórica y colecciones literarias

    Contribuidores: