El secretario general de Política Lingüística presenta el nuevo Corpus Documental del Gallego Actual (CORGA)

La versión ampliada de esta herramienta lingüística elaborada por el Centro Ramón Piñeiro para la Investigación en Humanidad incorpora cerca de 32 millones de palabras, de las que algo más de 400.000 son me las fuere diferentes

Mar, 30/06/2015 - 14:26
 El secretario general de Política Lingüística presenta el nuevo Corpus Documental del Gallego Actual (CORGA)
El secretario general de Política Lingüística presenta el nuevo Corpus Documental del Gallego Actual (CORGA)

El secretario general de Política Lingüística, Valentín García, presentó esta mañana en rueda de prensa el nuevo Corpus Documental del Gallego Actual (CORGA). La versión ampliada de esta herramienta lingüística elaborada por el Centro Ramón Piñeiro para la Investigación en Humanidades (CRPIH) -dependiente de la Consellería de Cultura, Educación y Ordenación Universitaria- incorpora cerca de 32 millones de palabras, de las que algo más de 400.000 son me las fuere diferentes.

Segundo señaló el secretario general durante su intervención ?la nueva versión ampliada del CORGA ponen la disposición de la comunidad científica y de la ciudadanía en general nuevas posibilidades para el estudio y la investigación lingüística en una apuesta por las tecnologías de la información y de la comunicación, y por los recursos tecnológicos en gallego, tal y como señala el Plan General de Normalización de la Lengua Gallega?.

Participaron en la presentación, amais de García Gómez, los directores del CORGA, Guillermo Rojo y María Sol López, y los responsables de la coordinación lingüística e informática del proyecto, los investigadores de la Universidad de Santiago de Compostela Eva Domínguez y Mario Barcala, respectivamente.

Corpus de Referencia del Gallego Actual

El CORGA es un corpus documental desarrollado en el CRPIH e integrado por distintos tipos de textos -periódicos, semanarios, revistas, ensayos y textos de ficción (novela, relato corto y teatro)- que abarca temporalmente desde el año 1975 hasta la actualidad y que está codificado en el estándar XML (extensible Markup Language).

La nueva versión ampliada ?la 1.7, disponible en la red en la dirección http://corpus.cirp.es/corga? consta de casi 32 millones de palabras, de las que algo más de 400.000 son me las fuere diferentes. Sobre este conjunto de formas ortográficas es posible consultar palabras o expresiones en general, por tipos de texto, épocas, áreas temáticas o cualquier combinación de los parámetros anteriores. Además, se disponen de un sistema de consulta de la nómina de autores y obras que permite buscar que obras o autores están en el corpus, saber que número de palabras totales y documentos corresponde a la busca realizada o que cantidad de palabras contiene el CORGA en una cierto área temático, período de tiempo etc.

Herramientas tecnológicas avanzadillas

El CRPIH trabaja también en la mejora de varias herramientas que posibilitan las consultas más avanzadillas y propician dar un salto cualitativo en las posibilidades de busca sorteando las limitaciones impuestas por las consultas por forma ortográfica. Así, se finalizó el subcorpus de entrenamiento periodístico y de narrativa que utiliza el Etiquetador-Lematizador del Gallego Actual (XIADA) -constituido en la nueva versión ampliada por algo más de 600.000 me las fuere ortográficas (correspondientes a casi 750.000 elementos gramaticais)-, que está la disposición gratuita de la comunidad investigadora en la versión 2.6 del Corpus de Referencia del Gallego Actual etiquetado (CORGAetq) en la dirección http://corpus.cirp.es/corgaetq.

El CRPIH dispone también de otros dos recursos lingüísticos de especial interese para la comunidad investigadora como son el listado completo de formas ortográficas diferentes presentes en el CORGA y el lexicón general utilizado por el etiquetador XIADA. ambos pueden obtenerse con una licencia de uso libre para facilitar y difundir su empleo en diferentes proyectos en http://corpus.cirp.es/corga y http://corpus.cirp.es/xiada, respectivamente.

Los sistemas y recursos relacionados con este proyecto se destinan a las personas interesadas en el estudio de la lengua gallega actual en los diferentes campos, suministrándolos con herramientas que les permitan, por una parte, obtener datos de diversa índole relacionados con el empleo de la lengua y, por la otra, desarrollar herramientas de análisis del gallego cada vez más sofisticadas.

El Centro Ramón Piñeiro

El CRPIH es un organismo dependiente de la Consellería de Cultura y Educación que se ocupa de llevar adelante y de difundir proyectos de investigación lingüística, literaria, histórica y antropológica centrados en Galicia. Actualmente, sus líneas de trabajo giran alrededor de la lingüística aplicada, la literatura medieval, la recuperación de publicaciones literarias o la identidad colectiva desde un punto de vista antropológico.

Menús News node R