O Centro Ramón Piñeiro presenta o novo CORGA 3.0
O secretario xeral de Política Lingüística deu a coñecer hoxe pola mañá a versión ampliada desta ferramenta lingüística en liña que incorpora preto de 37 millóns de palabras, das que case 600.000 son formas diferentes
Destacan como novidades a incorporación dunha mostra representativa do rexistro oral da década dos 90 con transcricións nas que se aliña o texto coa voz e a etiquetaxe automática a través do XIADA
O secretario xeral de Política Lingüística, Valentín García, presentou hoxe pola mañá a nova versión ampliada do Corpus Documental do Galego Actual (CORGA 3.0), unha ferramenta lingüística en liña desenvolvida polo Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH), e representativa do uso lingüístico do galego actual, que incorpora 36,8 millóns de palabras, das que 570.000 son son formas diferentes. Presenta, entre as novidades máis destacadas a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90 con transcricións nas que se aliña o texto coa voz e a etiquetaxe automática a través do Etiquetador/Lematizador do Galego Actual (XIADA).
En palabras de García Gómez “o CORGA 3.0 dá un novo paso para poñer a disposición da comunidade científica e dos falantes e da cidadanía en xeral posibilidades para o estudo e a investigación lingüística, nomeadamente para a obtención de datos referidos aos aspectos morfolóxicos, sintácticos e léxicos” e “faino, de acordo coas directrices do Plan xeral de normalización lingüística, da man das tecnoloxías da información e da comunicación e do impulso aos recursos tecnolóxicos da lingua propia de Galicia”, destacou.
Acompañárono na presentación o coordinador científico do CRPIH, Manuel González; a directora do CORGA, Marisol López; o secretario da Real Academia Española e colaborador do CRPIH Guillermo Rojo, e os responsables da coordinación lingüística e informática do proxecto, os investigadores da Universidade de Santiago de Compostela (USC) Eva Domínguez e Mario Barcala, respectivamente.
Corpus de Referencia do Galego Actual
O CORGA é un corpus documental desenvolvido no CRPIH, por medio dun convenio de colaboración coa USC, e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción (novela, relato curto e teatro)- que abrangue temporalmente desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language). A amplitude de documentos que o configuran e os criterios empregados na súa selección, permiten considerar este corpus representativo do uso lingüístico do galego actual.
A nova versión ampliada –a versión 3.0, dispoñible na rede no enderezo http://corpus.cirp.es/corga- consta de case 36,8 millóns de palabras, das que algo máis de 570.000 son formas diferentes. Nela, unifícanse os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca e preséntase un motor de busca excepcionalmente potente que sitúa o galego na vangarda dos corpus lingüísticos.
Entre as numerosas novidades que achega destacan a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90, en cuxas transcricións se aliña o texto coa voz, de xeito que no sistema de recuperación de información a persoa usuaria ten, a maiores, a posibilidade de escoitar o fragmento de audio que corresponde ao contexto dos resultados obtidos. Porén, sen dúbida, a característica máis sobresaliente desta versión do corpus é a etiquetaxe automática da totalidade dos documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (XIADA), desenvolvido conxuntamente polo CIRP e polo grupo COLE das universidades da Coruña e Vigo.
O Centro Ramón Piñeiro
O CRPIH é un organismo dependente da Consellería de Cultura e Educación, por medio da Secretaría Xeral de Política Lingüística, que se ocupa de levar adiante e de difundir proxectos de investigación lingüística, literaria, histórica e antropolóxica centrados en Galicia. Actualmente, as súas liñas de traballo xiran arredor da lingüística aplicada, a literatura medieval, a recuperación de publicacións literarias ou a identidade colectiva desde un punto de vista antropolóxico.