Skip to content

Frases con licenza libre (CC0) en galego, recollidas polo Proxecto Nós co fin de alimentar o corpus textual de Mozilla Common Voice. / Copyright-free (CC0) sentences in Galician, collected by Proxecto Nós in order to contribute to the text corpus of Mozilla Common Voice.

Notifications You must be signed in to change notification settings

proxectonos/nos_gl_CC0

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

133 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

English text here

nos_gl_CC0

868.294 frases con licenza libre (CC0) en galego, recollidas polo Proxecto Nós co fin de alimentar o corpus textual de Mozilla Common Voice.

As frases foron cedidas á Universidade de Santiago de Compostela por diferentes institucións públicas ou privadas, ás que agradecemos a colaboración.

Sobre este material, dentro do marco do Proxecto Nós, levouse a cabo unha serie de transformacións: segmentación das frases orixinais, filtrado pola lonxitude e, no seu caso, adaptación para cumprir cos requisitos de Common Voice (normalización de números, abreviacións e siglas, eliminación de palabras estranxeiras, adecuación de contido, corrección gramatical etc.).

Para o preprocesamento e procesamento dos corpus empregáronse os scripts dispoñibles aquí, xunto coa ferramenta Sentence Extractor.

Os corpus resultantes, publicados aquí de forma libre de dereitos, son os seguintes:

CORPUS PG

166.229 frases extraídas das transcricions dos debates do Parlamento de Galicia durante un periodo de 7 anos (2015-2022). O material orixinal e de acceso público e permite a reproduccion autorizada sempre que se cite a fonte. Ademais das transformacións mencionadas máis arriba, os nomes propios presentes neste corpus foron anonimizados.

CORPUS CRTVG

166.951 frases extraídas dos guións dos programas de informativos diarios da Televisión de Galicia (TVG) entre os anos 2019-2022.

CORPUS NÓS DIARIO (SERMOS GALIZA)

140.104 frases extraídas dos números do periódico Nós Diario publicados entre os anos 2012-2022.

CORPUS PRAZA.GAL

89.688 frases extraídas dos números do periódico Praza.gal publicados entre os anos 2012-2022.

CORPUS CV_GL_2025

Corpus formado por 305.322 frases recollidas polo Proxecto Nós de diversas fontes polo que está integrado, á súa vez, por diferentes subconxuntos.

Corpus Mix Media

Máis de 190.000 frases extraídas de publicacións cedidas ao Proxecto Nós da Universidade de Santiago de Compostela mediante acordos de cesión de datos:

Corpus Diario Dixital Que pasa na costa

Subcorpus formado por 86.652 frases extraídas dos números de publicacións do Diario Dixital da Costa da Morte Quepasanacosta.

Corpus DRAG

Subconxunto de 28.051 frases extraídas das definicións dos termos publicados no Dicionario da Real Academia Galega (DRAG).

Outros recursos

No marco do Proxecto ILENIA, o Proxecto Nós tamén participou na creación do dataset multilingüe Escagleu que se pode consultar aquí.

Financiación e agradecementos

Este conxunto de datos produciuse no marco do Proxecto Nós, financiado polo Ministerio para a Transformación Dixital e da Función Pública e polo Plan de Recuperación, Transformación e Resiliencia – Financiado pola Unión Europea – NextGenerationEU, dentro do marco do Proxecto Ilenia con referencia 2022/TL22/00215336. Tamén recibiu apoio desde o programa Investigo (PRTR - NextGenerationEU).

Agradecemos a amabilidade de todos os provedores de datos citados máis arriba en proporcionar os datos orixinais.

Citar este dataset

Se usas este dataset, cítanos como se indica a continuación: Adina Ioana Vladu, Noelia García Díaz, Daniel Fernández López, Marta Vázquez Abuín, Patricia Ramos Maceiras, María Janeiro Cerqueiro, Cristian Canosa Pérez, José Javier Francisco Marini, Elisa Fernández Rei (2024). nos_gl_CC0

URL: (https://github.com/proxectonos/nos_gl_CC0)

About

Frases con licenza libre (CC0) en galego, recollidas polo Proxecto Nós co fin de alimentar o corpus textual de Mozilla Common Voice. / Copyright-free (CC0) sentences in Galician, collected by Proxecto Nós in order to contribute to the text corpus of Mozilla Common Voice.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •