Descripción del proyecto
EL PROYECTO AQUI PRESENTADO, CREACION DE UN CORPUS HISTORICO ANOTADO SINTACTICAMENTE PARE EL EUSKERA (SAHCOBA) TIENE COMO OBJETIVO PRINCIPAL CREAR HERRAMIENTAS BASICAS DE PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) PARA AYUDAR A LOS INVESTIGADORES EN EL CAMPO DE LA LINGUISTICA DIACRONICA Y MAS CONCRETAMENTE DE LA SINTAXIS DIACRONICA, EN LO QUE RESPECTA A LA METODOLOGIA A SEGUIR EN EL PROYECTO, HEMOS PLANTEADO UNOS PASOS A SEGUIR PARA ALCANZAR EL OBJETIVO PRINCIPAL DEL PROYECTO, LA CREACION DE UN CORPUS HISTORICO DE TEXTOS VASCOS ANOTADO SINTACTICAMENTE, PRIMERO, RECOPILAREMOS UN CORPUS CON TEXTOS HISTORICOS QUE IRAN DESDE EL XV HASTA LA PRIMERA MITAD DEL SIGLO XX, A CONTINUACION, ANOTAREMOS MANUALMENTE PARTE DE ESE CORPUS PARA ASIGNAR A CADA PALABRA ANTIGUA SU CORRESPONDIENTE EN LENGUA ESTANDAR, LO QUE SE CONOCE COMO NORMALIZACION DEL TEXTO, BASANDONOS EN LA ANOTACION MANUAL Y ULIZANDO DIVERSAS TECNICAS COMPUTACIONALES Y DE APRENDIZAJE AUTOMATICO, NORMALIZAREMOS EL RESTO DEL CORPUS DE FORMA AUTOMATICA, UNA VEZ CONCLUIDO EL TRABAJO DE NORMALIZACION, ANOTAREMOS EL CORPUS MORFOSINTACTICAMENTE CON LA AYUDA DE LAS HERRAMIENTAS DE PLN DESARROLLADAS POR EL GRUPO IXA, POR ULTIMO, TODO EL CORPUS Y LAS ESTRUCTURAS SINTACTICAS ANOTADAS PODRAN SER CONSULTADAS GRACIAS A LA INTERFAZ DE BUSQUEDA QUE CREAREMOS A TAL EFECTO, ASI PUES LOS PRODUCTOS PRINCIPALES DE ESTE PROYECTO SERAN DOS, POR UN LADO, UN CORPUS ANOTADO, DISPONIBLE ONLINE Y DE LIBRE ACCESO, DE TEXTOS VASCOS HISTORICOS COMPRENDIDOS ENTRE EL SIGLO XV Y LA PRIMERA MITAD DEL SIGLO XX, MOMENTO EN EL QUE SE COMENZO EL PROCESO DE ESTANDARIZACION DE LA LENGUA, EL CORPUS CONSTARA DE ALREDEDOR DE 12 MILLONES DE PALABRAS CATEGORIZADAS CON RESPECTO AL PERIODO HISTORICO, DIALECTO, GENERO LITERARIO Y CONTEXTO SOCIOLINGUISTICO, EL CORPUS ESTARA ANOTADO MORFOSINTACTICAMENTE LO QUE HARA POSIBLE LA BUSQUEDA DIRECTA DE DIFERENTES ESTRUCTURAS SINTACTICAS, POR OTRO LADO, DISPONDREMOS DE UNA INTERFAZ ONLINE DE BUSQUEDA GRAMATICAL PARA PERMITIR A LOS LINGUISTAS BUSCAR LOS FENOMENOS SINTACTICOS DE SU INTERES Y ESTUDIARLOS DE MANERA DIACRONICA, HUMANIDADES DIGITALES\CORPUS HISTÓRICO\PROCESAMIENTO DEL LENGUAJE NATURAL (PLN)\SINTAXIS DIACRÓNICA