Antecedentes
En 1991 el Dr. Thomas Smith Stark (1948-2009), renombrado lingüista del
Centro de Estudios Lingüísticos y Literarios (cell)
de El Colegio de México,
comenzó un proyecto de digitalización del
Vocabvlario en lengva çapoteca (1578) de fray Juan de Córdova. El objetivo
era "la producción de una edición tipográfica anotada y en limpio del
diccionario y de una forma electrónica del mismo que permite hacer búsquedas inteligentes a partir del
español o del zapoteco". Para ello, Smith Stark y dos colaboradores, Sergio Bogard y
Ausencia López Cruz, transcribieron en dos años los 430 folios (860 páginas)
del Vocabvlario en el procesador de textos ms-word™.
En el siguiente ejemplo se puede apreciar la magnitud del trabajo, analizando la estructura que manejaron Smith y su equipo:
Como se puede ver, cada línea comienza con una "etiqueta" que define el carácter de la línea. Durante la transcripción, el equipo introdujo hasta 32 diferentes para, así, poder identificar la información tan variada proporcionada por Córdova. Dentro de las entradas y atestaciones se introdujeron, además, 20 marcadores y signos para resaltar, por ejemplo, préstamos del español o náhuatl, palabras en latín, abreviaciones, etc. El resultado fue que existieran entradas como las que se muestran:
La segunda fase del proyecto consistió en la revisión y corrección de la transcripción (esta fase nunca fue terminada, probablemente por la enorme magnitud del proyecto). En este momento también se comenzaron a introducir ciertas anotaciones, como se puede ver en la siguiente entrada:
En este caso se incluyeron las divisiones morfológicas en las atestaciones en zapoteco, lo que significó
un considerable avance para el entendimiento de las palabras zapotecas. Sin embargo, sólo se pudo aplicar este tipo
de análisis a una parte muy reducida del vasto diccionario.
En 2004, Michel R. Oudijk, investigador del Seminario de Lenguas Indígenas del
Instituto de Investigaciones Filológicas de la
UNAM, comenzó a trabajar con Thomas Smith en diversos estudios del
zapoteco colonial. Para las traducciones y análisis de los textos escritos en zapoteco el uso del Vocabvlario,
en su forma transcrita, era fundamental. Sin embargo, observó que todas las etiquetas, marcadores y signos que se
habían introducido en las entradas, así como los diacríticos que habían transcrito del texto original,
representaron un problema para las búsquedas.
Debido a lo anterior, Oudijk eliminó todos los marcadores, etiquetas y signos, de tal manera que quedara un archivo en el cual fuera mucho
más fácil hacer búsquedas. Un ejemplo de entrada "limpia" es:
Durante muchos años, los miembros del Seminario del Zapoteco Colonial, dirigido por Smith Stark, utilizaron este archivo. Los problemas que se presentaban eran diversos y no se podían resolver debido al formato en el que estaba el archivo (ms-word™) y a la enorme cantidad de información contenida en él (28,449 entradas en español). Para hacer uso del archivo y buscar en su contenido, se necesitaba un conocimiento muy amplio del zapoteco. Por ejemplo, la entrada del caso arriba mostrado proporciona cuatro atestaciones en zapoteco para "abatir derribando", pero, en verdad, estas atestaciones no están completas. Lo que Córdova quiso realmente decir fue lo siguiente:
Con la experiencia y el ejercicio se aprende que quetaya no significa "abatir derribando", sino que le falta el
verbo toçapi. De hecho, queta o quete significa
"abajo" o "hacia abajo", pero
se tiene que juntar con el verbo çapi, que significa "echar de arriba abajo" para, literalmente,
decir "echar hacia abajo" o "abatir derribando". Este tipo de análisis es necesario con la gran mayoría
de las entradas, lo que hacía demasiado difícil el uso del Vocabvlario como estaba.
El 17 de mayo de 2009 falleció el gran maestro Thomas Smith Stark. Su marcha no
sólo fue una terrible pérdida para los que le conocían y trabajaban con él, sino que también fue el motivo por el
que el proyecto del Vocabvlario llegó a su fin, debido a que no había nadie que pudiera encargarse de un proyecto tan
inmenso en ese momento.
A finales de 2011, Michel R. Oudijk decidió seguir los pasos de Smith Stark y continuar el objetivo principal del proyecto:
"la producción de una edición tipográfica anotada y en limpio del diccionario y de una forma
electrónica del mismo que permita hacer búsquedas inteligentes a partir del español o del zapoteco".
Para alcanzar esta meta, lo primero que se tenía que hacer era cambiar el formato de un archivo creado en un procesador de textos
(ms-word™) a una base formal de datos, para lo cual se incorporó al proyecto el
Ing. Gerardo Iván Miceli León, técnico académico del mismo Instituto de Investigaciones Filológicas.
En febrero de 2012, tras una cantidad enorme de problemas que se fueron presentando en el proceso,
ambos lograron convertir el archivo en una base de datos. En ese momento, en un formato de ms-access™,
para después exportarlo a una base de datos mysql™ (formato en el que se encuentra actualmente).
La conversión del archivo de un formato de procesador de textos (ms-word™) a uno de base de
datos (ms-access™) causó un auténtico caos en los datos. La razón principal fue,
simplemente, que para hacer una conversión de esta naturaleza, era necesario que los datos y las relaciones entre ellos fueran regulares,
ya que cada desviación de esta regularidad daba como resultado problemas en la conversión e incongruencias entre los campos.
Como es de suponerse, en la transcripción de un manuscrito óriginal de 860 páginas, realizada
por varias personas, existan muchas desviaciones de esa regularidad. La única manera de resolver este problema era revisar
las 28,449 entradas y quitar manualmente esas desviaciones. Este trabajo duró hasta septiembre de
2012. El resultado fue tener los registros como se muestra a continuación:
esp_zap |
|||
---|---|---|---|
ESPANYOL |
COMENTARIOS_ESP |
ZAP |
ZAP_COMP |
Abatir derribando. |
/rem/ vide derribar. |
tilite. {[ve]l.} tilicequetaya, /cmp/ coli. |
{[ve]l.} tilìte. {[ve]l.} tilìcequetaya, /cmp/ coli. |
Abatir derribando. |
/rem/ vide derribar. |
Toçapiquetea. {[ve]l.} quetaya {[ve]l.} |
Toçàpiquètea.{[ve]l.} quètaya |
Con este tipo de entradas persiste el problema arriba mostrado: que sólo especialistas del zapoteco pueden utilizar el Vocabvlario. El siguiente paso fue, entonces, generar las atestaciones zapotecas reales, lo que significaba repasar las 28,449 entradas y analizar las atestaciones relacionadas para generar las que realmente fueron indicadas por Córdova. Como arriba vimos, para "abatir derribando", este proceso da lugar a 4 atestaciones zapotecas:
esp_zap |
||||
---|---|---|---|---|
ESPANYOL |
COMENTARIOS_ESP |
ZAP |
ZAP_COMP |
COMENTARIOS_ZAP |
Abatir derribando. |
/rem/ vide derribar. |
tilitequetaya. |
{[ve]l.} tilìte[-quetaya]. |
{[ve]l.} |
Abatir derribando. |
/rem/ vide derribar. |
Toçapiquetea. |
Toçàpiquètea. |
|
Abatir derribando. |
/rem/ vide derribar. |
tilicequetaya, |
{[ve]l.} tilìcequetaya, /cmp/ coli. |
{[ve]l.} /cmp/ coli. |
Abatir derribando. |
/rem/ vide derribar. |
toçapiquetaya |
{[ve]l.} [toçàpi-]quètaya |
{[ve]l.} |
Ahora tenemos la primera columna para la entrada del español y la segunda para los comentarios que Córdova hizo sobre esta entrada. La tercera columna representa las atestaciones sin acentos ni divisiones, etiquetas o marcadores, y es la que se utiliza para la búsqueda. En la siguiente columna encontramos las mismas atestaciones, pero ahora se indica qué parte está realmente en el Vocabvlario y qué parte fue añadida después del análisis. La última columna contiene comentarios a las atestaciones de Córdova, por parte del equipo de Smith Stark o de Oudijk.
El siguiente paso fue diseñar y desarrollar la presente página web, haciendo uso de tecnologías como html™, css™, php™ y mysql™, lo que permite realizar consultas a la base de datos desde cualquier parte del mundo y aprovechar todas las ventajas que ofrece:
Se pueden hacer búsquedas en español:
Con lo que el sistema arroja las atestaciones en zapoteco:
Al estar ahora en una estructura de base de datos, también es posible hacer búsquedas en la base del zapoteco para encontrar campos semánticos de ciertas palabras. Por ejemplo, buscando una de las atestaciones de "abatir derribando":
El sistema proporciona lo siguiente:
D.R. ® 2015. Hecho en México, todos los derechos reservados. Esta página puede ser reproducida con fines no lucrativos,
siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica.
De otra forma requiere permiso previo por escrito de la institución.
Sitio web administrado por el Instituto de Investigaciones Filológicas,
UNAM.
Circuito Mario de la Cueva, Ciudad Universitaria, Delegación Coyoacán, 04510 Ciudad de México.
Responsable del proyecto: Dr. Michel Oudijk
Desarrollo y diseño web: Ing. Iván Miceli
Diseño gráfico:Fernanda Cárdenas