Inicio Acerca del Proyecto El Vocabvlario
Español - Zapoteco  ♦   Zapoteco - Español

Antecedentes

En 1991 el Dr. Thomas Smith Stark (1948-2009), renombrado lingüista del Centro de Estudios Lingüísticos y Literarios (cell) de El Colegio de México, comenzó un proyecto de digitalización del Vocabvlario en lengva çapoteca (1578) de fray Juan de Córdova. El objetivo era "la producción de una edición tipográfica anotada y en limpio del diccionario y de una forma electrónica del mismo que permite hacer búsquedas inteligentes a partir del español o del zapoteco". Para ello, Smith Stark y dos colaboradores, Sergio Bogard y Ausencia López Cruz, transcribieron en dos años los 430 folios (860 páginas) del Vocabvlario en el procesador de textos ms-word™.

En el siguiente ejemplo se puede apreciar la magnitud del trabajo, analizando la estructura que manejaron Smith y su equipo:

ent> esp> Abatir derribando.
r> vide *derribar.
zap> Toçàpiquètea. {l.} quètaya {l.} tilì|te. {l.} tilìcequetaya,
cv> coli.

Como se puede ver, cada línea comienza con una "etiqueta" que define el carácter de la línea. Durante la transcripción, el equipo introdujo hasta 32 diferentes para, así, poder identificar la información tan variada proporcionada por Córdova. Dentro de las entradas y atestaciones se introdujeron, además, 20 marcadores y signos para resaltar, por ejemplo, préstamos del español o náhuatl, palabras en latín, abreviaciones, etc. El resultado fue que existieran entradas como las que se muestran:

ent> esp> Manacion assi. [[*hazer otra cosa]]
zap> Quela huecòcil#làni niça.
ent> esp> Manar en *pozo *poquito à$poquito.
zap> Titàa nìça, prt> pitàa.

La segunda fase del proyecto consistió en la revisión y corrección de la transcripción (esta fase nunca fue terminada, probablemente por la enorme magnitud del proyecto). En este momento también se comenzaron a introducir ciertas anotaciones, como se puede ver en la siguiente entrada:

ent> esp> Agradar yo a otro, o *complazerle.
r> vide *hazer *plazer.
zap> T+òni-que+zàca÷ya lachilo,
cv> to+co+zàca làchi÷a.

En este caso se incluyeron las divisiones morfológicas en las atestaciones en zapoteco, lo que significó un considerable avance para el entendimiento de las palabras zapotecas. Sin embargo, sólo se pudo aplicar este tipo de análisis a una parte muy reducida del vasto diccionario.

En 2004, Michel R. Oudijk, investigador del Seminario de Lenguas Indígenas del Instituto de Investigaciones Filológicas de la UNAM, comenzó a trabajar con Thomas Smith en diversos estudios del zapoteco colonial. Para las traducciones y análisis de los textos escritos en zapoteco el uso del Vocabvlario, en su forma transcrita, era fundamental. Sin embargo, observó que todas las etiquetas, marcadores y signos que se habían introducido en las entradas, así como los diacríticos que habían transcrito del texto original, representaron un problema para las búsquedas.

Debido a lo anterior, Oudijk eliminó todos los marcadores, etiquetas y signos, de tal manera que quedara un archivo en el cual fuera mucho más fácil hacer búsquedas. Un ejemplo de entrada "limpia" es:

ent> 2> Abatir derribando.
r> vide derribar.
1>Toçapiquetea. {l.} quetaya {l.} tilite. {l.} tilicequetaya,
cv> coli.

Durante muchos años, los miembros del Seminario del Zapoteco Colonial, dirigido por Smith Stark, utilizaron este archivo. Los problemas que se presentaban eran diversos y no se podían resolver debido al formato en el que estaba el archivo (ms-word™) y a la enorme cantidad de información contenida en él (28,449 entradas en español). Para hacer uso del archivo y buscar en su contenido, se necesitaba un conocimiento muy amplio del zapoteco. Por ejemplo, la entrada del caso arriba mostrado proporciona cuatro atestaciones en zapoteco para "abatir derribando", pero, en verdad, estas atestaciones no están completas. Lo que Córdova quiso realmente decir fue lo siguiente:

ent> Abatir derribando.
vide derribar.
Toçapiquetea, o toçapiquetaya, o tilitequetaya, o tilicequetaya, /cmp/
coli.

Con la experiencia y el ejercicio se aprende que quetaya no significa "abatir derribando", sino que le falta el verbo toçapi. De hecho, queta o quete significa "abajo" o "hacia abajo", pero se tiene que juntar con el verbo çapi, que significa "echar de arriba abajo" para, literalmente, decir "echar hacia abajo" o "abatir derribando". Este tipo de análisis es necesario con la gran mayoría de las entradas, lo que hacía demasiado difícil el uso del Vocabvlario como estaba.

El 17 de mayo de 2009 falleció el gran maestro Thomas Smith Stark. Su marcha no sólo fue una terrible pérdida para los que le conocían y trabajaban con él, sino que también fue el motivo por el que el proyecto del Vocabvlario llegó a su fin, debido a que no había nadie que pudiera encargarse de un proyecto tan inmenso en ese momento.


A finales de 2011, Michel R. Oudijk decidió seguir los pasos de Smith Stark y continuar el objetivo principal del proyecto: "la producción de una edición tipográfica anotada y en limpio del diccionario y de una forma electrónica del mismo que permita hacer búsquedas inteligentes a partir del español o del zapoteco". Para alcanzar esta meta, lo primero que se tenía que hacer era cambiar el formato de un archivo creado en un procesador de textos (ms-word™) a una base formal de datos, para lo cual se incorporó al proyecto el Ing. Gerardo Iván Miceli León, técnico académico del mismo Instituto de Investigaciones Filológicas. En febrero de 2012, tras una cantidad enorme de problemas que se fueron presentando en el proceso, ambos lograron convertir el archivo en una base de datos. En ese momento, en un formato de ms-access™, para después exportarlo a una base de datos mysql™ (formato en el que se encuentra actualmente).

La conversión del archivo de un formato de procesador de textos (ms-word™) a uno de base de datos (ms-access™) causó un auténtico caos en los datos. La razón principal fue, simplemente, que para hacer una conversión de esta naturaleza, era necesario que los datos y las relaciones entre ellos fueran regulares, ya que cada desviación de esta regularidad daba como resultado problemas en la conversión e incongruencias entre los campos. Como es de suponerse, en la transcripción de un manuscrito óriginal de 860 páginas, realizada por varias personas, existan muchas desviaciones de esa regularidad. La única manera de resolver este problema era revisar las 28,449 entradas y quitar manualmente esas desviaciones. Este trabajo duró hasta septiembre de 2012. El resultado fue tener los registros como se muestra a continuación:

esp_zap

ESPANYOL

COMENTARIOS_ESP

ZAP

ZAP_COMP

Abatir derribando.

/rem/ vide derribar.

tilite. {[ve]l.} tilicequetaya, /cmp/ coli.

{[ve]l.} tilìte. {[ve]l.} tilìcequetaya, /cmp/ coli.

Abatir derribando.

/rem/ vide derribar.

Toçapiquetea. {[ve]l.} quetaya {[ve]l.}

Toçàpiquètea.{[ve]l.} quètaya

Con este tipo de entradas persiste el problema arriba mostrado: que sólo especialistas del zapoteco pueden utilizar el Vocabvlario. El siguiente paso fue, entonces, generar las atestaciones zapotecas reales, lo que significaba repasar las 28,449 entradas y analizar las atestaciones relacionadas para generar las que realmente fueron indicadas por Córdova. Como arriba vimos, para "abatir derribando", este proceso da lugar a 4 atestaciones zapotecas:

esp_zap

ESPANYOL

COMENTARIOS_ESP

ZAP

ZAP_COMP

COMENTARIOS_ZAP

Abatir derribando.

/rem/ vide derribar.

tilitequetaya.

{[ve]l.} tilìte[-quetaya].

{[ve]l.}

Abatir derribando.

/rem/ vide derribar.

Toçapiquetea.

Toçàpiquètea.

Abatir derribando.

/rem/ vide derribar.

tilicequetaya,

{[ve]l.} tilìcequetaya, /cmp/ coli.

{[ve]l.} /cmp/ coli.

Abatir derribando.

/rem/ vide derribar.

toçapiquetaya

{[ve]l.} [toçàpi-]quètaya

{[ve]l.}

Ahora tenemos la primera columna para la entrada del español y la segunda para los comentarios que Córdova hizo sobre esta entrada. La tercera columna representa las atestaciones sin acentos ni divisiones, etiquetas o marcadores, y es la que se utiliza para la búsqueda. En la siguiente columna encontramos las mismas atestaciones, pero ahora se indica qué parte está realmente en el Vocabvlario y qué parte fue añadida después del análisis. La última columna contiene comentarios a las atestaciones de Córdova, por parte del equipo de Smith Stark o de Oudijk.


El siguiente paso fue diseñar y desarrollar la presente página web, haciendo uso de tecnologías como html™, css™, php™ y mysql™, lo que permite realizar consultas a la base de datos desde cualquier parte del mundo y aprovechar todas las ventajas que ofrece:

portada de la página web

Se pueden hacer búsquedas en español:

Ejemplo de búsqueda en español

Con lo que el sistema arroja las atestaciones en zapoteco:

Ejemplo de resultados de la búsqueda en español

Al estar ahora en una estructura de base de datos, también es posible hacer búsquedas en la base del zapoteco para encontrar campos semánticos de ciertas palabras. Por ejemplo, buscando una de las atestaciones de "abatir derribando":

Ejemplo de búsqueda en zapoteco

El sistema proporciona lo siguiente:

Ejemplo de resultados de la búsqueda en xapoteco