Corpus

Guía paso a paso

Uso general de las herramientas de búsqueda.

Bienvenido a la herramienta de búsqueda del corpus CO.RA.PAN. La interfaz está diseñada para utilizarse sin conocimientos técnicos previos. En esta guía se describen las funciones disponibles en cada pestaña de búsqueda.

Consulta simple

La pestaña Consulta simple permite realizar búsquedas directas de palabras o secuencias. La consulta se introduce en el campo Consulta y puede combinarse con opciones adicionales de filtrado.

¿Cómo funciona?

  1. Introducir la forma o secuencia en el cuadro de texto (por ejemplo: casa).
  2. Seleccionar la opción correspondiente en el campo Forma/Lema:
    • Forma (primera mención): busca la forma escrita tal como se introduce.
    • Lema: recupera todas las variantes flexionadas asociadas al lema indicado.
  3. Aplicar filtros si es necesario. En la sección Filtros (primera mención) pueden seleccionarse País, Hablante, Sexo, Modo/registro y Discurso.
  4. En la sección Opciones (primera mención) pueden activarse las casillas «Incluir regiones» o «Ignorar acentos/mayúsculas».
  5. Para ejecutar la consulta, pulsar Buscar (primera mención). Para restablecer la configuración, utilizar el botón «Restablecer».

Modo avanzado (CQL)

La pestaña Modo avanzado (CQL) permite formular consultas estructuradas mediante el constructor de patrones o directamente con el lenguaje CQL. Este modo está orientado a la búsqueda de relaciones gramaticales y combinatorias.

El constructor de patrones

El apartado Búsquedas mediante el constructor CQL (primera mención) permite añadir bloques sucesivos mediante el botón Añadir token (primera mención). Cada bloque corresponde a una palabra de la secuencia y contiene los campos Campo, Tipo y Valor.

  • Por ejemplo, para buscar un artículo seguido de un sustantivo:
    1. Añadir un primer bloque y seleccionar en «Campo» la categoría correspondiente.
    2. Añadir un segundo bloque y seleccionar la categoría deseada.
    3. Ejecutar la consulta mediante el botón «Buscar».

Uso del editor CQL

El apartado Editor CQL (modo experto) (primera mención) permite introducir consultas CQL manualmente en el campo «Consulta CQL». El modo experto se activa mediante la casilla «Activar modo experto (editar CQL manualmente)». También se proporciona un enlace a una guía rápida para asistir en la redacción de consultas complejas.

Prompt sugerido para generar consultas CQL en CORAPAN (BlackLab)

Copie y pegue este prompt en el modelo de IA generativa y añada su descripción al final:

Actúa como generador de consultas CQL para un corpus de español hablado llamado CORAPAN, indexado en BlackLab.

El corpus está anotado con los siguientes atributos a nivel de token (dentro de corchetes `[...]` en CQL):

* `word`   → forma tal como aparece en la transcripción
* `norm`   → forma normalizada (por ejemplo, en minúsculas)
* `lemma`  → lema
* `pos`    → categoría gramatical (UD POS: `NOUN`, `VERB`, `ADJ`, `ADV`, `PRON`, `DET`, `ADP`, `SCONJ`, `CCONJ`, `PART`, `AUX`, etc.)
* `tense`  → tiempo verbal morfológico (por ejemplo: `"Pres"`, `"Past"`, `"Fut"`)
* `mood`   → modo verbal (por ejemplo: `"Ind"`, `"Subj"`, `"Imp"`)
* `person` → persona gramatical (`"1"`, `"2"`, `"3"`)
* `number` → número gramatical (`"Sing"`, `"Plur"`)
* `aspect` → aspecto verbal (si está presente)
* `PastType`   → subtipo de pasado, ya en inglés, derivado de reglas específicas del corpus. Valores posibles, si existen en el token:

  * `"simplePast"`
  * `"presentPerfect"`
  * `"pastPerfect"`
  * `"futurePerfect"`
  * `"conditionalPerfect"`
  * `"otherCompoundPast"`
  * `"otherPast"`
* `FutureType` → subtipo de futuro analítico (construcciones tipo *ir a + infinitivo*), también en inglés. Valores posibles, si existen en el token:

  * `"periphrasticFuture"` (ir a + INF con auxiliar en presente)
  * `"periphrasticFuturePast"` (ir a + INF con auxiliar en pasado, futuro en el pasado)
* `tokid`  → identificador único de cada token

Los campos `PastType` y `FutureType` **no** proceden directamente del etiquetador morfológico, sino que son clasificaciones derivadas a partir de la combinación de `tense`, `morph`, auxiliares y participios. Se consultan como cualquier otro atributo de token y se pueden combinar con `lemma`, `pos`, `tense`, etc.

Algunos ejemplos de uso:

* `[pos="VERB" & PastType="simplePast"]`
  → verbos en pretérito perfecto simple (pretérito indefinido).

* `[pos="VERB" & PastType="presentPerfect"]`
  → verbos en pretérito perfecto compuesto (*haber* + participio).

* `[pos="VERB" & PastType="pastPerfect"]`
  → verbos en pluscuamperfecto.

* `[pos="VERB" & FutureType="periphrasticFuture"]`
  → futuros perifrásticos del tipo *ir a + infinitivo* con auxiliar en presente.

* `[pos="VERB" & FutureType="periphrasticFuturePast"]`
  → futuros perifrásticos en el pasado (*iba a + infinitivo*, etc.).

* `[lemma="ir" & pos="VERB" & FutureType="periphrasticFuture"]`
  → formas de *ir* que participan en futuros perifrásticos.

Además, se pueden usar metadatos de documento/segmento con BlackLab (por ejemplo mediante `within`), como:

* `country_code` → código de país/variedad (por ejemplo `ARG`, `ESP`, `ARG-CBA`, `ESP-SEV`, etc.)
* `file_id`      → identificador de archivo
* `date`         → fecha de la grabación/transcripción
* `radio`        → indica si el texto procede o no de radio (según cómo esté codificado)
* `city`         → ciudad (si está disponible)
* `sentence_id`, `utterance_id` → identificadores de oración y enunciado

Su tarea:

1. Léame la descripción en lenguaje natural que le daré.

2. Genere **solo** una consulta CQL válida para BlackLab, sin explicaciones ni comentarios.

3. Use exclusivamente los atributos y metadatos listados arriba.

4. Represente las palabras y rasgos morfológicos con patrones como:

   * `[lemma="hablar"]`
   * `[pos="VERB" & tense="Pres" & person="1" & number="Sing"]`
   * `[pos="VERB" & PastType="simplePast"]` para un verbo en pretérito perfecto simple
   * `[pos="VERB" & PastType="presentPerfect"]` para un verbo en pretérito perfecto compuesto
   * `[pos="VERB" & FutureType="periphrasticFuture"]` para un futuro perifrástico del tipo *ir a + INF*
   * `[pos="ADJ"][pos="NOUN"]` para un adjetivo seguido de un sustantivo

5. Si se mencionan restricciones de variedad, origen o tipo de texto, expréselas con metadatos, por ejemplo:

   * `within <country_code="ARG"> [...]`
   * `within <radio="yes"> [...]`

   (ajuste el valor según la codificación real).

6. Use siempre comillas dobles `"..."` y la sintaxis CQL estándar de BlackLab.

7. Si la descripción es ambigua, elija la interpretación más común en lingüística hispánica, pero **no invente** atributos que no existan en la lista ni valores de `PastType` o `FutureType` que no hayan sido definidos.

Ahora convierta la siguiente descripción en una consulta CQL precisa para CORAPAN:

«[ESCRIBA AQUÍ SU DESCRIPCIÓN EN ESPAÑOL]»
        
        

Búsqueda por Token

La pestaña Token permite recuperar instancias específicas del corpus empleando un identificador único (Token-ID). Esta función es útil cuando se desea volver a consultar ejemplos concretos encontrados en búsquedas previas.

Para ello, basta con introducir uno o varios identificadores en el campo correspondiente, añadirlos mediante el botón «Añadir» y posteriormente seleccionar «Visualizar».

Resultados y estadísticas

Tras ejecutar una consulta, se muestran las pestañas Resultados (primera mención) y Estadísticas (primera mención).

  • Resultados: presenta una lista de fragmentos donde aparece la coincidencia buscada. Puede consultarse el contexto, reproducir el audio original y visualizar la información sociolingüística correspondiente.
  • Estadísticas: ofrece gráficos que muestran la distribución de los resultados según los metadatos disponibles. Los datos pueden descargarse en formato CSV.