Segmentos textuales... y más
Vimos en la [entrada precedente] que podemos identificar en un texto-base diferentes textos o segmentos textuales, y que identificarlos y delimitarlos es uno de los primeros pasos que debemos dar para componer un texto. Así quedó de manifiesto [en la entrada] que inicia la ejemplificación de esta alternativa de automatización. Sin embargo, en este mismo documento podemos advertir ciertas "irregularidades" respecto a la teoría que es necesario explicar. Este es el objetivo de esta entrada.
El desarrollo de la primera fase de este procedimiento consiste, efectivamente, en adaptar el texto-base, identificar los segmentos textuales en que se divide y marcarlos. Estos dos últimos pasos se realizan en función de ciertas categorías definidas a nivel teórico, pero contrastadas empíricamente. Es de estas cuestiones trataremos en esta entrada que está a caballo de las dos que indiqué al inicio. La actual preceder a la que en [Textos. Procedimientos] sigue a [la que trata sobre el texto-base ].
En función de su naturaleza podemos diferenciar cuatro tipos de segmentos de texto, los cuales, a su vez, se pueden clasificar en dos: segmentos de texto invariable y segmentos de texto variable.
La primera de estas categorías coincide con uno de los tipos de segmento textual, aquel que identificamos como texto fijo (tf) y definimos como segmento de texto que no varía aunque varíen otros contenidos del documento. Es por ello puede ser empleado sin modificaciones en las diferentes concreciones del documento. Además, seré el tipo de contenido al que trataremos de reducir el resto de los textos siempre que nos sea posible, aplicando el principio de simplificación.
La segunda categoría se caracteriza por variar de una a otra ejecución del documento, motivo por el que se identifica como variable. No obstante cabe diferenciar al menos tres tipos de variables (1) dentro de la segunda categoría:
- Variable que depende de los datos que aporta el informante, por lo que podemos considerar este texto como segmento vi (variable input)
- Variable determinada por la gramatical o derivada de la concordancia gramatical de género (2), de número o de verbo. Todas caben dentro del epígrafe de variable gramaticalmente condicionada o vg.
- Y el tercer tipo, posiblemente el más complejo (3), es el que definiré como variable causalmente condicionada o vc.
Aunque esta categorización de los segmentos textuales es actualmente satisfactoria, su uso en la práctica revela una primera limitación: no tiene en cuenta los signos de puntuación ni los saltos de línea, siendo ambos parte significativamente importante de la forma visual en que se presenta un texto escrito.
La identificación de los saltos de línea es una forma de invertir el proceso de eliminación de tales que realizamos al preparar el texto y tiene una relativamente sencilla y triple solución:
- Identificamos el salto de línea con dos marcadores seguidos (##). El primero indica el fin del segmento precedente y el segundo que existe un espacio vacío no perceptible visualmente en el texto transformado pero sí en el original (en éste se mostraba como salto de línea)
- Usamos sl como identificador: salto de línea
- En la reconstrucción del texto haremos equivaler sl a (Chr(13) & Chr(13)) concatenadas con los segmentos precedente y posterior, lo que produce un doble salto de línea, reconstruyendo así el salto de línea y el espacio interlineal del texto original.
- Cuando se encuentran dentro de un segmento tf simplemente forman parte de él y como tales se reproducen.
- Cuando se encuentran al final de un segmento tf también les aplicamos el mismo tratamiento (forman parte del tf, en este caso como su límite final), pero en la concatenación de un segundo segmento con el anterior se requiere implementar un espacio en blanco, que es el que separa el término que precede al signo de puntuación del que sigue a éste, según procedemos en la escritura ordinaria.
- Cuando el signo de puntuación sigue a un segmento variable, no podemos identificarlo como parte de dicho segmento, ya que estos es conveniente tratarlos de forma específica, exentos de signos de puntuación. En este caso caben dos posibilidades:
- Que al segmento variable le siga un tf. En este caso el signo de puntuación puede considerarse como parte del tf o sea tratado de forma independiente. Habrá que comprobar empíricamente cual de los dos tratamientos es el más sencillo de procesar, ya que requieren soluciones diferentes para reconstruir el texto (4).
- Que el signo de puntuación separe dos segmentos variables. En este caso el signo de puntuación debe ser identificado como segmento propiamente dicho, por lo que queda identificado visualmente como (vg #.#) (5)
- O que el signo de puntuación sea un punto y aparte y siga a un segmento variable. En este caso (#.##) también el signo se identifica como segmento (6).
Cuando un signo de puntuación se identifique como segmento lo haremos con la categorización (sp).
Podemos ver que los aspectos formales relativos al uso de los signos de puntuación añaden una complejidad no prevista en función de la identificación de segmentos textuales. Tratarlos como tf nos sirve para simplificar su categorización, pero dificulta su posterior tratamiento, por lo que es necesario identificarlos específicamente (sl y sp), lo que permite darles un tratamiento apropiado en el momento de la recomposición de los segmentos en texto (7).
NOTAS
(1) Sin que sea posible en este momento descartar la existencia de alguna otra que ahora, desde un planteamiento empírico, no nos es posible identificar.
(2) Las más frecuentes en determinados documentos como es el caso de los informes y de la mayoría de los documentos que crean los SEO.
(3) Motivo por lo que es posible que en el futuro sea conveniente realizar algún tipo de subdivisión.
(4) En el primer caso la concatenación del segmento variable con este segmento tf se hará directamente; en el segundo deberemos tratarlo del mismo modo que se explica en 5.
(5) En este caso, el segmento precedente se concatena directamente con el que le precede, pero deberá estar sucedido por un espacio en blanco respecto al segmento que le sigue.
(6) Ahora el segmento precedente se concatena como 5 y le sigue doble función Chr(13)
(7) En su momento bordaré este subproceso específicamente, a nivel teórico y a nivel práctico.

No hay comentarios:
Publicar un comentario
Comenta esta entrada