lunes, 8 de junio de 2026

DATOS. Tratamiento de datos

Datos no estructurados (V)

Reconocimiento de entidades (NER) (II)

Finalizamos la entrada anterior dejando planteadas las limitaciones del NER mediante SpaCy, pero habiendo indicado que existen formas de mejora. En esta entrada trataremos sobre estas formas, empezando por una visión de conjunto (1), en la que destacaremos los pros y los contras de cada opción.

1. Enfoque Heurístico. Reglas y diccionarios.

Descripción Se basa en listas de palabras (lexicones) y plantillas rígidas (expresiones regulares o RegEx). Por ejemplo, si el texto dice "D./Dña. (palabra en mayúscula]", el sistema asume que es una persona (PER).

  • Fortaleza: Es 100% predecible y controlable. Si diseñas una regla para capturar fechas con el patrón DD/MM/AAAA, las capturará con precisión matemática. Consume recursos mínimos (milisegundos de CPU).
  • Debilidad: Es extremadamente rígido y ciego al contexto. Si un informe dice "Se derivó al centro Santiago", la regla no sabe si "Santiago" es el psicólogo, la ciudad o el nombre del colegio. Además, mantener miles de reglas manuales es inmanejable.

Esta primera alternativa se encuadra dentro del modelo de la IA basada en reglas. La arquitectura del sistema consiste en posicionar un conjunto de procedimientos deterministas —basados en diccionarios o reglas de expresiones regulares RegEx— al inicio del pipeline (2), justo antes de dar paso al procedimiento probabilístico de la librería SpaCy. De este modo, se aprovecha la ventaja fundamental de ésta: la seguridad y control absoluto sobre el resultado en estructuras predecibles (como fechas o códigos de centros). Sin embargo, presenta como limitación crítica una elevada rigidez, que vuelve al sistema ciego ante el contexto lingüístico, la polisemia o las variaciones narrativas.

2. Machine Learning Clásico. Enfoque estadístico/discriminativo (CRF)

Descripción En lugar de escribir reglas "a mano", se le dan al algoritmo cientos, miles de ejemplos ya etiquetados por humanos. Modelos como los CRF (Conditional Random Fields) calculan la probabilidad de que una palabra sea una entidad basándose en las características de la palabra misma y de sus vecinas (si está en mayúsculas, si va detrás de un verbo, etc.).

  • Fortaleza Alta capacidad de generalizar. Empieza a entender el contexto probabilístico de las frases.
  • Debilidad Requiere "ingeniería de atributos" manual (indicarle explícitamente al algoritmo en qué fijarse) y sufre enormemente con la polisemia y las estructuras sintácticas complejas.

Esta segunda alternativa se encuadra dentro del modelo del Machine Learning clásico supervisado, situándose históricamente en la transición de la IA simbólica hacia los modelos probabilísticos autónomos. La arquitectura del sistema consiste en sustituir las reglas rígidas por un algoritmo estadístico —los ya indicados Campos Aleatorios Condicionales (CRF)— que se entrena localmente alimentándolo con un corpus masivo de textos (por ejemplo, documentos o informes elbarados por el SEO, previamente etiquetados a mano por expertos bajo el estándar conceptual BIO (3).
De este modo, se aprovecha su ventaja fundamental: la capacidad de generalización estadística y un consumo de recursos tan ínfimo que permite una ejecución 100% local y confidencial en hardware de oficina básico (sin GPU). Sin embargo, asume como limitación crítica una altísima dependencia del trabajo humano previo, exigiendo el tedioso etiquetado de miles de ejemplos y el diseño manual de atributos lingüísticos (feature engineering), además de mostrarse vulnerable ante la polisemia y las estructuras sintácticas complejas.

3. Modelo Deep Learning clásico o discriminativo. Modelos de Lenguaje tipo BERT

Descripción Entramos en la era de las redes neuronales profundas. El texto se transforma en vectores matemáticos complejos (embeddings) que capturan el significado semántico profundo de las palabras. Modelos como BERT o RoBERTa leen la frase entera (hacia delante y hacia atrás) para clasificar cada palabra (token classification).

  • Fortaleza Su comprensión del contexto es extraordinaria. Sabe perfectamente cuándo "Santiago" es un lugar, una persona o una institución analizando el tono y la estructura de la frase. Es un modelo discriminativo (no inventa, solo etiqueta).
  • Debilidad El modelo base viene entrenado con textos generales (prensa, Wikipedia). Si se enfrenta al lenguaje técnico, administrativo y complejo (por ejemplo, el de un informe de orientación), comete errores de bulto (lo mismo que te ocurre a spaCy estándar), obligándo a realizar un fine-tuning (4).

Esta tercera alternativa se encuadra dentro del modelo del Deep Learning discriminativo, representando el gran hito de la IA de finales de la década de pasada gracias a la arquitectura de Transformers. La arquitectura del sistema consiste en tomar un modelo de lenguaje profundo preentrenado en español (como BETO o BNE) y someterlo a un proceso de ajuste fino (fine-tuning) local en el tramo final del pipeline, especializándolo en la semántica técnica específica.
De este modo, se aprovecha su ventaja fundamental: una extraordinaria comprensión del contexto sintáctico y semántico, capaz de resolver de forma nativa la ambigüedad y la polisemia profunda sin necesidad de definir atributos manualmente. Sin embargo, presenta como limitación la brecha de confidencialidad y la dependencia de hardware industrial; el proceso de ajuste fino exige una alta potencia de cálculo (tarjetas GPU), inaccesible para ordenadores personales, lo que obliga a subir informes con datos de menores a entornos cloud externos, lo que vulnera los principios del secreto profesional; el resultado evidente es que no es una solución viable para un servicio de orientación (SEO).

4. IA Generativa. Modelos de lenguaje grandes LLM vs. Modelos de lenguaje pequeños en local SLM

Definición Supone un cambio radical de paradigma. Ya no clasificamos palabras sobre el propio texto. El modelo de lenguaje (tanto grande como pequeño -como Llama 3 o Phi-3) lee el informe y, mediante instrucciones (prompting), genera un texto nuevo e independiente que contiene la información estructurada (por ejemplo, un JSON con las entidades extraídas).
  • Fortaleza Máxima flexibilidad lingüística. Posee un "sentido común" sintáctico brutal debido a su masivo preentrenamiento. Permite que las categorías emerjan de forma natural porque puedes pedirle en lenguaje corriente: "Extrae los agentes implicados y las medidas propuestas en este texto, definiendo tú mismo las categorías si es necesario".
  • Debilidad 1 Tanto LLM como SLM presentan riesgo de "alucinación" (puede inventar o deformar datos si no se acota bien el prompt) y alto consumo de recursos (comparados con los anteriores)
  • Debilidad 2 Salvo condiciones especiales de hartware (que es muy difícil que se cumplan), Los LLM se deben correr on-line, lo que compromete los textos con que se usan y hace inviable en la práctica el tratamiento de textos que contengan datos confidenciales
  • Debilidad 3 Los SLM se pueden ejecutar en local gracias a tecnologías accesibles de compresión, eliminando el problema de la confidencialidad. Aunque su capacidad generalista es menor que la de un LLM, demuestran una alta precisión en tareas de extracción siempre que se diseñe un prompt riguroso que acote sus respuestas y se guíe su contexto (por ejemplo, mediante arquitecturas RAG) (5).

Esta cuarta alternativa se encuadra dentro del modelo de la IA Generativa, un paradigma donde el PLN evoluciona desde la mera clasificación lingüística hasata la creación de texto estructurado. En la arquitectura del sistema, la estrategia consiste en posicionar un modelo de lenguaje pequeño (SLM) en un entorno de ejecución íntegramente local y aislado de la red; esto transforma la extracción en una tarea directa donde el modelo lee el texto proporcionado y genera de inmediato una respuesta estructurada (como un formato JSON) guiado por instrucciones en lenguaje natural (prompting).
De este modo, se aprovecha su ventaja fundamental: la máxima flexibilidad semántica y la supresión del trabajo de etiquetado previo, permitiendo que las categorías complejas emerjan de la propia narrativa en un entorno que blinda al 100% la confidencialidad. Esto es posible en una CPU convencional gracias a las técnicas de cuantización, un proceso de optimización de software que comprime el modelo para adaptarlo a hardware estándar. Sin embargo, este enfoque presenta como limitación crítica el riesgo inherente de alucinación, lo que obliga a estructurar de forma sumamente estricta las instrucciones y restricciones operativas (prompts) para acotar el margen de libertad matemática del modelo generativo.

Nota:
1 En lo que resta de la entrada, este texto ha sido elaborado a partir de la consulta estructurada a Gemini y a partir de las propuestas textuales de esta IA generativa.
2Anglicismo utilizado para referirse a un proceso estructurado, flujo de trabajo o cadena de pasos automatizados que transforman un elemento inicial en un producto final.
3El estándar de etiquetado BIO, también conocido como formato Inside-Outside-Beginning o esquema Ramshaw-Marcus, es el método de anotación de texto más utilizado en el Procesamiento del Lenguaje Natural (PLN) para entrenar modelos de Reconocimiento de Entidades Nombradas (NER)
4 Ajuste fino con datos propios, que requiere un corpus documental etiquetado y recursos de computación.
5RAG Generación Aumentada por Recuperación / Retrieval-Augmented Generation. Es una técnica de Inteligencia Artificial que busca información en los archivos que se le proporcionan y se la entrega al modelo de lenguaje junto con la pregunta. De este modo, la IA redacta su respuesta basándose estrictamente en los datos que contienen esos documentos, reduciendo al mínimo el riesgo de alucinación y garantizando el control sobre la información.

No hay comentarios:

Publicar un comentario

Comenta esta entrada