Los modelos de lenguaje de gran escala o conocido del inglés como Large Langauge Models (LLMs) han dejado de ser un ámbito exclusivo de los labs de investigación para convertirse en una tecnología operativa que ya está transformando procesos en sectores tan diversos como defensa, logística, administración pública o industria aeroespacial. Sin embargo, trabajar con LLMs de forma rigurosa exige dominar una terminología técnica propia que, con frecuencia, resulta confusa incluso para equipos con sólida formación en tecnología.
Por este motivo, en este post, establecemos un glosario con los términos fundamentales que cualquier profesional técnico, responsable de transformación digital o decisor estratégico debería conocer antes de integrar un LLM en su organización.
Conceptos fundamentales
- TOKEN. La unidad mínima de procesamiento en un LLM. Un token puede corresponder a una palabra completa, una sílaba o un símbolo de puntuación, dependiendo del tokenizador utilizado. El número de tokens condiciona directamente el coste computacional y el límite de contexto de cada interacción con el modelo.
- PARÁMETROS (PARAMETERS). Son los valores numéricos internos del modelo que se ajustan durante el proceso de entrenamiento. Un LLM de gran tamaño puede contener miles de millones de parámetros (por ejemplo, 70B equivale a 70.000 millones). A mayor número de parámetros, mayor capacidad expresiva del modelo, aunque también mayor coste de inferencia.
- VENTANA DE CONTEXTO (CONTEXT WINDOW). El número máximo de tokens que un modelo puede procesar simultáneamente en una única llamada, incluyendo tanto el input (instrucción y documentos proporcionados) como el output generado. Es un factor crítico en aplicaciones que requieren el análisis de documentos extensos o conversaciones largas.
- TEMPERATURA (TEMPERATURE). Parámetro de inferencia que controla el grado de aleatoriedad en las respuestas del modelo. Un valor cercano a 0 produce respuestas más deterministas y reproducibles, adecuadas para tareas técnicas estructuradas. Un valor alto introduce mayor variabilidad creativa, pero puede comprometer la exactitud factual.
Arquitectura y entrenamiento
- TRANSFORMER. Arquitectura de red neuronal publicada en 2017 («Attention Is All You Need») que constituye la base técnica de todos los LLM modernos. Su mecanismo central, la atención (attention), permite al modelo capturar dependencias entre tokens distantes en un texto, superando las limitaciones de arquitecturas previas como las RNN o LSTM.
- EMBEDDINGS. Representaciones vectoriales de alta dimensión que codifican el significado semántico de tokens, frases o documentos. Los embeddings permiten medir similitud semántica entre textos mediante distancias vectoriales y son el componente fundamental en arquitecturas de recuperación de información como RAG
- PRE-ENTRENAMIENTO (PRE-TRAINING). Fase inicial del desarrollo de un LLM en la que el modelo es entrenado sobre enormes corpus de texto (terabytes de datos) con el objetivo de aprender estructuras del lenguaje, conocimiento factual y capacidades de razonamiento general. Es la fase más costosa computacionalmente y generalmente está a cargo de los grandes laboratorios de IA.
- FINE-TUNING (AJUSTE FINO). Proceso de entrenamiento adicional sobre un modelo base pre-entrenado, utilizando un corpus de datos específico del dominio o la tarea objetivo. Permite especializar el comportamiento del modelo para casos de uso concretos (por ejemplo, análisis de documentos de defensa o procesamiento de informes técnicos logísticos) sin necesidad de entrenar desde cero.
- RLHF (REINFORCEMENT LEARNING FROM HUMAN FEEDBACK). Técnica de entrenamiento que utiliza retroalimentación humana para alinear el comportamiento del modelo con las preferencias y valores deseados. Es el método que ha permitido convertir modelos de lenguaje genéricos en asistentes conversacionales más seguros, útiles y alineados con el uso previsto.
Técnicas de uso e integración
- PROMPT. La instrucción o entrada de texto que el usuario o el sistema proporciona al modelo para obtener una respuesta. El diseño del prompt (prompt engineering) es una disciplina en sí misma que determina en gran medida la calidad, el formato y la precisión del output generado.
- PROMPT ENGINEERING. Disciplina que estudia cómo formular, estructurar y optimizar las instrucciones proporcionadas a un LLM para maximizar la calidad de las respuestas. Incluye técnicas como few-shot prompting (proporcionar ejemplos), chain-of-thought (razonamiento paso a paso) o role prompting (asignación de un rol al modelo).
- RAG (RETRIEVAL-AUGMENTED GENERATION). Arquitectura que combina un sistema de recuperación de información con un LLM generativo. Ante una consulta, el sistema recupera primero los fragmentos de documentación más relevantes desde una base de conocimiento vectorial y los incorpora al contexto del modelo, que genera una respuesta fundamentada en esa información. Es especialmente útil en entornos corporativos donde se requiere que el modelo opere sobre documentación interna actualizada sin necesidad de re-entrenamiento.
- BASE DE DATOS VECTORIAL (VECTOR DATABASE). Sistema de almacenamiento optimizado para gestionar embeddings y realizar búsquedas por similitud semántica. Es el componente de infraestructura que sustenta las arquitecturas RAG, permitiendo recuperar eficientemente los fragmentos de texto más relevantes para una consulta dada. Ejemplos habituales: Pinecone, Weaviate, Chroma o pgvector.
- AGENTE DE IA (AGENTIC AI / AI AGENT). Sistema basado en LLM que no se limita a responder preguntas, sino que es capaz de planificar, ejecutar acciones, usar herramientas externas (APIs, buscadores, bases de datos) y tomar decisiones de forma autónoma para alcanzar un objetivo definido. La IA agéntica representa la evolución hacia sistemas capaces de automatizar flujos de trabajo completos.
- FUNCTION CALLING / TOOL USE. Capacidad de un LLM para invocar funciones o herramientas externas definidas por el desarrollador. Permite integrar el modelo con sistemas corporativos, APIs de negocio, bases de datos o servicios externos, convirtiendo al LLM en el orquestador de flujos de trabajo complejos.
Limitaciones y riesgos
- ALUCINACIÓN (HALLUCINATION). Fenómeno por el cual un LLM genera información factualmente incorrecta con apariencia de veracidad. Es una de las limitaciones más críticas en despliegues empresariales, especialmente en sectores regulados. Las arquitecturas RAG y los mecanismos de validación de salidas son las principales estrategias técnicas para mitigar este riesgo.
- SESGO (BIAS). Los LLM pueden reproducir y amplificar sesgos presentes en sus datos de entrenamiento —sesgos de género, culturales, geopolíticos o lingüísticos—, lo que puede afectar a la equidad y la neutralidad de las respuestas. La gestión del sesgo es un requisito de cumplimiento relevante en el contexto del AI Act europeo.
- LÍMITE DE CONTEXTO. Los LLM no retienen memoria entre conversaciones independientes y están sujetos a un límite máximo de tokens por sesión. Cuando una conversación supera este límite, el modelo pierde acceso a las partes más antiguas del historial. Este aspecto debe tenerse en cuenta en el diseño de arquitecturas conversacionales de larga duración.
- INYECCIÓN DE PROMPT (PROMPT INJECTION). Técnica de ataque mediante la cual un actor malicioso introduce instrucciones ocultas en los datos de entrada para manipular el comportamiento del modelo, eludir sus restricciones o extraer información sensible. Es una vulnerabilidad de seguridad específica de los sistemas basados en LLM que debe ser considerada en cualquier despliegue en entornos con acceso a datos críticos.
Despliegue y soberanía del modelo.
- INFERENCIA (INFERENCE). Proceso mediante el cual un modelo ya entrenado genera respuestas a partir de una entrada. A diferencia del entrenamiento, la inferencia es el proceso que ocurre en producción y cuyo coste computacional y latencia condicionan la viabilidad operativa del sistema.
- DESPLIGEUE ON-PREMISE vs EN LA NUBE. Los LLM pueden desplegarse en infraestructura propia de la organización (on-premise) o mediante servicios de terceros en la nube. Para sectores con requisitos estrictos de soberanía del dato (defensa, administración pública, infraestructuras críticas), el despliegue on-premise o en nubes soberanas europeas es frecuentemente un requisito no negociable.
- CUANTIZACIÓN (QUANTIZATION). Técnica de optimización que reduce la precisión numérica de los parámetros del modelo (de 32 o 16 bits a 8 o 4 bits) para disminuir sus requisitos de memoria y acelerar la inferencia, con un impacto controlado en la calidad de las respuestas. Es una estrategia habitual para hacer viable el despliegue de modelos de gran tamaño en hardware con recursos limitados
- SLM (SMALL LANGUAGE MODEL). Modelos de lenguaje de menor tamaño (típicamente entre 1B y 13B parámetros) optimizados para ejecutarse con eficiencia en hardware menos potente, incluyendo entornos edge o dispositivos sin conectividad permanente. Su uso es especialmente relevante en aplicaciones industriales o de campo donde la latencia, la privacidad o la disponibilidad de infraestructura son condicionantes críticos.
Conclusión: el lenguaje técnico como ventaja estratégica.
El dominio de la terminología en torno a los LLM no es un fin en sí mismo, sino una condición necesaria para tomar decisiones informadas sobre qué modelos adoptar, cómo integrarlos de forma segura en los procesos de la organización y cómo evaluar los riesgos asociados.
En ITELLIGENT trabajamos con modelos de lenguaje en el contexto de nuestras soluciones de Inteligencia Artificial aplicada, tanto en arquitecturas conversacionales como en pipelines de análisis y procesamiento de datos. Si tu organización está evaluando la incorporación de LLM a sus procesos (ya sea en un entorno cloud, on-premise o en el marco de un Espacio de Datos) podemos acompañarte desde la definición técnica hasta el despliegue en producción.
¿Tienes preguntas sobre cómo aplicar LLM en tu sector? ¡Escríbenos!




0 comentarios