PENMAN
PENMAN

¿Cómo funciona la indexación de los LLM? La anatomía del rastreo en la era de la inteligencia artificial

Nov 24, 2025 Thomas Horosy

Los motores de búsqueda basados en modelos de lenguaje (LLM) cambian de raíz la forma en que el contenido de la web se descubre y se presenta a los usuarios. La indexación por LLM se refiere al proceso mediante el cual los grandes modelos de lenguaje adquieren, procesan y «comprenden» el contenido de los sitios web, de un modo radicalmente distinto al de los motores de búsqueda tradicionales. Comprender cómo un LLM indexa el contenido resulta crucial para los especialistas en SEO/AEO. En la era de la Answer Engine Optimization (AEO), ya no se trata únicamente de posicionar enlaces azules, sino de garantizar que nuestro contenido sea encontrado y utilizado por la inteligencia artificial que genera las respuestas. Este artículo analiza a fondo la anatomía del crawling en la era de la IA, mostrando las diferencias entre la indexación clásica de búsqueda y la «indexación por embeddings» que emplean los LLM. Aprenderá por qué las prácticas SEO existentes no bastan para lograr visibilidad en los sistemas de IA generativa, y qué hacer exactamente para que su contenido alimente las respuestas que ofrecen modelos como ChatGPT, Claude o Google Gemini.

Fundamentos conceptuales

Un gran modelo de lenguaje (LLM) es una red neuronal avanzada entrenada con conjuntos de datos de texto masivos, capaz de generar respuestas y mantener conversaciones. A diferencia de un motor de búsqueda tradicional, que devuelve una lista de sitios web que coinciden con la consulta, un LLM puede crear respuestas directas y conversacionales, combinando a menudo información de varias fuentes a la vez. De ello surgen nuevos conceptos:

Crawling frente a «crawling de IA»: los motores de búsqueda como Google utilizan robots (por ejemplo, Googlebot) para rastrear la web: visitan enlaces, descargan el código HTML, renderizan JavaScript y recopilan contenido para el índice. Un crawler de IA cumple una función similar para los LLM, pero su objetivo es nutrir el sistema de conocimiento en lugar de construir una base de datos pública de enlaces. Es importante señalar que no todos los bots de LLM funcionan de la misma manera: Googlebot sigue alimentando Google Search e, indirectamente, SGE (Search Generative Experience), mientras que, por ejemplo, GPTBot de OpenAI o PerplexityBot son nuevos actores que rastrean la web con vistas a entrenar modelos o suministrarles datos bajo demanda. Para un especialista en SEO, esto significa que debe garantizar el acceso a diversos robots de IA, y no solo a los crawlers de búsqueda tradicionales.

Indexación de documentos frente a indexación semántica: un motor de búsqueda clásico construye un índice de documentos; cada página es una unidad analizada en términos de palabras clave, backlinks y más de 200 factores de posicionamiento. Un LLM, en cambio, crea un índice semántico. No almacena las páginas como un todo, sino que divide el contenido en pequeños «trozos» semánticos (en inglés: chunks) y recuerda el significado de esos fragmentos en forma de vectores numéricos. Dicho de otro modo: Google indexa páginas y palabras, mientras que un modelo de IA indexa los significados de las frases y los párrafos. Esta es una diferencia fundamental: a un LLM no le importa la coincidencia exacta de palabras clave, sino si un fragmento de su contenido coincide semánticamente con la pregunta del usuario.

Embedding y almacén de conocimiento vectorial: un embedding es una representación de un texto (u otra información, por ejemplo una imagen) en forma de vector, es decir, una lista de varios cientos de números que reflejan el contexto y el significado. El proceso de indexación por embeddings significa que, para cada «trozo» de contenido, el modelo genera un vector y lo guarda en una base de datos vectorial especial (el llamado vector store). Una base de datos así permite buscar muy rápidamente entre enormes cantidades de información a partir de la similitud matemática: los fragmentos con un significado similar tienen vectores situados cerca unos de otros en el espacio. Cuando un LLM recibe una consulta, también la convierte en un vector y busca en el índice vectorial el contenido semánticamente más similar. Gracias a ello, puede encontrar una respuesta aunque las palabras empleadas no coincidan: lo que importa es la similitud de significado, no las frases idénticas.

Memoria del modelo frente a recuperación: conviene distinguir dos fuentes de conocimiento de un LLM. La primera es la memoria paramétrica del modelo, el conocimiento que el LLM adquirió durante el entrenamiento (por ejemplo, ChatGPT tiene una gran parte de internet codificada en sus pesos hasta 2021). Sin embargo, esta memoria es estática y no contiene la información más reciente ni los textos completos. La segunda fuente es el mecanismo de recuperación, es decir, la extracción de información de una base de datos externa (por ejemplo, del mencionado índice vectorial que contiene páginas web actualizadas). Los sistemas modernos crean un híbrido: el modelo de lenguaje se apoya en un módulo de búsqueda que obtiene contenido actual y se lo suministra al modelo durante la generación de la respuesta. Esta técnica se denomina Retrieval-Augmented Generation (RAG): el modelo genera una respuesta a partir de información extraída de una base de conocimiento en tiempo real. Para los especialistas en AEO, esto significa que incluso el LLM más inteligente tiene que tener de dónde extraer datos frescos. Si su sitio no acaba en una colección de ese tipo (embedding store), el modelo puede basarse en un conocimiento de entrenamiento incompleto o desactualizado.

AEO y GEO: la Answer Engine Optimization (AEO) es la práctica de optimizar el contenido para los motores de respuesta, por ejemplo asistentes de voz o chats de IA, que proporcionan directamente al usuario una respuesta concreta. El término ha evolucionado recientemente hacia GEO (Generative Engine Optimization), que subraya el carácter generativo de los nuevos sistemas. La esencia sigue siendo la misma: el objetivo es adaptar el sitio para que se convierta en la fuente de información que utiliza la IA. En el SEO tradicional nos preguntamos: «¿cómo conseguir una posición alta en los resultados?». En AEO la pregunta es: «¿cómo garantizar que el contenido de nuestro sitio sea citado y utilizado en la respuesta generada por la IA?».

Anatomía técnica de la indexación por LLM

Veamos en detalle cómo funciona el proceso de «indexación» de contenido por parte de un sistema de IA, comparándolo paso a paso con las etapas análogas de un motor de búsqueda clásico. Las diferencias técnicas entre el crawling de búsqueda y la indexación por LLM afectan a nuestras estrategias de optimización.

  1. Crawling: adquisición de contenido

Crawling tradicional: Googlebot y otros bots rastrean la web siguiendo enlaces. Envían peticiones HTTP a los servidores, descargan el código HTML de las páginas y, a menudo, también renderizan JavaScript (por ejemplo, Google emplea para ello un motor de navegador basado en Chromium). El crawler dispone de una lista de URL que visitar (procedentes de índices anteriores, sitemaps o enlaces encontrados en otras páginas) y «recorre» sistemáticamente los sitios web. Al mismo tiempo, respeta las reglas establecidas en robots.txt, un archivo en el que el webmaster puede indicar qué áreas del sitio bloquear para la indexación. El resultado del crawling es el contenido en bruto de la página (texto, metadatos, código HTML), que se transfiere a la fase de indexación.

Crawling en el mundo de los LLM: los modelos de IA no disponen de su propio motor de búsqueda global a la escala de Google, sino que se apoyan en varios enfoques:

Uso de índices existentes: plataformas como Bing Chat o Google SGE se basan en los índices de sus motores de búsqueda. Cuando un usuario formula una pregunta a la IA, el sistema recurre al índice tradicional, realiza una serie de consultas (a veces múltiples búsquedas en paralelo, el llamado query fan-out) y obtiene las páginas necesarias. Esas páginas se pasan después al LLM para que las resuma. Desde el punto de vista del SEO, esto significa que la indexación básica por parte de un motor de búsqueda sigue siendo un requisito previo: su sitio debe estar indexado en Google/Bing para poder aparecer siquiera en AI Overview o AI Mode. Google confirma que no es necesario enviar el contenido a la IA por separado: si cumple los requisitos de la indexación estándar (y no bloquea los snippets), puede ser utilizado como fuente de las respuestas generadas.

Crawlers de IA independientes: en paralelo, han aparecido nuevos actores. GPTBot de OpenAI —lanzado en 2023— es un bot que rastrea de forma independiente las páginas públicas para proporcionar datos al entrenamiento de modelos (como GPT-4) o, eventualmente, a su posterior actualización. PerplexityBot opera para el motor de búsqueda Perplexity AI: mapea páginas para crear su índice propio, más reducido y curado. También existen otros, por ejemplo bots de Anthropic (Claude) o scripts no oficiales que indexan para diversas soluciones. Algunos de ellos no renderizan JS completo ni esperan mucho a la carga: PerplexityBot, según el análisis de Daydream, no ejecuta JavaScript en absoluto y solo obtiene el HTML estático. En la práctica: si el contenido crítico de la página solo se carga en el lado del cliente (por ejemplo, mediante React o AJAX), puede escapar a la atención de ese tipo de bot. Del mismo modo, las páginas tras un muro de pago, que requieren inicio de sesión o protegidas por mecanismos anti-bot agresivos (Cloudflare, bloqueos de IP) pueden quedar omitidas por el índice del LLM. El crawler de IA busca presas fáciles: páginas públicas, rápidas de obtener y que no causen problemas técnicos.

Colecciones curadas y datos externos: no todos los datos de los LLM provienen del crawling web en bruto. Los grandes modelos se entrenan a menudo con colecciones como Common Crawl (una instantánea pública de la web), conjuntos de datos con licencia (por ejemplo, libros, bases de conocimiento) o datos sociales (por ejemplo, Wikipedia). Además, cuando la IA genera una respuesta, puede recurrir a API externas (por ejemplo, bases de datos, servicios de conocimiento) que proporcionan información directamente. Para el propietario de un sitio, esto significa que puede resultar valioso no solo estar «en Google», sino también estar presente en diversas bases de conocimiento como Wikidata, o utilizar schema.org para aportar datos estructurados comprensibles para distintos motores.

En resumen, el crawling en la era de la IA es un ecosistema más diverso: indexación tradicional + nuevos bots independientes + consultas bajo demanda + integración con bases de conocimiento. Su objetivo es garantizar el acceso a todo lo anterior:

Ejemplo de fragmento de robots.txt que abre un sitio a los bots de IA:

User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Googlebot
Allow: /

Las reglas anteriores en robots.txt dan acceso completo, respectivamente, al bot oficial de OpenAI, al bot de Perplexity y (a modo de recordatorio) a Googlebot. Conviene actualizar periódicamente este archivo con los nuevos identificadores de user-agent a medida que aparezcan nuevas IA. Si utiliza firewalls como Cloudflare, añada excepciones para los bots reconocidos para que no tengan que superar Captchas.

  1. Limpieza y preprocesamiento

Cuando el crawler obtiene una página, comienza la fase de preprocesamiento del contenido. Google y otros motores de búsqueda analizan el HTML: reconocen las etiquetas, el contenido de los párrafos, los enlaces, las imágenes (y sus atributos alt), los scripts, etc. Se eliminan las secciones duplicadas (por ejemplo, menús y pies de página repetidos), se detectan las direcciones canónicas y se procesan las metaetiquetas (por ejemplo, meta-robots con noindex, etc.). El resultado es un modelo de la estructura de la página y un texto limpio listo para la indexación.

En el caso de la indexación por LLM, el papel de esta etapa es aún más importante. Los modelos de IA quieren recibir fragmentos claros y comprensibles. Por ello, el sistema elimina el «ruido»: scripts, estilos, navegación; todo lo que no sea el contenido principal. Además, se aplica con frecuencia una normalización del texto: corrección de caracteres, sustitución de sinónimos por formas unificadas y, sobre todo, la detección de entidades. Las entidades son todos los conceptos concretos del texto (personas, empresas, productos, fechas, lugares). La IA intenta identificarlos porque son clave para comprender el contexto y asignar un peso de confianza. Por ejemplo, si su sitio menciona «John Smith, CEO de OpenAI, afirmó en el informe NIST 2023…», entonces una entidad correctamente identificada como OpenAI o el informe NIST 2023 podrá utilizarse después como señal de credibilidad o vincularse con otros datos sobre OpenAI.

Para usted, la conclusión es la siguiente: simplifique y estructure el contenido teniendo en cuenta este paso. Cuanto menos desorden, mejor. Evite el exceso de elementos del DOM que puedan «difuminar» el contenido principal. Utilice una nomenclatura coherente (por ejemplo, nombre el producto o la persona de manera uniforme en todo el sitio). Recuerde también trasladar al texto la información importante de las imágenes o widgets dinámicos; por ejemplo, si una infografía contiene datos importantes, descríbalos en el texto o en el atributo alt de la imagen, ya que de lo contrario la IA podría no registrarlos.

  1. Chunking: división en fragmentos semánticos

Este es el corazón de la indexación por LLM. Tras la limpieza inicial, todo el texto de la página se divide en piezas más pequeñas: los chunks. Es importante entender qué constituye un chunk: puede ser un solo párrafo, una sección con un encabezado y varios párrafos, un elemento de una lista con viñetas, una única pregunta de FAQ; en definitiva, una unidad temática lógica que puede comprenderse con independencia del resto.

Un motor de búsqueda tradicional no realiza una división tan explícita: indexa toda la página como un documento (aunque también extrae fragmentos que coinciden con la consulta para crear snippets). Un indexador de LLM, en cambio, necesariamente corta el contenido en piezas, porque el modelo de lenguaje tiene una ventana de contexto limitada: no puede asimilar 50 000 caracteres de una vez. En su lugar, más tarde, cuando llega una consulta, seleccionará solo unos pocos chunks más relevantes.

¿Qué determina los límites de un chunk? En gran medida, la estructura HTML y la semántica de la página. Si su página está bien organizada:

Utiliza encabezados de forma jerárquica para dividir los temas,

Tiene párrafos, listas y tablas claramente separados,

Contiene secciones de FAQ, citas, etc.,

entonces el algoritmo de chunking muy probablemente cortará el contenido en esos puntos. Por ejemplo, cada encabezado seguido de texto puede convertirse en el inicio de un nuevo chunk. Por el contrario, una estructura desordenada (por ejemplo, niveles de encabezado omitidos, mezcla caótica de temas) hará que los límites de los chunks sean aleatorios y puede dividir información que debería permanecer unida.

Imaginemos una página de guía:

Una estructura así —con encabezados y listas claros— facilita separar las partes lógicas: un fragmento separado sobre «Understanding LLM Crawling», una lista separada de «Key Best Practices», etc. Si el mismo texto fuera un solo bloque largo sin encabezados, el modelo tendría dificultades para dividirlo de forma sensata, y los puntos importantes podrían «desaparecer» dentro de un fragmento grande.

Chunking y visibilidad en IA: los chunks bien separados aumentan la probabilidad de que sea precisamente ese fragmento el que se seleccione en la respuesta. Si, por ejemplo, un usuario pregunta: «¿Cuál es la diferencia entre el crawling de IA y el crawling tradicional?», el LLM no ofrecerá el artículo entero, sino que intentará encontrar un único fragmento que explique la diferencia. Si existe un párrafo o sección significativo de ese tipo (por ejemplo, «Understanding LLM Crawling»), tendrá más posibilidades de ser seleccionado. Por el contrario, si la información está dispersa por todo el texto, el modelo podría no conseguir conectarla o devolver algo menos preciso. En la práctica: cada tema o pregunta importante de su sitio debería tener su propio fragmento «independiente», por ejemplo en forma de un párrafo con un tema claro, o de una pregunta seguida de una respuesta (véase: FAQ).

  1. Creación de embeddings (vectorización)

Cada chunk de texto extraído se transforma de texto a un vector de números, es decir, un embedding. Esta tarea la realiza un modelo independiente (el llamado modelo de embeddings), normalmente una red neuronal entrenada de modo que los textos semánticamente similares tengan vectores similares. A modo de ilustración, un modelo de embeddings transforma una frase como «Jak działa indeksowanie LLM?» / «How does LLM indexing work?» en un vector: [0.12, -0.45, 0.78, …] (el número de elementos puede ser 384, 768, incluso 1536, según la arquitectura). Este registro matemático del «significado» permite al sistema comparar después rápidamente una consulta con las respuestas candidatas.

¿Por qué son clave los embeddings? Porque la búsqueda tradicional se basa en la coincidencia de palabras, mientras que un LLM se basa en la coincidencia de significados. Un embedding codifica el contexto: «entiende» que «indexación por LLM» está cerca de los conceptos «base de datos vectorial», «embedding store» o «búsqueda semántica», aunque las palabras difieran. Esto permite a la IA superar las limitaciones de las palabras clave. Para usted, como creador de contenido, esto significa que el estilo de escritura y la calidad de fondo afectan a la calidad del embedding. Como han observado los especialistas en GEO, los embeddings de un texto «plano» lleno de generalidades serán menos distintivos, lo que dificulta que compitan en el espacio vectorial. En cambio, un contenido concreto, lleno de datos y con un enfoque único del tema generará vectores que el modelo considerará distintivos. Esto aumenta la probabilidad de estar entre los vectores más cercanos para una consulta dada.

En otras palabras: cuando escriba para la IA, hágalo de forma precisa y sustancial. Evite la palabrería; de lo contrario, su fragmento se confundirá, en términos de embedding, con miles de generalidades similares y podría pasarse por alto. Incluya palabras clave conceptuales (entidades importantes, términos): el embedding las «captará». Por ejemplo, en lugar del genérico «Nuestra empresa crea soluciones innovadoras», es mejor escribir «Nuestra empresa XYZ está especializada en algoritmos de procesamiento del lenguaje natural y ganó el Premio A para startups de IA en 2023». Un fragmento así contiene entidades concretas (XYZ, algoritmos de PLN, Premio A 2023), que aumentan la densidad informativa del embedding y la confianza del modelo en él.

  1. Vector store: el índice semántico

En un motor de búsqueda tradicional, el resultado de la indexación es añadir la página a la base de datos del índice; en el caso de Google, se trata de un sistema enorme que almacena miles de millones de páginas, con información sobre qué palabras aparecen en qué páginas (índice invertido) y multitud de metadatos (PageRank, datos de enlaces, etc.). En un sistema de LLM, el análogo es una base de datos vectorial, que almacena los embeddings de todos los chunks junto con punteros a la fuente (por ejemplo, la URL de la página de la que proceden, el título, etc.). Las bases de datos vectoriales populares (como Pinecone, Weaviate o Vespa) están optimizadas para la llamada búsqueda del vecino más cercano (ANN): pueden devolver los N vectores más similares entre millones en una fracción de segundo.

Índice curado frente a índice completo: conviene señalar que no todo contenido acaba en un índice así. Mientras que Google intenta indexar «todo internet» (lo cual es imposible al 100 %, pero aspira a la máxima cobertura), Perplexity, por ejemplo, utiliza un índice curado, es decir, deliberadamente limitado a fuentes de alta calidad. Sus creadores indican que solo indexan páginas que cumplen ciertos criterios (claridad, autoridad, ausencia de spam). SGE puede funcionar de forma similar: los AI Overviews citan con más frecuencia sitios expertos y omiten el contenido superficial de los agregadores. De ahí, una vez más: la calidad y la autoridad de su sitio importan incluso antes de la propia búsqueda; pueden determinar si llega siquiera a la «memoria de la IA». Por eso debe cuidar no solo las páginas individuales, sino también la reputación del dominio (más adelante hablaremos de las señales de confianza).

  1. Búsqueda y recuperación de información

Con un índice vectorial ya construido, el modelo puede utilizarlo en cualquier momento. La recuperación, es decir, la extracción de información, suele producirse cuando el usuario formula una pregunta. Funciona así:

Embedding de la consulta: la pregunta del usuario (por ejemplo, «¿Cómo indexa un LLM los sitios web?») también se convierte en un vector mediante el mismo modelo de embeddings (o uno similar). Esto produce una representación matemática de la intención del usuario.

Coincidencia de vectores: el sistema ejecuta una consulta vectorial contra la base de datos; busca los chunks cuyos embeddings sean más similares al embedding de la consulta. El resultado es una lista de, por ejemplo, una docena de fragmentos de distintos sitios, ordenados por similitud semántica con la pregunta.

Filtrado y preselección: a menudo se aplica un filtrado inicial. Por ejemplo: eliminar fragmentos de dominios sospechosos, dar preferencia a los más recientes (si la pregunta sugiere la necesidad de información actual), tener en cuenta el idioma (para no mezclar idiomas cuando hay varios presentes en el índice) o aplicar reglas como «máximo 2 fragmentos de un mismo dominio» para diversificar las fuentes.

Señales de confianza y reordenación (reranking): este es el paso clave que diferencia la recuperación de la IA de la búsqueda sin más. Si tenemos, pongamos, 10 fragmentos candidatos, el modelo los evalúa en términos de fiabilidad y adecuación al contexto. Tiene en cuenta, entre otras cosas, los metadatos del fragmento:

¿Cuál es la autoridad del dominio o del autor? (por ejemplo, ¿procede el fragmento de un sitio reconocido como experto en este campo?).

¿Contiene el fragmento datos, fechas o citas concretas, lo que aumenta su valor?

¿Tiene la página marcado schema que facilite su interpretación (por ejemplo, ¿forma parte el fragmento de una FAQPage o de un artículo con un autor y una fecha designados?)?

¿Cómo de reciente es el fragmento (fecha de publicación o actualización, si se conoce)?

¿Parece fiable el contenido (por ejemplo, tono experto, sin errores evidentes)? Aquí los modelos pueden evaluar el estilo de redacción o compararlo con otras fuentes.

Todos estos factores permiten al LLM elegir, por ejemplo, entre dos respuestas semánticamente similares la más digna de confianza. Si la pregunta versa sobre salud y disponemos de un fragmento de un foro y otro de un sitio médico oficial, se preferirá el fragmento experto. Las señales de confianza en el mundo de los LLM son como el equivalente del posicionamiento de Google, pero en lugar de PageRank y enlaces, lo que importa es el E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) expresado en el contenido y su contexto.

Alimentar al LLM con contexto: finalmente, los fragmentos seleccionados —normalmente unos pocos (por ejemplo, de 3 a 5)— se pasan a la ventana de contexto del modelo de lenguaje como material adicional. El modelo recibe la consulta del usuario más esos fragmentos a modo de «pista» y genera la respuesta final a partir de ellos.

Cabe señalar: el modelo también puede recurrir a su propia memoria. Es decir, si la pregunta versa sobre algo que ya tiene en sus parámetros, los fragmentos servirán más bien para confirmar y aportar fuentes que para suministrar todo el conocimiento. Pero, para preguntas nuevas o detalladas, serán los chunks suministrados el contenido principal que se transformará en una respuesta.

  1. Generación de respuestas y citación de fuentes

El último paso tiene lugar dentro del LLM: a partir de la consulta y de los fragmentos suministrados, el modelo sintetiza un nuevo enunciado. Crea frases con sus propias palabras, tratando de responder a la pregunta con precisión. Esta es una gran diferencia respecto a un motor de búsqueda: en lugar de una lista de enlaces, tenemos una respuesta sintética en lenguaje natural.

Si el sistema está bien diseñado (por ejemplo, Bing Chat, Perplexity, Google SGE), añade referencias a la respuesta generada, indicando qué fuentes se utilizaron. A veces esto se hace mediante notas al pie numeradas, a veces mediante una lista de «Fuentes:» con los nombres de los sitios. Para un sitio, este es el momento de la verdad: su sitio puede ser nombrado y enlazado aquí como fuente, aunque el usuario nunca lo haya visitado directamente. Este es el nuevo tipo de visibilidad en la era de los LLM: puede convertirse en parte de la respuesta, generando reconocimiento de su marca o de su experiencia, aunque el usuario no haga clic en un resultado de búsqueda.

No obstante, hay que subrayarlo: los distintos sistemas tienen políticas de citación diferentes. Bing y Perplexity siempre intentan mostrar las fuentes. Google SGE, en AI Overview, muestra varios enlaces relacionados con la respuesta, pero no siempre cita explícitamente una frase de su sitio: más bien sugiere «vea también estas páginas». Algunas implementaciones (por ejemplo, chatbots dedicados basados en la API de OpenAI) pueden generar respuestas sin ninguna fuente explícita, lo cual resulta problemático desde la perspectiva del sitio (su contenido puede utilizarse, pero usted no lo sabe). Por ello, con mayor motivo, al velar por la indexación por LLM operamos en cierto modo a ciegas: debemos asumir que, aunque la cita no sea visible, el modelo sigue utilizando nuestro contenido para una respuesta correcta, y el usuario aprecia la mayor calidad de esa respuesta. En el escenario ideal, por curiosidad hará clic en la fuente para saber más, lo que genera tráfico para usted. En un escenario menos ideal, al menos se menciona el nombre de su marca, lo que también tiene cierto valor (por ejemplo, construye una reputación de experto en un campo determinado).

Resumiendo esta sección, las diferencias técnicas clave entre la indexación tradicional y la de los LLM:

Unidad del índice: el motor de búsqueda indexa la página (URL), el LLM indexa los chunks individuales (párrafo/sección).

Estructura de datos: el motor de búsqueda se apoya en un índice de palabras clave y enlaces (índice invertido, PageRank), el LLM en un índice vectorial y los metadatos asociados.

Coincidencia: el motor de búsqueda busca palabras, el LLM busca similitudes semánticas.

Posicionamiento frente a recuperación: Google posiciona cientos de páginas, el LLM recupera unos pocos fragmentos y no los «posiciona» para mostrarlos, sino que los utiliza para la respuesta. La recuperación es el nuevo posicionamiento: si un fragmento no se recupera, usted no aparece en absoluto.

Señales de calidad: Google tiene muy en cuenta en su posicionamiento los backlinks y la autoridad general del dominio, el LLM evalúa lo que hay en el contenido: el autor, las menciones de premios, las reseñas, la coherencia con otros hechos conocidos. Los enlaces como tales importan menos (aunque, si su artículo es citado por muchos otros, eso también es una señal de que contiene contenido valioso).

Presentación del resultado: en Google, enlaces, metadescripciones, a veces rich snippets. En un LLM, una respuesta fluida con una referencia de fuente opcional. Esto cambia el enfoque de la optimización: ya no luchamos por la visibilidad del título de la página, sino por incluir nuestra frase en la respuesta de la IA.

Guía de implementación paso a paso

Entonces, ¿cómo preparar su sitio para afrontar los retos del crawling de IA y la indexación vectorial? A continuación, un plan de acción concreto y práctico:

Garantice el acceso a los bots de IA: asegúrese de no bloquear a los crawlers modernos. En el archivo robots.txt, añada reglas que permitan el rastreo a agentes conocidos como GPTBot (OpenAI), PerplexityBot y, por supuesto, no bloquee a los estándar Googlebot/Bingbot. Si utiliza firewalls (Cloudflare, ModSecurity), configure excepciones para estos agentes o para los rangos de IP de los bots oficiales. Recuerde también que algunos bots de IA se comportan como tráfico de usuario corriente (por ejemplo, el modo navegador de ChatGPT o Perplexity-User simulan un navegador normal). Por ello, es mejor no aplicar bloqueos excesivamente celosos contra los «user-agents desconocidos», porque podría cortar accidentalmente las visitas de la IA. Por otro lado, decida conscientemente si hay algo que desee restringir: por ejemplo, si no quiere que su contenido se utilice para entrenar modelos, puede añadir User-agent: GPTBot Disallow: / (OpenAI y Google ofrecen mecanismos de exclusión, pero es una decisión de negocio: el coste será la ausencia de su contenido en esas IA). La mayoría de los sitios centrados en AEO deberían más bien abrir las puertas, no cerrarlas.

Desarrolle una estructura clara del sitio: aborde el contenido de forma modular. Cada página debería tener una jerarquía lógica de encabezados y secciones. Empiece con uno (el título de la página). Divida los temas usando encabezados para las subsecciones principales y, opcionalmente, para subpuntos adicionales. Evite saltarse niveles de encabezado (por ejemplo, pasar directamente de uno a otro sin el intermedio, lo que puede confundir al parser). Asegúrese de que cada encabezado sea descriptivo: no «Sección 1», sino, por ejemplo, «3. Cómo funciona el crawling en los LLM». Debajo, cíñase al tema indicado en el encabezado, no lo mezcle con otros hilos. Utilice listas con viñetas y numeradas para enumerar varios elementos (una lista es un chunk ideal: cada punto puede devolverse como respuesta a una pregunta del tipo «enumere X factores…»). Añada pies o descripciones a gráficos e imágenes (aunque sea como texto sencillo justo debajo de la imagen): una descripción así también puede ser un chunk independiente. En resumen: escriba partiendo de la base de que cada párrafo o lista puede leerse por sí solo, sin el contexto de la página completa.

Garantice un contenido accesible: ¿qué tiene que ver la accesibilidad con los LLM? Bastante, según resulta. Muchos principios de accesibilidad coinciden con lo que la IA necesita para un chunking correcto y para comprender el contenido:

Añada atributos alt a las imágenes que transmitan su significado. Si, por ejemplo, tiene una infografía «Anatomía de un LLM», el alt podría ser: “Diagrama de un sistema LLM: crawling -> chunking -> embedding -> recuperación.”. Ese texto no solo ayuda a los usuarios con discapacidad visual, sino también a la IA: puede entender qué representa la imagen y utilizar ese conocimiento. Sin texto alt, la imagen puede ser ignorada o interpretada por algoritmos de visión por computador, lo cual es menos preciso.

Mantenga el orden correcto de los encabezados (como se ha indicado): también es una directriz WCAG para la navegación por encabezados.

Utilice textos de enlace claros y descriptivos. Desde el punto de vista de la accesibilidad, un enlace como «haga clic aquí» es deficiente: el usuario no sabe adónde lleva. Para la IA es parecido: «más» o «leer más» no dicen nada, mientras que un enlace que diga «Vea nuestra prueba comparativa de la indexación por LLM» ya aporta contexto. El LLM puede tratar el texto del enlace como información adicional sobre lo que hay en la página enlazada. Además, si otro sitio le enlaza con la expresión «guía AEO experta», aumenta su autoridad en ese tema. En resumen: cree enlaces que por sí mismos respondan a la pregunta de qué hay allí.

Evite incrustar texto en elementos no textuales. El contenido importante no debería existir únicamente en vídeo, imágenes sin transcripción o animaciones Flash (por suerte, esto último es raro hoy en día). El principio POUR (Perceptible, Operable, Comprensible, Robusto) en accesibilidad dice esencialmente: facilite la vida al destinatario. La IA es un tipo de destinatario específico, pero también agradece un mensaje limpio y perceptible.

Incorpore datos estructurados (schema.org): los datos estructurados son el idioma que habla directamente a los algoritmos. Para los LLM son tan valiosos como para los motores de búsqueda. A nivel de indexación, si su página tiene, por ejemplo, una designación FAQPage con preguntas y respuestas, un crawler de IA sabe de inmediato que se trata de contenido de pregunta-respuesta y puede marcar ese fragmento como de alto valor (a la IA le encantan las preguntas y respuestas bien formateadas: en sus respuestas a menudo cita contenido de FAQ). Otro ejemplo: el schema Article con un campo Author y la fecha de publicación. El modelo puede leer automáticamente quién es el autor (lo que refuerza la confianza si el autor es, pongamos, un médico o un abogado) y cuándo se creó el texto (lo que ayuda a evaluar la frescura). En los datos estructurados también puede incluir información sobre premios (por ejemplo, Award en el schema de organización o persona), reseñas (Review), valoraciones, etc.; todo ello construye su perfil de E-E-A-T que el LLM puede captar. Eso sí, recuerde que el schema debe ser correcto y coherente con el contenido. Los errores en JSON-LD pueden impedir su lectura: conviene probarlos con las herramientas de datos estructurados de Google. He aquí un ejemplo sencillo de schema de FAQ que podría aparecer en el código de la página:

Una estructura así garantiza que tanto Google como cualquier otro bot «vean» de inmediato una pregunta y una respuesta en su sitio. Si el usuario formula una pregunta muy similar, hay buenas posibilidades de que su fragmento de pregunta y respuesta ya preparado sea recuperado y utilizado como respuesta (posiblemente casi palabra por palabra, porque se proporcionó en un formato ideal).

Refuerce las señales de confianza y experiencia: en el mundo de los LLM debe demostrar su credibilidad con su propio contenido. Esto es lo que ayuda:

Añada información visible sobre el autor en los artículos. Idealmente con nombre y apellidos, y una breve biografía («Jan Kowalski, analista SEO con 10 años de experiencia…»). Puede enlazar el nombre a una página «Sobre el autor» con más detalles (formación, logros). Los modelos son cada vez mejores reconociendo autoridades: si alguien escribe con frecuencia en un nicho y siempre firma, el modelo puede atar cabos y valorarlo por encima de un redactor anónimo.

Destaque premios, certificados y afiliaciones. Si su empresa o usted tienen distinciones del sector, asociaciones con organizaciones reconocidas, menciónelo en el contenido o en el pie de página. Por ejemplo, añada una sección «Nuestros premios» o insignias («Ganador de la Mejor Startup de IA 2024»). En el SEO on-page tradicional esto solía tener poca relevancia, pero para los LLM es una señal: «ajá, esta empresa ha sido reconocida en el sector, se puede confiar más en ella».

Fomente las reseñas y los testimonios, y muéstrelos. En las páginas de productos o servicios, incluya reseñas genuinas de clientes. Los modelos pueden identificarlas y tratarlas como otra prueba de que determinadas afirmaciones están verificadas socialmente. En el SEO clásico, las estrellas de las reseñas en el schema podían mejorar el CTR, mientras que aquí el contenido real de la reseña puede incluso ser citado por la IA («El usuario X confirma que…»).

Enlace a fuentes e investigaciones en sus textos. Aunque pueda parecer que no quiere alejar al usuario de su sitio, citar las fuentes de las afirmaciones importantes (por ejemplo, mediante citas de informes o estadísticas con el nombre de la institución) hace que su contenido sea más fiable. La IA, al ver una nota al pie o una expresión como «(según el informe de Gartner 2023)», considerará que el autor se ha esforzado por ser riguroso. Además, el modelo puede reconocer en su texto instituciones conocidas y reforzar la asociación con su autoridad. Nota: esto no significa copiar fragmentos enteros de otras fuentes; la IA penaliza los duplicados. Se trata de citas breves o, simplemente, de exponer un hecho y añadir «quién lo dice».

Mantenga la coherencia de la información de las entidades en su sitio. Si su marca se llama «XYZ Sp. z o.o.» en un sitio, «X.Y.Z.» en otro, y el producto «SuperWidget 3000» frente a «Super Widget», la IA puede no conseguir vincularlos y tratarlos como entidades diferentes. Cíñase a nombres y perfiles uniformes. Puede favorecer la coherencia usando schema.org/Organization con campos para el nombre oficial, los alias y los perfiles de redes sociales (también una señal de confianza: un enlace a un perfil activo de LinkedIn, por ejemplo).

Utilice protocolos de seguridad: HTTPS es absolutamente imprescindible, no solo por el SEO, sino también porque Chrome y otros navegadores (y, por tanto, los crawlers) pueden no indexar recursos inseguros (HTTP). Evite el malware, los scripts sospechosos, etc.: los modelos pueden tener una «lista negra» de sitios inseguros.

Optimice el rendimiento y la frescura: aunque la IA no espera a que una página se cargue como un usuario impaciente, un sitio rápido y optimizado facilita el crawling (menos timeouts u omisiones por límite de tiempo). Por tanto, céntrese en:

Eliminar los scripts y elementos innecesarios que no aportan valor (cada MB adicional que descargar es un problema potencial).

Usar SSR (Server-Side Rendering) o prerendering para las SPA, de modo que el bot siempre obtenga el HTML completo.

Usar correctamente las cabeceras HTTP (códigos de estado). Cada subpágina debería devolver 200 OK si está disponible. Los errores 4xx/5xx o las redirecciones pueden hacer que una página se elimine del índice de la IA. Supervise los errores de rastreo en Google Search Console y en los logs.

Actualizar con regularidad el contenido importante y usar lastmod en el sitemap para señalar los cambios. Si tiene un artículo «Estado a fecha de 2023», cree uno nuevo para 2024 o actualice el existente: los modelos prefieren la información más reciente para las consultas frescas. La frescura es una señal contextual: por ejemplo, al preguntar hoy por «los últimos estudios sobre LLM», la IA elegirá un fragmento de 2025 antes que uno de 2020, suponiendo una calidad de contenido comparable.

En el contexto de los LLM surge también el reto de las versiones por idioma y región: asegúrese de haber implementado correctamente hreflang para los sitios multilingües, porque, por ejemplo, Bing Chat es multilingüe por defecto y puede citar su sitio en la versión de idioma equivocada si no sabe cuál encaja con la pregunta. Compruebe también la geolocalización del hosting/CDN: un tiempo de respuesta del servidor extremadamente largo para los bots globales es algo negativo.

Considere preparar un archivo llms.txt: este es un concepto nuevo en el mundo de la AEO; de forma análoga a robots.txt, el archivo llms.txt (ubicación: sudominio.com/llms.txt) no pretende bloquear, sino orientar a la IA sobre qué contenido es más importante en el sitio. El formato de este archivo aún se está perfilando; en la práctica, es una especie de guía condensada de su conocimiento en una forma amigable para los modelos (secciones de texto concisas, enlaces a páginas clave, resúmenes). Por ejemplo, una biblioteca podría enumerar en llms.txt:

Documentación

Datos técnicos

La idea es que, cuando la IA (por ejemplo, un chatbot asistente) recibe una pregunta sobre su producto, puede consultar al vuelo el llms.txt y ver: ajá, aquí hay un enlace a la FAQ, aquí a las especificaciones; obtiene esas páginas y crea fácilmente una respuesta completa. llms.txt es, por tanto, una especie de mapa mental de su dominio para la IA. No sustituye a la indexación normal (sigue necesitando un sitemap y SEO), sino que la complementa desde el lado de la AEO. Implementar llms.txt es actualmente opcional y ningún bot mayoritario lo utiliza aún de forma oficial, pero la iniciativa va ganando tracción en el sector. Conviene conocerlo, porque en los próximos años podría convertirse en un estándar (de forma parecida a como ads.txt se convirtió en un estándar en publicidad). Si ya tiene capacidad para ello, prepare ese archivo manualmente y enlácelo junto a los sitemaps en robots.txt (Allow: /llms.txt). Aunque hoy no dé resultados, irá un paso por delante de la competencia cuando la IA empiece a utilizarlo.

Supervise, pruebe y mejore: el último paso es menos una implementación y más una práctica continua:

Rastree los logs del servidor y las estadísticas de crawling: compruebe si sus logs muestran bots de IA (por ejemplo, PerplexityBot/1.0 o GPTBot). Analice qué URL visitan, con qué frecuencia y si reciben respuestas 200 correctas. Si observa intentos de acceso a URL que no deberían (por ejemplo, parámetros extraños), quizá haya que actualizar algo en el sitemap o bloquear algunas rutas sin importancia.

Utilice herramientas SEO para simular el crawling: Screaming Frog, Sitebulb o el Ahrefs Crawler le permitirán ver su sitio como lo hace un bot. Conviene configurarlas en modo «solo texto» o «JavaScript desactivado» para simular un bot de IA sencillo. Verá entonces qué contenido es visible sin JS, dónde faltan alts y si la estructura de encabezados es lógica. Corrija lo que muestre la auditoría.

Compruebe la visibilidad en las nuevas interfaces: si tiene acceso a SGE (Google Search Generative Experience), pruebe consultas relacionadas con su sector y compruebe si sus páginas aparecen en los enlaces sugeridos por la IA. Lo mismo en Bing: pregunte a Bing Chat sobre los temas que trata. También es buena práctica usar Perplexity.ai u otros chatbots de conocimiento y formular preguntas que su sitio debería responder. Si nunca le citan, eso es una señal de que algo va mal (quizá el bot no conoce su sitio o lo considera de baja calidad).

Utilice Google Search Console y Bing Webmaster Tools: GSC está empezando a exponer datos relacionados con la IA (por ejemplo, en EE. UU., una versión beta mostraba por separado los clics procedentes de SGE). Aunque en Polonia esto aún sea incipiente, vigile el área de «Mejoras» o «Aspecto en el buscador» para ver si aparece algo relacionado con la IA. Es posible que Bing WMT no informe sobre el Chat, pero recuerde que IndexNow y otras funciones nuevas de Bing pueden ayudar a una indexación más rápida: utilícelas para entregar con rapidez el contenido que Bing Chat usará después.

Manténgase al día de las tendencias de AEO: siga los blogs del sector (en Polonia y en el extranjero); no dejan de aparecer nuevos casos prácticos que muestran cómo la optimización orientada a los LLM da resultados. Quizá alguien de su nicho descubra que cierto formato de contenido (por ejemplo, una tabla comparativa) es citado a menudo por la IA: merece la pena implementar esos elementos usted mismo.

Perspectiva del mundo real: herramientas y ejemplos

Entender la teoría es una cosa, pero ¿cómo se ve la AEO en la práctica? Aquí tiene algunos aspectos y ejemplos reales:

Herramientas de crawling y analítica: sus viejos amigos del SEO siguen siendo útiles. Screaming Frog SEO Spider puede ayudarle a generar toda la estructura del sitio y a enumerar los elementos que pueden dificultar la labor de la IA (por ejemplo, páginas sin descripciones alt, sin un encabezado H1, con títulos duplicados o con un recuento de palabras bajo: todas, señales de alarma para la AEO). Google Search Console es el mínimo imprescindible para supervisar el estado de la indexación: asegúrese de no tener problemas del tipo «Detectada: actualmente sin indexar» en las subpáginas importantes. Si Google no indexa una página, Bing Chat o SGE tampoco la verán. Bing Webmaster Tools suele pasarse por alto, pero en la era de Bing Chat merece la pena consultarla: permite solicitar la reindexación de URL y comprobar el rendimiento del renderizado.

Uso de logs y herramientas web: los logs en bruto del servidor pueden ser difíciles de analizar manualmente, pero herramientas como Splunk, ELK Stack o servicios dedicados (por ejemplo, Botify) pueden extraer información sobre el tráfico de bots. Ya existen los primeros paneles de GEO: por ejemplo, Perplexity o el ya desaparecido Neeva compartían a veces listas de las fuentes principales. Algunas plataformas, como Cloudflare, planean integraciones para mostrar cuánto tráfico generan los bots de IA. Prepárese para un nuevo tipo de informe analítico: no solo tráfico SEO, sino también tráfico de citación por IA o impresiones de IA.

Casos de estudio en el sector: en todo el mundo van surgiendo informes que muestran cómo los grandes editores notan el impacto de la IA. Por ejemplo, los portales de noticias han visto una caída del tráfico de búsqueda entre los usuarios más jóvenes, ya que prefieren pedirle las noticias a la IA. Los que fueron citados en las respuestas (por ejemplo, Reuters, Wikipedia) siguieron ganando confianza y tráfico indirecto. En el comercio electrónico, las empresas invierten en sus propios chatbots alimentados por sus propios índices, lo que demuestra la eficacia del enfoque aquí descrito (si construyen sus propias bases de datos vectoriales con contenido de FAQ y documentación, es probable que la IA global haga lo mismo a mayor escala).

Nuevas métricas de éxito: tradicionalmente, mirábamos los posicionamientos y el CTR. En AEO, debemos pensar en términos de tasa de citación por IA. Es difícil de medir directamente, pero podemos comprobarlo de forma aproximada: ¿aparece nuestro contenido en las respuestas (en la medida en que podemos verlo)? Algunas empresas prueban decenas de consultas en ChatGPT o Bing y anotan manualmente a quién cita la IA. Si siempre es su competidor y nunca usted, es una señal de que necesita mejorar el contenido para el chunking, el E-E-A-T, etc. Quizá veamos herramientas oficiales: Google está experimentando con mostrar en GSC «Su sitio apareció X veces en AI Overview». Cuando eso ocurra, un especialista en SEO tendrá que tener en cuenta esta métrica junto con las impresiones y los clics.

Plataformas de conocimiento y colaboraciones: siendo realistas, no todo puede resolverse con el SEO on-site. Si quiere tener gran visibilidad en la era de la IA, piense de qué otros lugares extrae la IA conocimiento en su ámbito. Por ejemplo: si gestiona una tienda de electrónica, las respuestas de la IA a preguntas sobre especificaciones pueden proceder directamente de la base de datos estructurados del fabricante o de Wikipedia (que enumera meticulosamente los parámetros). Para que su marca aparezca en esas respuestas, puede ofrecer pruebas únicas que no figuren en las especificaciones oficiales, o colaborar con portales del sector (artículos como experto invitado). A la IA le gusta combinar fuentes: si su sitio de comercio electrónico aún no es una autoridad, puede merecer la pena que le citen en un sitio que sí lo sea, para que el modelo registre su presencia.

Impacto en el SEO, la AEO y la visibilidad en LLM

Adaptarse a las directrices anteriores tiene efectos tangibles:

Mejor visibilidad de la marca en las respuestas de IA: su contenido pasa a formar parte de la respuesta, de modo que, incluso sin clics, el usuario conoce su marca como fuente de conocimiento. Es algo parecido a ser citado como experto en la prensa: construye reputación. A más largo plazo, esto puede conducir a la «búsqueda de marca»: los usuarios empiezan a asociar que «en el blog X hay grandes análisis», por lo que buscan su marca directamente o confían en las respuestas en las que usted es la fuente.

Tráfico indirecto desde la IA: aunque muchas respuestas de IA se consumen sin un clic, algunos usuarios hacen clic en la fuente para saber más. Especialmente cuando la respuesta es breve o despierta curiosidad. Al ser citado, todavía puede ganar tráfico valioso: quizá menor en volumen que antes desde las SERP, pero más comprometido (si alguien hizo clic a pesar de tener ya una respuesta, está realmente interesado).

Sinergia con el SEO tradicional: lo importante es que las optimizaciones orientadas a los LLM, en su mayoría, no entran en conflicto con el SEO; de hecho, lo refuerzan. Mejorar la estructura de la página, la velocidad, añadir schema, un mejor contenido, el enlazado interno: todos son también factores de posicionamiento en Google. Así, al hacer AEO se beneficia simultáneamente en el SEO clásico. Como resultado, su sitio puede dominar por partida doble: tanto como enlace en el top 10 de Google como en forma de fragmento citado en la IA.

Cambios en la estrategia de palabras clave: en la era de la IA, optimizar para frases exactas pierde importancia (porque el LLM entiende los sinónimos de todos modos). Importa más cubrir el tema y la intención. Puede resultar que el contenido centrado en satisfacer al usuario (completo, bien organizado) rinda de forma excelente en los LLM, mientras que los viejos trucos como el «keyword stuffing» no sirvan absolutamente de nada. El efecto es que el SEO debe evolucionar: la estrategia de contenido debería construirse en torno a temas clave y preguntas de los usuarios, y no solo en torno a frases exactas. Herramientas como AnswerThePublic o People Also Ask cobran más importancia que nunca, porque las preguntas son la nueva unidad de la batalla por la visibilidad.

Zero-click y nuevos KPI: como se ha mencionado, prepárese para informes en los que el tráfico orgánico pueda caer, pero eso no significa necesariamente que lo esté haciendo peor: puede deberse, simplemente, a que la gente obtiene respuestas sin hacer clic. Tendrá que medir, por ejemplo, las menciones de marca, el tráfico de marca, las conversiones asistidas por el canal de IA (por ejemplo, alguien que primero le leyó como cita y, más tarde, llegó al sitio e hizo una compra). El impacto de la IA en el recorrido del cliente puede no ser evidente: quizá la IA reduzca la investigación en la parte alta del embudo (al ofrecer de inmediato ciertas sugerencias), y más consultas sean transaccionales desde el principio.

Nueva competencia: recuerde que un LLM puede combinar información de muchos sitios en un único enunciado. Esto puede jugar a su favor (si es una de las pocas fuentes sobre un tema, la IA le usará), pero también puede aplanar las diferencias entre sitios. Si su contenido no aporta nada único y el de otro tiene lo mismo, la IA puede citarle a usted o a su competidor de forma aleatoria o rotatoria. Por eso es tan importante la diferenciación: datos propios, un experimento único, una infografía a medida descrita en el texto; algo que no pueda encontrarse en otro lugar. Entonces la IA no tiene elección, debe usarle a usted, porque solo usted tiene esa joya de información.

Impacto en el link building y el marketing: por último, esto puede cambiar cómo pensamos sobre el link building y las relaciones públicas. Dado que los enlaces para el posicionamiento han perdido en cierta medida importancia (al menos en el contexto de las respuestas de IA), se trata más de que otros sitios hablen de usted, no solo de que le enlacen. Una gran cita, una mención en un informe popular del sector, la presencia en conjuntos de datos estadísticos: todo ello puede hacer que la IA se fije en usted. El marketing de contenidos se orientará así hacia «ser citado/recompartido» no solo por personas, sino también por algoritmos de IA.

Errores típicos y casos difíciles

Al implementar la optimización para LLM, es fácil tropezar. Aquí tiene una lista de los errores más comunes y de las situaciones complicadas con las que se encuentran los sitios:

Dependencia excesiva de JavaScript: los sitios SPA (Single Page Application) o muy dinámicos pueden tener un aspecto magnífico para los usuarios, pero, si no implementa prerendering, estarán vacíos para muchos bots de IA. El error es asumir que «como Google renderiza esto, los demás probablemente también lo hagan». No es cierto: muchos crawlers de IA no tienen recursos para ejecutar JS completo. La solución: implemente SSR o sirva una versión estática para los bots (eso sí, cuidado con el cloaking; el contenido debe ser el mismo que para los usuarios).

Bloquear lo que no debe en robots.txt: a veces los desarrolladores bloquean accidentalmente algo crucial (por ejemplo, todo /images/ o los archivos CSS necesarios para el renderizado). Esto dificulta la interpretación correcta de la página. Bloquear archivos JSON-LD (a veces guardados en /scripts/) es especialmente perjudicial. Asegúrese de que no se bloquee ningún recurso necesario para comprender la página. Si teme la duplicación (por ejemplo, el sitio se genera en dos versiones y quiere bloquear una), use meta-robots noindex en lugar de un Disallow global: Disallow significa que el bot no verá nada en esa sección, ni siquiera que ahí hay un noindex.

Falta de canonicalización y duplicados: durante la indexación, un LLM puede encontrarse con muchas URL con el mismo contenido (por ejemplo, versiones con parámetros, IDs de sesión, filtrado, etc.). Si no marca una página canónica, puede indexar accidentalmente alguna versión «mermada» (por ejemplo, sin el contexto de la categoría). Esto es análogo al SEO: especifique siempre la canónica donde sea necesario. Esto también se aplica a las versiones móviles (si tiene un m. separado) o a la paginación (proporcione rel prev/next). La IA, por lo general, intenta no perderse, pero cuanto más limpio, mejor.

Chunks demasiado grandes por un formateo deficiente: si escribe párrafos muy largos, por ejemplo de 20 a 30 frases en un solo bloque, el algoritmo de chunking puede dejarlos como uno solo (no encontró un punto donde dividir). Un chunk así puede ser demasiado grande para que el modelo quiera usarlo entero y puede descartarse. Es mejor dividir las ideas en párrafos más cortos (de 3 a 5 frases). Esto no solo facilita la lectura a las personas, sino también a la IA. El error es el «muro de texto»: en SEO solía ser semiaceptable, en IA es casi una garantía de que el muro quedará intacto.

Escribir para el SEO, no para las personas: paradójicamente, la IA obliga a escribir de forma más humana. Si alguien sigue generando textos en masa saturados de palabras clave y sin coherencia, el modelo generativo lo detecta como contenido de bajo valor (hemos visto casos en los que «párrafos sosos con estilo de IA y sin concreción» se ignoran). Un error común: usar ChatGPT para escribir artículos «como atajo» y publicarlos en el sitio con la esperanza de que ayude con la IA. Por desgracia, si usted pudo generarlo, significa que el modelo que lo generó ya ha visto algo así miles de veces. Sus embeddings no serán únicos. Como resultado, su contenido será transparente para otro LLM: no destacará entre cientos de frases similares. El remedio: añada una capa de conocimiento propio, de originalidad. El SEO de IA no consiste en perseguir al algoritmo, sino, paradójicamente, en volver al contenido experto.

Ignorar los metadatos y los detalles técnicos: algunos dicen: «como la IA solo mira el contenido, la etiqueta Title o la metadescripción no importan». En efecto, el Title y la metadescripción ya no son lo que se le mostrará al usuario (el usuario obtiene una respuesta conversacional). ¡Pero eso no significa que carezcan de sentido! El Title todavía puede usarse como contexto: por ejemplo, en el índice vectorial el sistema registra «fragmento X, y el título de la página es …». Esto ayuda en el posicionamiento/filtrado. Del mismo modo, una metadescripción bien redactada puede servir como snippet bajo el enlace en AI Overview. El error es descuidar las viejas buenas prácticas: un Title con un título único y relevante; una metadescripción con un resumen; usar meta author, meta date si no tiene schema (algo que siga señalando al bot quién y cuándo). Igual con sitemap.xml: aparentemente anticuado, pero, como hemos visto, Perplexity aprecia la presencia de un sitemap actualizado. No descarte demasiado rápido cosas que «eran solo para SEO».

Problemas en sitios multilingües y localizados: un caso límite es cuando su sitio existe en muchos idiomas o en versiones por país. La IA puede no elegir siempre la correcta: por ejemplo, alguien pregunta en inglés y su contenido en inglés es flojo, mientras que la versión polaca es completa; el modelo podría incluso usar el fragmento polaco y traducirlo (ha habido casos en los que Bing citaba un sitio en otro idioma y lo traducía al vuelo si no encontraba nada en el idioma objetivo). Para evitar esas situaciones, asegúrese de que cada versión de idioma esté igual de pulida y correctamente conectada mediante hreflang. Si no piensa traducir, por ejemplo, el blog a todos los idiomas, quizá sea mejor excluir esas páginas de la indexación en los idiomas que no soporta (para que no introduzcan caos).

Contenido de pago o solo accesible con inicio de sesión: si su modelo de negocio se basa en un muro de pago, tiene que aceptar el hecho de que la IA más bien no tendrá en cuenta el contenido que hay tras él (a menos que hablemos de integraciones especiales, como la de Bing con el NYTimes para suscriptores). Para un crawler de IA, una página así parece vacía o con un resumen. Sería un error pensar que puede sortearlo, por ejemplo, sirviendo el contenido completo al bot (eso sería cloaking, que Google puede penalizar). De momento no hay una solución perfecta. Puede, en todo caso, ofrecer parte del contenido gratis (por ejemplo, fragmentos extensos o informes en PDF), de modo que al menos parte de su experiencia acabe en el índice de la IA, dejando el resto de pago. Es un dilema: quiere ser citado (el contenido debe ser visible) frente a quiere vender suscripciones (el contenido oculto). Observe el tráfico: quizá el tráfico de las citaciones de IA sea valioso y convierta, y entonces podría replantearse su modelo de negocio.

No seguir las directrices éticas: la IA genera respuestas, pero las empresas que hay detrás tienen políticas; por ejemplo, no pueden citar sitios que difundan desinformación, odio o fraude. Si su contenido cae sin querer en esas categorías (por ejemplo, sin un descargo de responsabilidad en contenido médico especulativo), puede ser omitido. Por ello, conviene automoderarse en línea con el E-E-A-T: aporte fuentes para las tesis controvertidas, evite los consejos categóricos cuando debería decidir un especialista (a menos que usted lo sea y lo indique claramente). La IA confiará más fácilmente en un sitio que parezca neutral y profesional.

Resumen: acciones clave

Por último, recopilemos los pasos prácticos más importantes que puede dar de inmediato para prepararse para la era de la indexación por LLM:

Abra su sitio a la IA: permita el rastreo a los nuevos bots (GPTBot, PerplexityBot, etc.) y elimine las barreras técnicas (inicios de sesión, bloqueos de IP). Supervise sus visitas.

Estructure y trocee su contenido: rediseñe el contenido para que se divida en fragmentos pequeños y autónomos (encabezados, párrafos, listas, FAQ). Cada fragmento debería responder a una pregunta o cubrir un tema.

Utilice datos estructurados y metadatos: añada schema.org (Article, FAQ, HowTo, Product, lo que encaje) y asegúrese de que cada página tenga un meta título y una descripción. Marque el autor, las secciones de FAQ, las valoraciones; cualquier cosa que dé a los algoritmos contexto adicional y confianza sobre la calidad.

Refuerce la credibilidad del contenido: integre elementos de confianza en su contenido: un autor con experiencia, menciones de premios, fuentes de información, datos actualizados. Deje que su sitio demuestre por sí mismo que es experto y digno de ser citado.

Elimine la «magia negra» del SEO: deshágase de prácticas como el keyword stuffing a costa del lenguaje natural. Céntrese en el valor para el usuario: la IA evalúa el texto de forma similar a un lector inteligente, ignorando la palabrería de marketing trivial.

Garantice la limpieza técnica: asegúrese de que el contenido clave esté disponible en HTML de inmediato (no oculto tras clics o scripts). Optimice la velocidad, corrija los errores 404/500, complete los hreflang y actualice el sitemap. Divida los grandes bloques de texto en otros más pequeños.

Pruebe sobre un organismo vivo: pregunte a ChatGPT, Bing, Bard (en el pasado), Perplexity sobre temas de su sitio. Compruebe si le citan y qué citan. Esta es una prueba práctica de su eficacia en AEO: el resultado se le sirve en bandeja.

Esté preparado para la evolución: la búsqueda con IA cambiará; siga los nuevos avances (por ejemplo, llms.txt, las nuevas directrices de Google, los nuevos bots). Adapte la estrategia, trátelo como un proceso continuo, igual que el SEO tradicional nunca ha sido «hacerlo una vez y olvidarse».

Recorriendo las etapas y recomendaciones anteriores, prepara su sitio para un futuro en el que «ser encontrado» significa ser comprendido por la IA. La anatomía del crawling en la era de la inteligencia artificial puede parecer compleja, pero en el fondo se reduce a lo de siempre: ofrecer un gran contenido de forma clara y fácil de usar (ya sea el usuario una persona o una máquina). Entonces, independientemente de si el usuario lee el artículo en su sitio o un resumen generado por un chatbot, será su información la que dé forma a la respuesta. Y eso es precisamente de lo que trata la AEO.