Autores: Equipo de análisis (YaggoSEO y sus Neuro divergencias) (Agosto 2025).
Comparativa: Clasificación de Negocios Locales en GPT-4 vs GPT-5
Este artículo compararemos el funcionamiento de Chat GPT en su versión GPT-5, según el estudio anterior cómo Chat GPT-4 clasifica negocios locales (GPT-4).
Con los resultados observados en GPT-5 para la búsqueda «mejores tortillas A Coruña» y múltiples consultas similares (tiendas, negocios, profesionales etc.). Todas siguiendo el mismo patrón de Prompt, modelo de gpt etc.
Primero os dejo una tabla comparativa, un diagrama del flujo de datos y una explicación sobre las posibles APIs y bases de datos que GPT-5 podría estar utilizando a día de hoy.
Tabla Comparativa de Modelos LLMs
| Aspecto | GPT-4 (estudio YaggoSEO anterior) | GPT-5 (estudio actual) 09/08/2025 |
| Proceso de obtención | Lanza 1 búsqueda en Bing (`web.search`), filtra por safe_urls, consulta Foursquare y scraping de Google Maps. | Lanza búsqueda web en tiempo real consultando múltiples fuentes abiertas, incl. prensa local, blogs, TripAdvisor, webs oficiales y rankings. |
| Orden de resultados | Depende del tiempo de respuesta del proveedor (el que responde primero aparece primero). No reordena por relevancia. | Agrupa y ordena de forma temática (premios, rankings, innovación) sin depender del orden de llegada. |
| Fuentes principales | Predominio de Foursquare y Google Maps (whitelist cerrada). | Fuentes diversas: medios, blogs, TripAdvisor, webs oficiales y rankings. |
| Tipo de datos | Ficha básica: nombre, dirección, rating, precio, teléfono. | Ficha enriquecida + narrativa: historia, premios, estilo, contexto gastronómico, tabla de recomendaciones. |
| Interfaz de salida | `businesses_map` simple con info cruda. | `businesses_map` con análisis textual, tabla comparativa y explicaciones para decidir. |
| Actualización temporal | Limitada a cambios en las fuentes whitelisted. | Incluye noticias recientes (2024-2025) y eventos recientes. |
| Interpretación propia | No interpreta ni jerarquiza más allá del orden de llegada. | Curación activa: selecciona, ordena y agrupa según criterios propios (premios, popularidad, innovación, variedad). |
Flujo comparado
GPT-4 (según tu estudio previo)
web.search()(Bing)- Filtro por safe_urls (lista blanca)
- Llamadas en paralelo a proveedores (p. ej., Foursquare rápido; scraping de Google Maps más lento)
- Inserción por orden de llegada en el widget (no hay
sortglobal).
Consecuencia: el orden visible depende en gran parte de la latencia de cada proveedor.
GPT-5 (reconstruido a partir del archivo adjunto)
- Meta-búsqueda en paralelo (no depende de un único buscador)
- safe_urls + recopilación de múltiples fuentes (directorios + prensa/blogs)
- Normalización y deduplicación por NAP
- Enriquecimiento (premios, noticias, reseñas)
- Presentación en
businesses_map+ narrativa editorial (agrupa por premios/innovación/popularidad).- El mapa suele reflejar el orden base de llegada de proveedores,
- pero el texto y las tablas ya vienen ordenadas/editorializadas.
Evidencias de campos y proveedores en tu salida GPT-5: presencia de businesses_map, proveedores foursquare/serp, y campos como rating, review_count, price_str, hours, phone, business_fallbacks, safe_urls, cite_map
Posible Pseudocódigo de ejemplo
Nota: no es el código interno de OpenAI (no es público). Es pseudocódigo que modela el comportamiento observado para explicar/entender la diferencia entre GPT-4 y GPT-5 más fácilmente.
GPT-4 (baseline del estudio anterior)
def build_local_list_gpt4(query):
results = web.search(query) # Bing
urls = filter_safe_urls(results) # whitelist
# Proveedores en paralelo:
fut = [
fetch_foursquare(query), # rápido
scrape_google_maps_serp(query) # más lento
]
items_stream = as_completed(fut) # llega lo primero que responda
businesses = []
for item in items_stream:
businesses.extend(item) # SIN sort global
return businesses_map(businesses) # orden = llegada
GPT-5 (flujo reconstruido posible)
def build_local_list_gpt5(query):
# 1) Meta-búsqueda y filtrado
candidates = parallel_fetch([
search_engines(query), # meta (no 1 solo motor)
fetch_directories(query), # Foursquare/TripAdvisor/Yelp...
crawl_media_and_blogs(query), # prensa/blogs recientes
])
candidates = filter_safe_urls(candidates) # safe_urls
# 2) Normalización y deduplicación por NAP
entities = normalize(candidates) # {name, address, phone, lat, lng, ...}
entities = dedupe_by_nap(entities)
# 3) Enriquecimiento de atributos
for e in entities:
e.signals = gather_signals(e) # ratings, premios, noticias, horarios
# 4) Presentación dual
# 4a) Mapa: respeta en gran medida el orden de llegada de proveedores (para “poblar” rápido)
map_items = preserve_arrival_order(entities)
# 4b) Narrativa/tabla: aplica ranking editorial híbrido
editorial = sort_by([
semantic_relevance(query),
source_authority(), # medios/dirs confiables
recency_signals(), # premios/noticias recientes
diversity_bucket(), # variedad de estilos
popularity_scores(), # ratings, reseñas multi-plataforma
], entities)
return {
"businesses_map": map_items,
"analysis": editorial_to_text(editorial),
"tables": build_comparison_table(editorial)
}
Flujo de Búsqueda y Ranking en GPT-5
GPT-5 ya no depende únicamente de un buscador como Bing, sino que utiliza un servicio de búsqueda interno (Sonic) que actúa como meta-buscador.
Este sistema consulta varias fuentes en paralelo, mezcla sus resultados y aplica un ranking editorial antes de presentarlos al usuario.
Fuentes que Consulta GPT-5
| Tipo de fuente | Método probable de obtención | Ejemplos |
| Buscadores tradicionales | API o scraping indirecto | Google, Bing |
| Agregadores y directorios | API o scraping directo | Foursquare, TripAdvisor, Yelp |
| Medios y blogs | Scraping en tiempo real o indexado previo | El País, El Español, prensa local |
| Datos estructurados | APIs o bases de datos públicas/privadas | Google Business Profiles, catálogos gastronómicos, datasets |
| Bases internas | Base de datos acumulada de consultas anteriores | Fichas previas de negocios |
Criterios de Ranking en GPT-5
A diferencia de GPT-4, que ordenaba los negocios según la velocidad de respuesta de cada proveedor, GPT-5 aplica un ranking editorial híbrido que combina:
1. Relevancia semántica de la descripción respecto a la consulta.
2. Autoridad de la fuente, priorizando medios y directorios confiables.
3. Recencia, favoreciendo menciones y premios recientes.
4. Diversidad de estilos o categorías para cubrir distintos perfiles.
5. Popularidad medida por puntuaciones y reseñas en diversas plataformas.
Esquema del Flujo de Datos en GPT-5
Consulta del usuario → Servicio de búsqueda interno (meta-buscador) → Fuentes múltiples en paralelo (buscadores, directorios, medios, datos internos) → Normalización y fusión de duplicados → Enriquecimiento con premios y noticias → Ranking editorial (relevancia, autoridad, recencia, diversidad, popularidad) → Agrupación por categorías → Presentación final (businesses_map + narrativa + tablas).
Consulta del usuario
↓
Servicio de búsqueda interno (meta-buscador)
↓
┌───────────────┬──────────────┬───────────────┬─────────────────┐
│ Buscadores │ Directorios │ Medios/blogs │ Datos internos │
│ (Google/Bing) │ (Foursquare, │ (Prensa local │ (Base histórica)│
│ │ TripAdvisor) │ y nacional) │ │
└───────────────┴──────────────┴───────────────┴─────────────────┘
↓
Recopilación paralela → Normalización de datos → Fusión de duplicados
↓
Enriquecimiento (premios, noticias, reseñas)
↓
Ranking editorial (relevancia, autoridad, recencia, diversidad, popularidad)
↓
Agrupación por categorías
↓
Presentación final (businesses_map + narrativa + tablas)
Bases de Datos Públicas, Privadas y Grafos Utilizados por GPT-5 (Posibles)
Aviso: esta lista es inferida por comportamiento observado y no ha sido publicada oficialmente por OpenAI.
Aunque OpenAI no ha revelado una lista oficial de las bases de datos que utiliza GPT-5 para clasificar negocios locales, por el patrón de sus respuestas y las coincidencias con datos provenientes de terceros, es posible inferir qué orígenes pueden intervenir en sus procesos.
Bases de Datos Públicas
- Common Crawl: índice web abierto con terabytes de páginas que permiten extraer menciones, direcciones y reseñas históricas.
- Datos abiertos gubernamentales: directorios de empresas o licencias publicadas por ayuntamientos y organismos oficiales.
- OpenStreetMap: base de datos geográfica y de puntos de interés (POIs).
- Wikipedia / Wikidata: datos generales y estructurados sobre empresas, ubicaciones y categorías.
- En la mayoría de las consultas Wikipedia entra en el Recall pero no pasa a evidencia citada, además en KW muy ambiguas añade «entidades» que no se corresponden con la búsqueda (típico de la página de desambiguación de wiki). Eso sí, la cosa cambia cuando la búsqueda es de tipo «Background de Marca», ahí si wikipedia pasa el Recall. En este caso Wikipedia ofrece una ficha consolidada y neutra por eso el sistema la prefiere como respaldo rápido frente a blogs o tiendas. Wikipedia para los LLMs es una fuente fiable como lo era para Google en su momento. (Como dice la gran Olga Ortega: ‘Red Links – Good Luck’)
Bases de Datos Privadas / Comerciales
- Data Axle (antes InfoGroup): base de datos de negocios con NAP (Name, Address, Phone) y categorías.
- SafeGraph: datos de localización y patrones de visita a negocios.
- DataProvider.com: inventario global de empresas y sitios web con metadatos comerciales.
- Yelp Fusion API: reseñas y valoraciones.
- TripAdvisor API: reseñas turísticas y gastronómicas.
- Foursquare Places API: listados y geolocalización de negocios.
- Google Places API: horarios, reseñas y puntuaciones.
- Bing Places API: datos de negocio con cobertura diferente a Google.
Datos Internos y Grafos de Conocimiento
GPT-5 también parece alimentarse de datos indexados internamente por OpenAI, incluyendo:
- Consultas previas de usuarios.
- Datos obtenidos mediante scraping periódico de medios, blogs y directorios.
- Feeds RSS y rastreos de páginas clave.
Estos datos se organizan en estructuras tipo grafo de conocimiento, donde cada negocio se conecta con menciones, reseñas, eventos, ubicaciones y categorías, similar al Knowledge Graph de Google o a grafos semánticos.
Este enfoque facilita combinar información dispersa y dar respuestas más contextuales.
Rastreo de LLMs.txt y LLMs-full.txt
El panorama es mixto. Varios análisis señalan que no hay soporte oficial amplio por parte de los grandes (OpenAI/Anthropic/Google) a fecha reciente, y que llms.txt no bloquea ni autoriza por sí mismo.
Observaciones en la práctica: hay sitios que reportan visitas de GPTBot a llms.txt y aún más a llms-full.txt, e incluso métricas donde ChatGPT sería una parte relevante de ese tráfico; son datos empíricos de terceros, no confirmación oficial. (Archer Education).
En mi caso ya estoy recibiendo solicitudes de rastreo a mis webs y de mis clientes al archivo LLMs.txt y LLMs-full.txt. No solo a través de los bots de OpenAI directamente, si no como se menciona anteriormente de uno de los mayores proveedores de datos del mundo como es dataprovider.com.
Aquí una muestra:

Caso Estudio 2: cómo Chat GPT-5 clasifica negocios locales Por lo que nos lleva a pensar que sí que será un estándar que adaptarán como Google adaptó Schema.org a sus Guidelines y algoritmos. pero la pregunta que deberíamos hacernos es: ¿y por que lo hacen?, pues la respuesta más simple suele ser la más aceptada: Por DINERO, ¿Dinero?, si. imagina la reducción de costes en presupuesto de rastreo y renderizado si se empieza a integrar una archivo en Markdown que no deja de ser un texto plano, rápido, ligero, organizado y fácil de implementar. Menos coste = Más Dinero.
Lo que sí es oficial para controlar OpenAI es: que sus bots (p. ej., GPTBot, OAI-SearchBot) respetan (en principio) robots.txt; si quieres permitir o bloquear, usa robots.txt (y valida en logs).
Técnicas de Combinación de Datos
- Meta-búsqueda: consulta simultánea a múltiples APIs y buscadores.
- Fusión probabilística: combina resultados de distintas fuentes ponderando su autoridad y coherencia.
- Ranking híbrido: mezcla relevancia semántica, popularidad, recencia y diversidad.
- Enriquecimiento contextual: añade datos extra como premios, noticias y reseñas recientes.
Conclusiones finales del estudio
He comparado mi estudio original de GPT-4 con lo que ahora observo en GPT-5 y la conclusión es clara: ya no basta con “estar” en un directorio. GPT-5 mezcla fuentes (directorios, prensa, blogs, webs oficiales) y aplica una capa editorial (re-ranking)que prioriza recencia, autoridad y variedad.
La base de datos inicial sigue dependiendo de proveedores rápidos (ej. Foursquare), pero la presentación final está cada vez más curada y orientada a ayudar al usuario a decidir.
Para posicionar negocios locales en respuestas de IA, hoy manda ser visible en proveedores veloces + tener señales recientes y fiables en la web abierta.
Qué significa en la práctica
- GPT-5 re-rankea con más “contexto editorial”: no solo devuelve sitios, sino que integra premios y cobertura mediática para empujar winners claros arriba (p. ej., O Cabo), y luego ofrece una capa de curación (“Destacados”, “Cómo elegir”). mejores tortillas A cor…
- GPT-4 prioriza cobertura de directorios y cercanía funcional para una intención concreta (vegetariano cerca de una calle), con menos narrativa editorial y más apoyo en listados/ratings.
Consejos generales para mejorar el ranking (acción práctica)
- Foursquare primero: reclama y optimiza la ficha (categoría precisa, fotos propias, NAP impecable). Suelen “llegar” antes y rellenan el mapa rápido.
- Google Business Profile a tope: reseñas recientes (y respondidas), categorías, servicios, horarios y fotos/menú.
- Consigue menciones en medios locales y blogs con autoridad: notas de prensa cortas sobre premios, hitos o novedades. GPT-5 las usa como señales frescas.
- Coherencia NAP en toda la red: web, GBP, Foursquare, TripAdvisor, Yelp, etc. Evita duplicados mediante el mismo nombre/teléfono/dirección.
- Schema “LocalBusiness” en tu web: dirección, geo, horarios, menú/servicios; enlaza a tus perfiles (sameAs).
- Páginas “colección” y FAQs claras: listas curadas (“mejores X en Y”), preguntas frecuentes y comparativas… GPT-5 las entiende muy bien.
- Rendimiento y accesibilidad: CDN, tiempos de respuesta bajos y nada que bloquee a los bots que quieres permitir.
- Cuida la frescura del contenido: publica breves actualizaciones (novedades, platos, eventos, premios) y enlázalas internamente.
- Monitoriza logs del servidor: busca “GPTBot”, “OAI-SearchBot” y referencias a /robots.txt o /llms.txt para ver qué está entrando.
- Cubre varias fuentes “de confianza”: TripAdvisor/Yelp (si aplica), prensa local y páginas oficiales. Cuanta más diversidad de señales fiables, mejor.
Disclaimer: Todo esto se basa en mis pruebas y análisis, no es la verdad absoluta ya que nadie la tiene, y si alguien se jacta de tenerla desconfía, «Cuando la limosna es grande hasta el santo desconfía».
Preguntas Frecuentes
¿Cuál es la principal diferencia entre la forma en que GPT-4 y GPT‑5 (según el estudio) clasifican negocios locales?
El estudio indica que GPT-5 ya no se basa únicamente en la velocidad de llegada de los proveedores, sino que incorpora un ranking editorial híbrido que considera relevancia semántica, autoridad de la fuente, recencia de información, diversidad, popularidad, etc.
¿Qué fuentes utiliza GPT-5 para obtener datos de negocios locales?
Se infiere que usa un meta-buscador que consulta en paralelo múltiples fuentes: buscadores tradicionales, directorios (Foursquare, TripAdvisor, Yelp), medios y blogs, bases de datos públicas/privadas y datos internos de consulta histórica.
¿Cómo puedo prepararme para que mi negocio local tenga visibilidad en GPT-5?
Además de los factores tradicionales de SEO local, el artículo sugiere que debes asegurar: cobertura en directorios/reseñas actualizadas, menciones en medios/blogs, premios o noticias recientes, buen tratamiento semántico de la descripción del negocio, presencia en distintas plataformas.
¿Significa esto que la proximidad o la valoración ya no importan para GPT-5?
No exactamente. La proximidad sigue siendo relevante en búsquedas geo-localizadas, pero ya no es el factor dominante, y la valoración por sí sola tampoco garantiza posición: la autoridad de la fuente, el contexto, la diversidad de datos tienen cada vez más peso.
¿El estudio indica que GPT-5 utiliza algoritmos internos de OpenAI que no se conocen públicamente?
Sí. Se trata de una inferencia basada en análisis observacional, no de un documento oficial. Se especifica que “no es el código interno de OpenAI” sino lo que el comportamiento sugiere.







