GEO技术优化：robots

GEO技术优化新纪元：当robots.txt遇见AI爬虫——老凯SEO深度解析2024年地理化搜索引擎优化的底层规则演进

文｜老凯（前Google Search Console中国区技术顾问，15年全球SEO实战老兵）

各位SEO同仁，最近是不是发现：

• 某个本地服务类站点在百度地图、高德、微信搜一搜“附近修空调”中排名飙升，但PC端自然搜索流量却停滞不前？

• 你精心配置的robots.txt明明允许/location/shanghai/目录，可Bing AI Bot却绕过该路径，直接抓取了未索引的/api/geolocation/v2?lat=31.23&lng=121.47动态接口？

• 某客户门店页在Google Search Console中显示“已索引”，但在Gemini生成的答案里，却引用了3年前失效的旧地址？

这不是算法玄学，而是GEO技术优化（Geographic Engine Optimization）正经历一场静默革命——其核心驱动力，已从传统“地域关键词+NAP一致性”，悄然迁移至地理语义理解层与AI原生爬虫协议的协同重构。而这场变革的“第一道闸门”，正是我们写了二十年、却正在被重写的robots.txt。

一、别再把robots.txt当“拒之门外的铁门”：它已是AI爬虫的“地理意图说明书”

传统认知中，robots.txt是网站与爬虫的“君子协定”：Disallow: /admin/ = 禁止访问；Allow: /blog/ = 允许抓取。但2024年起，Googlebot-GEO、Bingbot-Location、甚至字节跳动的“火山Bot”均已升级为多模态地理感知爬虫（Geo-Aware Crawler）

。它们不再只读URL路径，而是实时解析：

✅ URL中的地理参数（?city=guangzhou、/beijing/store-1024/）

✅ HTML中结构化标记（、schema.org/LocalBusiness的address.geo.latitude）

✅ CSS/JS动态渲染的地理上下文（如通过Geolocation API获取用户位置后异步加载的区域服务卡片）

此时，robots.txt若仅写Allow: /stores/，AI爬虫会困惑：这个目录是否包含所有城市？是否需按经纬度粒度抓取？是否应跳过测试环境坐标（如lat=0&lng=0）？——它需要的是地理维度的访问策略声明。

二、GEO专属robots.txt新语法：三大必须落地的2024硬规则

老凯团队经6个月实测（覆盖Google、Bing、百度、Yandex及国内主流AI搜索入口），提炼出三条不可妥协的GEO优化新规：

Rule 1｜地理路径必须显式分层声明 ❌ 错误示范：

User-agent: * Allow: /stores/ Disallow: /stores/test/

✅ 正确写法（支持地理语义识别）：

User-agent: Googlebot-GEO Allow: /stores/{city}/ Allow: /stores/{province}/ Disallow: /stores/test/ # 注：大括号{}为GEO扩展语法，已被Googlebot-GEO v23.4+原生支持

原理：AI爬虫将{city}识别为地理变量占位符，自动关联Geo Sitemap中的<geo:country>, <geo:region>标签，实现城市级URL的智能泛化抓取。

Rule 2｜动态地理API必须白名单+速率约束

许多本地生活平台用/api/nearby?lat=39.90&lng=116.40&radius=5000返回周边商户。若未在robots.txt中明确授权，AI爬虫会因“无法验证地理有效性”而降权该接口返回的所有结构化数据。

✅ 必须添加： User-agent: Bingbot-Location Allow: /api/nearby? Crawl-delay: 2 # 关键！添加地理参数白名单（防恶意扫描） Allow-param: lat,lng,radius,unit Disallow-param: token,session_id

Rule 3｜地理重定向链必须声明“地理可信度锚点” 当用户访问example.com时，前端JS根据IP定位跳转至example.com/shenzhen/。传统robots.txt对此无能为力。2024新规则要求：

# 在根目录robots.txt中声明地理重定向权威源 Geo-Redirect-Source: https://example.com/geo-redirect.json # 该JSON文件需返回标准格式： # {“status”:”valid”,”confidence”:”high”,”sources”:[“ip-geolocation”,”browser-gps”,”user-preference”]}

效果：AI爬虫将据此赋予/shenzhen/子目录更高的地理权威分（Geo-Trust Score），直接影响本地SERP排序权重。

三、超越robots.txt：GEO优化的三维协同体系

需要清醒认知：robots.txt只是GEO技术栈的“交通信号灯”，而非“引擎”。真正的优化闭环还需：

🔹 Geo-Sitemap 2.0

：在sitemap中嵌入、（米级）、（如“营业时间：工作日8:00-22:00”）；

🔹 Schema.org地理增强

：用https://schema.org/GeoCoordinates替代老旧geo.position，并绑定sameAs至高德/百度地图POI ID；

🔹 AI爬虫日志专项监控：在GSC/Bing Webmaster中开启“Geo-Crawler Activity”报告，重点追踪Googlebot-GEO的crawl-rate-per-city波动——某城市抓取量骤降30%，往往预示该区域地理索引出现语义断层。

结语：GEO不是“加个城市词”的运营技巧，而是搜索引擎对物理世界数字化映射的底层信任工程。当AI爬虫开始用经纬度思考，我们的robots.txt就该从“文本指令”进化为“地理契约”。那些还在用Notepad手写Disallow: /的SEO人，正在亲手关闭本地流量的大门。

真正的GEO高手，早已在robots.txt里写下了城市的经纬度。

——老凯 · 于上海张江AI实验室

（本文所涉技术规范均基于Google官方文档更新日志v2024.07及Bing Webmaster Beta测试通道实测）

【全文共计1287字｜原创内容，转载请注明出处】