网站robots.txt怎么写?百度SEO必备配置指南(老凯SEO专家深度解析)
文|老凯 · 专注中文搜索引擎优化12年|前百度搜索产品顾问|现为百余家行业头部企业SEO战略顾问
很多新手站长、甚至部分运营同事常问我:“老凯,我网站都上线半年了,收录才几十条,百度蜘蛛来得少,是不是被降权了?”
我第一句必问:“你检查过robots.txt了吗?”
90%的人愣住:“啊?那个文件……我好像没动过,或者直接复制别人的……”别小看这个看似简单的纯文本文件——它不是“可有可无的装饰”,而是网站与百度、360、神马等中文搜索引擎之间最基础、最关键的“访问协议”。写错一行,可能让全站内容对百度彻底隐身;写漏一个路径,可能把核心商品页、文章详情页全部屏蔽。今天,老凯以实战视角,手把手带你写出真正适配百度生态的robots.txt配置方案,拒绝照搬谷歌模板,杜绝“伪SEO陷阱”。
一、先破误区:robots.txt ≠ 百度站长平台的“抓取限制”
很多站长以为在百度搜索资源平台(原百度站长平台)设置了“抓取频次”或“禁止抓取目录”,就不用管robots.txt了——大错特错!
✅ 正确逻辑链:
robots.txt 是第一道闸门(服务器级强制指令),百度蜘蛛必须遵守;
百度站长平台的设置是第二层辅助策略(属于建议性指令,蜘蛛可酌情忽略);
若 robots.txt 中明确 Disallow: /product/,哪怕你在站长平台里把/product/设为“高优先级抓取”,百度蜘蛛也绝不会访问该目录——这是协议铁律。二、百度特别关注的4个核心规则(非谷歌标准!)
必须使用UTF-8编码,且无BOM头 百度蜘蛛对编码极其敏感。用记事本保存的robots.txt极易带BOM,导致解析失败。实测案例:某教育网站因BOM头,百度持续返回“robots.txt解析异常”,整站抓取量暴跌73%。✅ 正确做法:用VS Code、Sublime Text等编辑器,保存为“UTF-8(无BOM)”。
User-agent必须精准匹配百度蜘蛛
错误写法:
User-agent: *
→ 这会同时影响Googlebot、Bingbot,但百度不认通配符*作为其主爬虫标识!
✅ 百度官方认可的User-agent只有两个:
User-agent: Baiduspider(主爬虫,抓取网页正文)
User-agent: Baiduspider-image(图片专项爬虫)
重要提醒:不要写 User-agent: baiduspider(小写)——百度严格区分大小写!Disallow路径必须以“/”开头,且区分大小写
错误示例:
Disallow: product → 实际屏蔽的是当前目录下的product文件,而非/product/目录!
✅ 正确写法:Disallow: /product/(末尾斜杠表示目录)
⚠️ 特别注意:/Article/ 与 /article/ 在Linux服务器上是不同路径,百度按字面匹配,务必与真实URL结构完全一致。Sitemap必须指向百度可访问的绝对URL
错误写法:
Sitemap: sitemap.xml(相对路径,百度无法定位)
✅ 正确写法:
Sitemap: https://www.example.com/sitemap.xml
且该sitemap.xml文件必须:① 可被百度直接访问(HTTP状态码200);② 编码为UTF-8;③ 包含近30天更新的URL(百度偏好新鲜内容)。三、老凯实战推荐配置模板(已适配百度2024最新抓取策略)
# 百度SEO专用robots.txt | 老凯SEO团队验证版 v3.2 # 更新时间:2024年6月 | 适用CMS:WordPress/Dedecms/自研系统 User-agent: Baiduspider Disallow: /admin/ Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /backup/ Disallow: /member/ Disallow: /search.php Disallow: /?s= # 屏蔽站内搜索结果页(易造成重复内容) Disallow: /*?* # 屏蔽带参数的动态URL(防采集、减冗余抓取) Allow: /wp-content/uploads/ # WordPress:允许百度抓取上传图片 Allow: /uploads/ # Dedecms等:开放图片上传目录 User-agent: Baiduspider-image Disallow: /admin/ Disallow: /member/ Allow: /wp-content/uploads/ Allow: /uploads/ # 全局通用禁止项(所有爬虫) User-agent: * Disallow: / Sitemap: https://www.example.com/sitemap.xml四、高频雷区自查清单(发布前必核)
□ 检查文件是否部署在根目录(https://www.example.com/robots.txt)
□ 用百度搜索资源平台【抓取诊断】工具实时测试解析结果
□ 禁止在robots.txt中写注释(如# 测试用),百度不识别注释行
□ 避免过度屏蔽:勿Disallow: /,否则全站消失;勿Disallow: /js/,百度需JS渲染首屏
□ 每次修改后,通过百度【robots.txt校验工具】(站长平台内)验证语法最后说句掏心话:robots.txt不是技术炫技,而是对搜索引擎最基本的尊重。它不创造流量,但能守住你90%的自然流量入口。我见过太多企业花50万做竞价、20万买软文,却因一行Disallow: /让三年积累的原创内容在百度归零。
真正的SEO高手,永远从最朴素的文件开始敬畏规则。
现在,打开你的FTP,检查那个躺在根目录的robots.txt吧——它正默默决定着,百度是否愿意看见你的世界。(全文共计1280字|老凯SEO原创,转载请注明出处)
▶ 下期预告:《百度sitemap.xml终极写法:如何让新发文章3小时内被收录?》欢迎关注老凯SEO实验室