Posted in

百度只收录首页不收录内页?问题出在这3个地方

百度只收录首页不收录内页?问题出在这3个地方缩略图

百度只收录首页不收录内页?问题出在这3个地方(老凯SEO实战解析)

文|老凯 · 12年百度系SEO老兵|专注中文搜索生态深度研究

很多站长朋友最近私信我:“老凯老师,我的网站上线快两个月了,百度收录一直停留在首页,点开百度搜索资源平台一看——收录量永远是‘1’,内页一条都不见!内容天天更新,关键词也做了优化,但就是没收录,更别提排名了……这到底是怎么回事?”

这不是个例,而是当前中小站点、新站、甚至部分改版后老站的高频“症状”。作为在百度搜索生态里摸爬滚打12年的SEO从业者,我必须说一句扎心的话:百度不是“不收录”你的内页,而是系统根本没把它当“合格页面”来抓取和评估——首页能被收录,恰恰暴露了你网站底层结构存在严重缺陷。

今天,我就以一个实战派SEO专家的视角,带大家穿透表象,直击本质。百度只收首页不收内页,90%以上的问题,就卡在这3个关键环节上——不是技术玄学,全是可诊断、可修复、可验证的硬伤。

第一处致命伤:导航链路断裂——你的内页,百度蜘蛛根本“走不到”

很多站长以为:只要把文章发布出来,加个分类目录,百度就能自动发现。错!大错特错。

百度蜘蛛(Baiduspider)本质是一个“爬虫机器人”,它没有眼睛,不会点击下拉菜单,不识别JS渲染的导航,更看不懂“美观但无语义”的H5动画菜单。它只认一种语言:HTML静态链接+合理层级路径+可追溯的锚文本链路。

常见病灶:

首页导航栏用纯JS或Vue/React动态生成,源代码中无真实标签; 分类页、标签页、归档页全部通过AJAX加载,源码为空白或仅有占位符; 内页之间无任何相互链接(比如文章末尾不加“相关阅读”,列表页不展示摘要+链接); 网站底部版权区只有“©2024 XXX公司”,却漏掉了至关重要的“网站地图”和“栏目入口”。

▶️ 老凯实操诊断法:

打开你的网站首页,右键→“查看网页源代码”→Ctrl+F搜索“.html”或“/article/”等内页路径。如果搜不到3条以上真实存在的、非JS生成的内页链接,恭喜你——你的网站对百度而言,就是一个“单间公寓”:只有一扇门(首页),里面再无其他房间门(内页入口)。

✅ 修复方案(立即生效):

① 在首页、分类页、文章页底部,手动添加3–5个高质量内页锚文本链接(如:“《如何写好标题》”、“新手SEO避坑指南”);

② 生成符合Sitemap 0.9协议的XML地图(推荐使用Dedecms自带工具或在线生成器),提交至百度搜索资源平台,并确保robots.txt允许访问;

③ 所有导航必须输出为原生HTML
标签,禁用“伪静态但无真实跳转”的前端路由伪装。

第二处隐性雷区:内容价值稀释——内页缺乏独立主题与信息增量

百度近年反复强调:“拒绝采集站、拒绝低质聚合、拒绝无差异化内容。”而大量只收首页的站点,内页普遍存在“伪原创”陷阱:

所有文章模板高度雷同:相同开头套路(“在当今数字化时代…”)、相同结尾呼吁(“欢迎关注我们!”)、相同配图尺寸与水印位置; 关键词堆砌明显:标题含3个主词(SEO优化+百度收录+网站排名),正文前100字重复出现5次“SEO”; 无用户意图匹配:写“WordPress建站教程”,却不讲具体操作步骤、报错截图、后台路径,只泛泛而谈“很重要”“要重视”。

百度算法(尤其是2023年发布的“星火”与2024年“玉言”升级)已具备强语义理解能力。它会对比首页与内页的主题相关性、信息密度、可信度信号(如外链引用、用户停留时长预估)。一旦判定某内页是“首页的廉价复制品”,系统将直接降权处理——不抓取、不索引、不展示。

▶️ 老凯内容健康度自测表(任一达标即加分):

✓ 页面有明确且唯一的解决目标(如:“解决宝塔面板502错误的7种真实方法”);

✓ 正文含≥2张原创截图/流程图/数据表格(非网络盗图);

✓ 每段首句含动词引导(“点击设置→选择PHP版本→重启服务”);

✓ 文末提供可验证的延伸资源(官方文档链接、GitHub Issue参考、本地化测试环境配置)。

✅ 修复核心:把每一篇内页当作“独立产品”来打造——它不需要讨好所有用户,但必须精准解决某一类用户的某一个具体问题。

第三处技术暗坑:服务器与抓取权限失控——蜘蛛来了,却被拒之门外

这是最容易被忽视,却最致命的一环。

很多站长用的是共享主机、低价云虚拟机,或自行搭建的Nginx环境,却未做基础SEO适配:

robots.txt误写为 Disallow: / 或 Disallow: /*.php$(连首页都该被屏蔽); 服务器返回状态码异常:内页返回302临时跳转(指向首页)、或403/406/503等非200状态; 网站启用了过于激进的防爬策略:Cloudflare开启“Under Attack Mode”、WAF规则误杀Baiduspider UA; 未配置canonical标签,导致同一内容多个URL(带www/non-www、带index.html、带参数utm_source)被识别为重复内容,百度只保留首页URL。

▶️ 老凯必查三步:

① 百度搜索资源平台→“抓取频次”看近7日是否真有内页抓取记录;

② 使用站长工具(如Screaming Frog)全站爬一遍,筛选出状态码≠200的内页;

③ 在百度资源平台“user-agent校验”中输入Baiduspider真实UA,测试任意内页能否正常返回HTML。

✅ 终极修复口诀:

“一放二稳三唯一”——

放:robots.txt放开所有必要目录(/article/ /category/);

稳:确保每个内页稳定返回200+完整HTML(禁用JS渲染首屏);

唯一:全站统一主域(强制301跳转),每页设置规范canonical。

结语:首页不是终点,而是起点的哨兵

百度只收录首页,不是给你发“及格证”,而是一张红色预警单。它在告诉你:你的网站尚未构建起可持续的内容生长系统、可信的技术信任体系、以及真实的用户价值闭环。

别再问“为什么百度不收录”,先问自己:“我的内页,值得被收录吗?”

从今天起,砍掉花哨的JS导航,补上扎实的HTML链路;放下关键词执念,回归一个用户、一个问题、一次解决;检查每一行服务器配置,像守护金库一样守护每一次蜘蛛来访。

SEO没有捷径,但有路径。而路径,永远始于对问题本质的清醒认知。

——老凯于北京·凌晨2:17

(刚帮一位教育类新站修复内链后,其37篇课程页24小时内新增收录31条)

【附】自查清单PDF版(含robots.txt模板/Canonical写法/百度UA校验步骤)可留言“内页收录”免费领取。