什么是robots.txt?(小白也能懂)
想象一下:你的网站就像一座大房子,Google的爬虫就像来访的客人。robots.txt就是你家门口的”参观须知”,告诉客人哪些房间可以进,哪些房间谢绝参观。

简单来说,robots.txt是一个纯文本文件,放在你网站的根目录下(比如:www.example.com/robots.txt),用来告诉搜索引擎爬虫:
- ✅ 哪些页面可以抓取
- ❌ 哪些页面不要抓取
- 📍 网站地图在哪里
- ⏰ 抓取频率如何控制
💡 2024年重大更新:Google现在只支持4个核心指令了!这意味着你需要重新审视你的配置策略。
为什么robots.txt这么重要?
保护隐私内容
防止后台管理页面、用户信息、测试页面等被搜索引擎收录。
优化爬虫预算
让Google把精力放在重要页面上,而不是浪费在无用的筛选页面。
避免重复内容
防止同一内容的多个版本被收录,影响SEO排名。
基础语法规则(看懂这4个就够了)
指令 | 作用 | 示例 |
---|---|---|
User-agent | 指定爬虫 | User-agent: * (所有爬虫) |
Disallow | 禁止访问 | Disallow: /admin/ |
Allow | 允许访问 | Allow: /public/ |
Sitemap | 网站地图 | Sitemap: https://example.com/sitemap.xml |
最简单的例子(允许所有)
User-agent: * Disallow: # 这表示允许所有爬虫访问所有页面
常见配置示例
User-agent: * Disallow: /admin/ # 禁止访问后台 Disallow: /private/ # 禁止访问私密内容 Allow: /public/ # 允许访问公开内容 Sitemap: https://www.example.com/sitemap.xml
5个最容易犯的致命错误
错误1:大小写混淆
/Category/ 和 /category/ 是两个完全不同的路径!
错误2:屏蔽CSS和JS文件
Google需要这些文件来正确理解你的页面,屏蔽会影响排名!
错误3:文件位置错误
必须放在根目录,不能放在子文件夹里!
错误4:使用已废弃的指令
Crawl-delay已被Google废弃,继续使用没有任何效果!
错误5:通配符使用错误
忘记*和$的正确用法,导致规则无效!
不同类型网站的最佳配置模板
企业官网(最简配置)
User-agent: * Disallow: Sitemap: https://www.example.com/sitemap.xml # 2024年推荐:除非必要,否则不限制任何内容
电商网站(防止爬虫预算浪费)
User-agent: * Disallow: /cart/ # 购物车 Disallow: /checkout/ # 结账页面 Disallow: /account/ # 用户账户 Disallow: /*?sort* # 排序页面 Disallow: /*?filter* # 筛选页面 Allow: / Sitemap: https://www.shop.com/sitemap.xml
WordPress博客(2024最新版)
User-agent: * Disallow: /wp-admin/ # 后台管理 Allow: /wp-admin/admin-ajax.php Disallow: /*?s=* # 搜索结果 Disallow: /*?p=* # 预览页面 Sitemap: https://blog.com/wp-sitemap.xml # 注意:不要屏蔽wp-content,Google需要它!
重要提醒:不要再屏蔽/wp-content/目录了!Google需要其中的CSS和JS文件来正确渲染页面。
如何测试你的robots.txt?
方法1:Google Search Console
最官方的测试工具,可以看到Google如何解析你的文件。
方法2:直接访问
在浏览器输入:你的网站.com/robots.txt
方法3:第三方工具
使用SE Ranking、Screaming Frog等专业工具。
2024-2025年最新趋势
AI爬虫管理:随着ChatGPT等AI工具的流行,越来越多网站开始屏蔽AI训练爬虫。你需要决定是否允许AI使用你的内容。
屏蔽AI爬虫的配置
# 屏蔽主流AI爬虫 User-agent: GPTBot User-agent: Claude-Web User-agent: CCBot Disallow: /
技术规格速查表
搜索引擎 | 文件大小限制 | 缓存时间 | 特殊支持 |
---|---|---|---|
500KB | 24小时 | 仅4个指令 | |
Bing | 未明确 | 24小时 | 支持Crawl-delay |
百度 | 48KB(检测) | 未公开 | 基础指令 |
Yandex | 500KB | 24小时 | 保留历史版本 |
实施清单(立即行动)
检查文件位置
确保robots.txt在根目录,能通过 yoursite.com/robots.txt 访问
验证UTF-8编码
使用记事本另存为时选择UTF-8编码
测试每条规则
在Google Search Console中逐一测试
设置监控
使用工具监控文件变更,防止意外修改
记住:robots.txt配置没有”一劳永逸”,需要根据网站发展不断调整。定期检查和优化是保持良好SEO表现的关键。
原创文章,作者:小鹿乱撞°,如若转载,请注明出处:https://www.54wd.com/486.html