什么是 robots.txt?
robots.txt
是网站根目录下的一个文本文件,它用于告诉搜索引擎蜘蛛(User-Agent)哪些内容可以被抓取、哪些不可以。它是搜索引擎与网站之间的一种“非强制性”协议。
虽然 robots 协议 并不具备法律约束力,但作为全球公认的“网络爬虫行为规范”,其广泛应用于网站 SEO 优化、隐私保护、抓取频率管理等领域。
⚙️ robots.txt 文件能做什么?
-
控制搜索引擎蜘蛛的抓取权限(允许或禁止访问特定目录或文件)
-
设置站点地图路径(Sitemap)供搜索引擎更高效地索引页面
-
限制蜘蛛访问频率与延迟时间(crawl-delay)
-
区分不同爬虫对不同路径的访问规则(如 Googlebot 与 Baiduspider 分别设置)
-
支持通配符匹配与目录区分(如
/img/*.gif
、/admin/
与/admin
是不同路径)
🔒 注意事项:robots.txt 并不能真正保护隐私,只是依靠搜索引擎的“自觉遵守”。敏感内容应通过身份验证或服务器限制访问。
✒️ robots.txt 文件格式结构示例
User-agent: *
Disallow: /admin/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml
Crawl-delay: 5
text-
User-agent
:指定针对哪个搜索引擎爬虫 -
Disallow
:禁止访问的路径 -
Allow
:明确允许访问的路径(在禁用目录内使用) -
Sitemap
:提供网站地图位置 -
Crawl-delay
:设置爬虫每次请求之间的延迟(秒)
使用 robots.txt 在线生成工具的好处
✅ 图形化操作,零门槛生成
通过直观的 Web 界面,逐项选择你希望开放或屏蔽的搜索引擎及其访问权限,无需编写复杂语法。
✅ 支持主流爬虫识别
支持百度、谷歌、头条、360、必应、搜狗、雅虎等常见蜘蛛,甚至包含 Google Image、Google Mobile、Yahoo MM 等细分爬虫 UA。
✅ 自动生成标准文件
一键生成 robots.txt 内容,复制粘贴至网站根目录即可生效,无需插件或复杂部署。
使用方法
-
在工具页面中设置默认访问权限、禁止目录、Sitemap 路径等参数;
-
针对每个爬虫(如 Googlebot、Baiduspider)配置抓取规则;
-
点击【生成】按钮,复制底部生成的 robots.txt 文本内容;
-
在你的网站根目录创建文件
robots.txt
,将复制的内容粘贴进去; -
通过浏览器访问
https://你的域名/robots.txt
,确保文件已正确部署。
推荐理由
如果你正在寻找这些工具或功能:
-
想快速配置并生成 robots.txt 文件
-
想控制搜索引擎是否抓取你的某些网页或目录
-
想为不同蜘蛛设置不同的抓取权限
-
想快速添加 Sitemap 以提升网站收录效率
-
想避免误抓取、保护隐私、防止镜像站爬取
更新日志
发布时间:2024年03月01日上线!
更新时间:2024年04月3日修复部分搜索引擎选中的情况下无法生成的BUG。