默认 - 所有搜索引擎蜘蛛:
检索间隔:
Sitemap: (留空为无)
国内搜索引擎: 百度
Baiduspider
搜狗
sogou spider
360好搜
360Spider
神马
YisouSpider
头条
Bytespider
国外搜索引擎: 谷歌
Googlebot
必应
Bingbot
雅虎
Slurp
Ask/Teoma
teoma
Alexa/Wayback
ia_archiver
Cuil
twiceler
MSN Search
MSNBot
Scrub The Web
Scrubby
DMOZ
Robozilla
GigaBlast
Gigabot
特殊搜索引擎(机器人): Google Image
googlebot-image
Google Mobile
googlebot-mobile
Yahoo MM
yahoo-mmcrawler
MSN PicSearch
psbot
Yahoo Blogs
yahoo-blogs/v3.9
限制目录: 路径是相对的,但每个路径之前都要包含:"/"
robots文件在线生成工具说明

什么是 robots.txt?

robots.txt是网站根目录下的一个文本文件,它用于告诉搜索引擎蜘蛛(User-Agent)哪些内容可以被抓取、哪些不可以。它是搜索引擎与网站之间的一种“非强制性”协议。

虽然 robots 协议 并不具备法律约束力,但作为全球公认的“网络爬虫行为规范”,其广泛应用于网站 SEO 优化、隐私保护、抓取频率管理等领域。


⚙️ robots.txt 文件能做什么?

  • 控制搜索引擎蜘蛛的抓取权限(允许或禁止访问特定目录或文件)

  • 设置站点地图路径(Sitemap)供搜索引擎更高效地索引页面

  • 限制蜘蛛访问频率与延迟时间(crawl-delay)

  • 区分不同爬虫对不同路径的访问规则(如 Googlebot 与 Baiduspider 分别设置)

  • 支持通配符匹配与目录区分(如 /img/*.gif/admin//admin 是不同路径)

🔒 注意事项:robots.txt 并不能真正保护隐私,只是依靠搜索引擎的“自觉遵守”。敏感内容应通过身份验证或服务器限制访问。


✒️ robots.txt 文件格式结构示例

User-agent: *
Disallow: /admin/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml
Crawl-delay: 5
text
  • User-agent:指定针对哪个搜索引擎爬虫

  • Disallow:禁止访问的路径

  • Allow:明确允许访问的路径(在禁用目录内使用)

  • Sitemap:提供网站地图位置

  • Crawl-delay:设置爬虫每次请求之间的延迟(秒)


使用 robots.txt 在线生成工具的好处

✅ 图形化操作,零门槛生成

通过直观的 Web 界面,逐项选择你希望开放或屏蔽的搜索引擎及其访问权限,无需编写复杂语法。

✅ 支持主流爬虫识别

支持百度、谷歌、头条、360、必应、搜狗、雅虎等常见蜘蛛,甚至包含 Google Image、Google Mobile、Yahoo MM 等细分爬虫 UA。

✅ 自动生成标准文件

一键生成 robots.txt 内容,复制粘贴至网站根目录即可生效,无需插件或复杂部署。


使用方法

  1. 在工具页面中设置默认访问权限、禁止目录、Sitemap 路径等参数;

  2. 针对每个爬虫(如 Googlebot、Baiduspider)配置抓取规则;

  3. 点击【生成】按钮,复制底部生成的 robots.txt 文本内容;

  4. 在你的网站根目录创建文件 robots.txt,将复制的内容粘贴进去;

  5. 通过浏览器访问 https://你的域名/robots.txt,确保文件已正确部署。


推荐理由

如果你正在寻找这些工具或功能:

  • 想快速配置并生成 robots.txt 文件

  • 想控制搜索引擎是否抓取你的某些网页或目录

  • 想为不同蜘蛛设置不同的抓取权限

  • 想快速添加 Sitemap 以提升网站收录效率

  • 想避免误抓取、保护隐私、防止镜像站爬取

更新日志

发布时间:2024年03月01日上线!
更新时间:2024年04月3日修复部分搜索引擎选中的情况下无法生成的BUG。

相关导航

暂无评论

本文暂时没有评论,来添加一个吧(●'◡'●)