robots.txt生成器

为搜索引擎创建生产就绪的 robots.txt 文件，并在发布前验证指令。生成全局和特定漫游器的规则，添加站点地图和抓取提示，并捕捉常见错误，如缺失 User-agent 组、无效的站点地图 URL 或过于宽泛的 Disallow 模式。

robots.txt生成器

▦ 快速示例

加载完整预设以为正式网站生成实用的 robots.txt 文件，测试更严格的电子商务抓取策略，或粘贴现有文件并在部署前进行检查。

模式

选择工作流

操作根据结构化字段生成新的 robots.txt 文件，或验证您已有的文件。

基础

定义网站背景

网站 URL 用于将站点地图路径转换为绝对 URL，例如 `https://example.com/sitemap.xml`。

主要 User-agent 使用 `*` 代表所有爬虫，或针对特定漫游器如 `Googlebot`。

页眉注释生成文件顶部的可选注释行。请保持简短且具有操作性。

规则

设置全局允许和禁止路径

允许 (Allow) 指令每行一个路径。例如：`/` 或 `/wp-admin/admin-ajax.php`。

禁止 (Disallow) 指令适当时屏蔽低价值区域，如 `/cart/`、`/checkout/`、`/search` 或 `/admin/`。

漫游器

添加站点地图和特定漫游器部分

站点地图 URL 每行一个站点地图。相对路径将根据网站 URL 进行转换。

额外的 User-agent 块在此粘贴图片漫游器、广告漫游器或临时环境规则的原始 `User-agent:` 组。

抓取延迟 (Crawl-delay) 可选。并非所有搜索引擎都统一支持此指令。

主机 (Host) 可选。通常是裸主机名，如 `example.com`。

清理参数 (Clean-param) 指令可选的特定于引擎的参数清理规则，每行一个指令。

验证

粘贴您要检查的文件

Robots.txt 内容按原样粘贴现有文件，包括注释和多个爬虫组。

指南

此工具检查什么

报告将查找结构性问题，例如缺失的 `User-agent` 组、非绝对路径的站点地图 URL、非数字的 `Crawl-delay` 值，以及可能屏蔽重要资源或整个网站的模式。

使用 robots.txt 进行抓取管理，而非将其作为敏感内容的安防屏障。
内部搜索、购物车、结账和管理路径是 `Disallow` 的常见候选对象。
不要随意屏蔽 CSS、JavaScript 或帮助搜索引擎渲染页面的共享资源。
将最终文件发布在域名根目录，使其正式 URL 变为 `https://example.com/robots.txt`。

User-agent Allow / Disallow Sitemap Crawl-delay

结果区域包括最终文件、抓取摘要以及一组您可以在部署前审查的警告或备注。

Embed robots.txt生成器 Widget

robots.txt生成器

robots.txt 文件告诉爬虫网站的哪些部分可以抓取，哪些路径应排除在抓取队列之外，以及 XML 站点地图的位置。为了 SEO 和地理可见性，目标并不是默认屏蔽一切有风险的内容。目标是保护低价值的抓取路径，为规范页面保留抓取预算，并保持文件与域名上实际公开的内容一致。一个有用的 robots.txt 策略通常会提及具体的章节，如管理文件夹、结账流程、内部搜索 URL、分面过滤器或仅限临时环境的块，而不是模糊的“SEO 设置”。

如何使用

选择生成或验证模式。 使用“生成 robots.txt”从结构化输入构建新文件，或者如果您已有草案或在线文件，请切换到“验证现有的 robots.txt”。
输入抓取规则和站点地图详情。 添加公开网站 URL、您的主要 `User-agent`、每行一个允许或禁止路径，以及您需要的任何额外特定漫游器部分或站点地图 URL。
创建报告。 运行工具以构建最终文件，查看解析后的爬虫组，并检查针对危险模式（如屏蔽资源或缺失绝对站点地图 URL）的警告。
审查后发布。 当规则反映了您的真实抓取意图时复制输出，然后将文件放置在正式主机名的 `/robots.txt` 处，并测试部署后的 URL。

指令策略与常见错误

指令或模式	何时有帮助	常犯的错误
`User-agent: *`	在不需要特殊处理时，为大多数漫游器创建全局规则集。	在定义任何 user-agent 组之前添加 `Allow` 和 `Disallow` 行，这会削弱解析器的清晰度。
`Disallow: /search`	适用于屏蔽会产生稀疏、重复 URL 组合的内部网站搜索页面。	由于路径模式比预想的更宽泛，不小心屏蔽了公开的类别或产品页面。
`Sitemap: https://example.com/sitemap.xml`	帮助爬虫更快地发现规范 URL 和新鲜内容。	在生产环境中使用相对路径或过时的临时环境站点地图 URL。
`Crawl-delay`	有时为记录了支持请求节流的爬虫而添加。	假设 Google 会遵守它。Google 会忽略 `Crawl-delay`，因此它不是一种通用的速率控制机制。
`Disallow: /assets/js/`	在普通的公开网站上很少需要。	屏蔽了搜索引擎用来理解布局、功能和页面质量的渲染资源。

实际应用案例

在 WordPress 网站上，一个常见的规则是禁止 `/wp-admin/`，同时允许 `/wp-admin/admin-ajax.php`，因为这可以在不屏蔽频繁需要的端点的情况下，将大多数管理界面排除在抓取路径之外。在电子商务网站上，robots.txt 通常用于限制来自购物车页面、账户区域、结账流程、分面导航或由排序和过滤参数生成的内部结果页面的抓取浪费。在临时环境网站上，临时性的全站禁止是合理的，但在上线前应将其移除，并在 DNS 或部署更改后重新检查。

在从另一个团队继承文件时，验证器也非常有用。它可以捕捉到细微的问题，如非绝对路径的站点地图行、格式错误的 `Host` 指令，或以纯文本而非数字编写的 `Crawl-delay` 值。这些细节很重要，因为 robots.txt 文件虽然简单，但生产环境中的错误通常也很简单。

Robots.txt 不能做的事情

robots.txt 是一个抓取管理文件，而不是访问控制系统，也不是保证取消索引的开关。如果一个 URL 被屏蔽但有其他地方的链接，搜索引擎可能仍会在不抓取其完整内容的情况下在搜索结果中显示该 URL。敏感文档、管理工具和私有环境应通过身份验证、网络限制或在可抓取页面上使用显式的 noindex 策略来保护。这种区别是技术 SEO 讨论中最常见的误解之一。

常见问题解答

普通公开网站的 robots.txt 文件应包含什么？

一个合理的生产环境文件通常以 User-agent 组开始，仅屏蔽低价值或私有的抓取路径，如管理区域、内部搜索页面、购物车流程或账户界面，并包含带有完整协议和主机名的站点地图 URL。大多数公开网站不应屏蔽 CSS、JavaScript 或其主要内容文件夹。

robots.txt 能阻止页面被索引吗？

不能，它本身做不到。robots.txt 告诉爬虫不要抓取什么，但被屏蔽的 URL 仍可能根据外部链接或先前发现的信号被索引。如果您真实的目标是控制索引，您需要一种专为此目的设计的方法，如在可抓取页面上使用 noindex 或对私有资源使用身份验证。

我应该在 robots.txt 中添加 sitemap 行吗？

通常是的。Sitemap: 指令对爬虫来说是一个强有力的操作提示，对于大型、多语言或频繁更新的网站来说是一个好习惯。请使用绝对 URL 而不是相对路径，以便信号明确无误。

为什么报告中会标记抓取延迟 (crawl-delay)？

各大搜索引擎对 Crawl-delay 的支持并不一致。一些爬虫可能会识别它，但 Google 不会。工具将其标记出来，是为了让您将其视为有针对性的指令，而不是通用的抓取速率设置。

引用此内容、页面或工具为：

"robots.txt生成器" 于 https://MiniWebtool.com/zh-cn/robots.txt生成器/，来自 MiniWebtool，https://MiniWebtool.com/

由 miniwebtool 团队提供。更新日期：2026-03-09

其他相关工具:

robots.txt生成器

选择工作流

定义网站背景

设置全局允许和禁止路径

添加站点地图和特定漫游器部分

粘贴您要检查的文件

robots.txt生成器

如何使用

指令策略与常见错误

实际应用案例

Robots.txt 不能做的事情

常见问题解答

普通公开网站的 robots.txt 文件应包含什么？

robots.txt 能阻止页面被索引吗？

我应该在 robots.txt 中添加 sitemap 行吗？

为什么报告中会标记抓取延迟 (crawl-delay)？

其他相关工具:

网站管理工具:

常用工具: