什么是 Robots.txt 文件
robots.txt 文件是一个文本文件,其中包含指示搜索引擎抓取工具应该和不应该访问您网站中的哪些页面的说明。这些指令通过“允许”或“禁止”特定爬虫的行为来指定。
Robots.txt 文件如何工作?
Robots.txt 文件告诉搜索引擎机器人它们可以抓取哪些 URL,更重要的是,告诉搜索引擎机器人可以忽略哪些 URL。
搜索引擎有两个主要目的:
- 爬行网络以发现内容
- 为寻找信息的搜索者建立索引并向其提供内容
当搜索引擎机器人抓取网页时,它们会发现并跟踪链接。此过程将他们从站点 A 带到站点 B 再到站点 C,跨越数百万个链接、页面和网站。
但是,如果机器人找到 robots.txt 文件,它会在执行其他操作之前读取该文件。
语法很简单。
通过识别用户代理(搜索引擎机器人)和指令(规则)来分配规则。
您还可以使用星号 (*) 通配符将指令分配给每个用户代理,这会将规则应用于所有机器人。
文章评论