大家会去看论坛的robots.txt吗

这几天闲着没事请求了论坛的/robots.txt


```
User-agent: *
Allow: /

Sitemap: https://www.nodeloc.com/sitemap.xml
```

然后我请求 /sitemap.xml

```xml <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <span id="uas-port"/> <sitemap> <loc>https://www.nodeloc.com/sitemaps/sitemap-0.xml</loc> <lastmod>2024-07-24T23:00:01+08:00</lastmod> </sitemap> <sitemap> <loc>https://www.nodeloc.com/sitemaps/sitemap-1.xml</loc> <lastmod>2024-07-24T23:00:02+08:00</lastmod> </sitemap> <sitemap> <loc>https://www.nodeloc.com/sitemaps/sitemap-2.xml</loc> <lastmod>2024-07-24T23:00:02+08:00</lastmod> </sitemap> <sitemap> <loc>https://www.nodeloc.com/sitemaps/sitemap-3.xml</loc> <lastmod>2024-07-24T23:00:02+08:00</lastmod> </sitemap> <sitemap> <loc>https://www.nodeloc.com/sitemaps/sitemap-4.xml</loc> <lastmod>2024-07-24T23:00:02+08:00</lastmod> </sitemap> </sitemapindex> ```

发现他分成了几个chunk,然后分别请求这5个xml

```xml <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <span id="uas-port"/> <url> <loc>https://www.nodeloc.com/all</loc> <lastmod>2024-07-24T23:00:01+08:00</lastmod> <changefreq>daily</changefreq> <priority>0.3</priority> </url> <url> <loc>https://www.nodeloc.com/tags</loc> <lastmod>2024-07-24T23:00:01+08:00</lastmod> <changefreq>daily</changefreq> <priority>0.3</priority> </url> </urlset> ```

第一个sitemap-0.xml没什么好看的
但是这个 sitemap-1.xml 居然把全站所有帖子都放进去了,好像也包括内板的,也就是说搜索引擎依然可能会收录内部里面的内容,然后sitemap-2.xml是网站的各种文档,sitemap-3.xml就是各种子标签,sitemap-4.xml直接就是所有的用户列表

>!坏了,我成爬虫了!<

:ac07: 我没注意有没有包含内板的哈哈。不过就算有爬虫也爬不进去,因为会返回 </s>404<e>

flarum这方面做的还算可以,基本上没有什么问题

国内的压根不收录

@“James”#p57032 不是418我不是很认可:ac01: