这几天闲着没事请求了论坛的/robots.txt
```
User-agent: *
Allow: /
Sitemap: https://www.nodeloc.com/sitemap.xml
```
然后我请求 /sitemap.xml
```xml
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<span id="uas-port"/>
<sitemap>
<loc>https://www.nodeloc.com/sitemaps/sitemap-0.xml</loc>
<lastmod>2024-07-24T23:00:01+08:00</lastmod>
</sitemap>
<sitemap>
<loc>https://www.nodeloc.com/sitemaps/sitemap-1.xml</loc>
<lastmod>2024-07-24T23:00:02+08:00</lastmod>
</sitemap>
<sitemap>
<loc>https://www.nodeloc.com/sitemaps/sitemap-2.xml</loc>
<lastmod>2024-07-24T23:00:02+08:00</lastmod>
</sitemap>
<sitemap>
<loc>https://www.nodeloc.com/sitemaps/sitemap-3.xml</loc>
<lastmod>2024-07-24T23:00:02+08:00</lastmod>
</sitemap>
<sitemap>
<loc>https://www.nodeloc.com/sitemaps/sitemap-4.xml</loc>
<lastmod>2024-07-24T23:00:02+08:00</lastmod>
</sitemap>
</sitemapindex>
```
发现他分成了几个chunk,然后分别请求这5个xml
```xml
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<span id="uas-port"/>
<url>
<loc>https://www.nodeloc.com/all</loc>
<lastmod>2024-07-24T23:00:01+08:00</lastmod>
<changefreq>daily</changefreq>
<priority>0.3</priority>
</url>
<url>
<loc>https://www.nodeloc.com/tags</loc>
<lastmod>2024-07-24T23:00:01+08:00</lastmod>
<changefreq>daily</changefreq>
<priority>0.3</priority>
</url>
</urlset>
```
第一个sitemap-0.xml没什么好看的
但是这个 sitemap-1.xml 居然把全站所有帖子都放进去了,好像也包括内板的,也就是说搜索引擎依然可能会收录内部里面的内容,然后sitemap-2.xml是网站的各种文档,sitemap-3.xml就是各种子标签,sitemap-4.xml直接就是所有的用户列表
>!坏了,我成爬虫了!<