日志.博客无法被搜索?
本文最后更新于:2021年4月24日 下午
原本是搭建在服务器的,可以被正常搜索的,无奈带宽太小,文章加载实在太慢….,
就放置到了 Github ,结果这年头想被白嫖都要花功夫了 ( ఠൠఠ )ノ
博客环境
- Hexo 搭建
- Github Pages 放置(平时通过 xxx.github.io 访问)
无法被爬(搜索)?
测试是否被搜录
在搜索引擎(百度,Google,必应等)直接输入,即可知道是否可被搜索引擎爬取到
1 | site:用户名.github.io |
原因
Google 和 必应 不清楚为啥被反爬。
但特别的是百度 (lll¬ω¬) ,GitHub 给出的官方原因是百度爬虫爬得太狠,影响了 Github Page 服务的正常使用。
站点地图(sitemap.xml)
站点地图是一个网站所有链接的容器。一般存放在根目录下并命名 sitemap ,为爬虫指路,增加网站重要内容页面的收录。
所以我们需要创建一个 地图 给搜索引擎 用于索引
- 在博客目录安装扩展,每次构建时都会自动生成。
npm install hexo-generator-sitemap --save
- 构建并上传到 Github
hexo d -g
开始动工
Google 收录
1. 绑定网址
- 申请,并根据在 Github Page 的设置输入访问地址
- 然后会生成一个 html 文件,用于验证所有权,下载并放置于根目录(本地博客目录的 source 文件夹)
2. 添加站点地图被搜索
插件安装完后,需要重新构建一下,生成 sitemap.xml
别忘了也同步到 Github ,不然会无法被检测到
然后在 Google Search Console 添加站点地图
3. 提高抓取队列的优先级并测试
Google 更新索引需要一个较长的时间,可以自己手动添加索引测试,填写文章的完整地址
注:不一定马上能被搜索到,只能一定程度上提高抓取队列的优先级
百度收录
必应收录
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!