日志.博客无法被搜索?

本文最后更新于:2021年4月24日 下午

原本是搭建在服务器的,可以被正常搜索的,无奈带宽太小,文章加载实在太慢….,
就放置到了 Github ,结果这年头想被白嫖都要花功夫了 ( ఠൠఠ )ノ

博客环境

  1. Hexo 搭建
  2. Github Pages 放置(平时通过 xxx.github.io 访问)

无法被爬(搜索)?

测试是否被搜录

在搜索引擎(百度,Google,必应等)直接输入,即可知道是否可被搜索引擎爬取到

1
2
site:用户名.github.io
# site 将搜索范围限定在特定站点

原因

Google 和 必应 不清楚为啥被反爬。
但特别的是百度 (lll¬ω¬) ,GitHub 给出的官方原因是百度爬虫爬得太狠,影响了 Github Page 服务的正常使用。

站点地图(sitemap.xml)

站点地图是一个网站所有链接的容器。一般存放在根目录下并命名 sitemap ,为爬虫指路,增加网站重要内容页面的收录。
所以我们需要创建一个 地图 给搜索引擎 用于索引

  1. 在博客目录安装扩展,每次构建时都会自动生成。
    npm install hexo-generator-sitemap --save
  2. 构建并上传到 Github
    hexo d -g

开始动工

Google 收录

1. 绑定网址

Google Search Console

  1. 申请,并根据在 Github Page 的设置输入访问地址
  2. 然后会生成一个 html 文件,用于验证所有权,下载并放置于根目录(本地博客目录的 source 文件夹)
    Google Search Console 选择
    Google Search Console 验证所有权

2. 添加站点地图被搜索

插件安装完后,需要重新构建一下,生成 sitemap.xml
别忘了也同步到 Github ,不然会无法被检测到
然后在 Google Search Console 添加站点地图
Google Search Console 添加站点地图

3. 提高抓取队列的优先级并测试

Google 更新索引需要一个较长的时间,可以自己手动添加索引测试,填写文章的完整地址
注:不一定马上能被搜索到,只能一定程度上提高抓取队列的优先级
Google Search Console 手动添加索引
测试,Google

百度收录

必应收录