2898站长资源平台:对网站的死链分析
2898站长资源平台:对网站的死链分析。在网站日常运营,死链是难免会产生的,若网站死链率过高,还会影响搜索引擎对网站的评分;搜索引擎对每个网站每天抓取的频次是限额的,网站的大量死链,会浪费掉抓取配额并影响正常页面的抓取;过多死链对还影响了用户体验。那么,2898站长资源平台就分析下网站死链的产生过程以及解决办法。
百度站长工具中有一个抓取异常,那么这个工具里面的异常数据是如何产生的呢?
1、网站内部添加了错误的内部链接,编辑失误或者程序员大意让页面产生了不存在页面的URL。
2、原来正常页面因为程序的一个改动或页面调整改版,导致了某些正常页面无法打开。
3、网站短暂无法访问,因为服务器、空间或程序问题导致网站无法访问,抓取异常中会出现大量的500错误页面。
4、外部链接错误,用户或者站长在站外发布了错误URL,蜘蛛爬取后产生错误页面;别的网站复制或采集了你们含有错误链接的页面;有些垃圾网站自动生成的静态搜索结果页。
5、爬虫提取了不完整的URL,个别爬虫在提取页面URL的时候,只提取部分URL或者把正常的URL后面的文字或字符也提取进去了。
6、网站改版或管理员删除页面,网站改版过程中处理不当导致部分老页面无法访问,或者网站管理员删除被黑、广告、过时、被灌水页面。
出现了上述情况,我们该如何去解决?
1、修复错误页面 抓取异常中的很多错误页面是因为程序员大意或者我们程序问题导致的,本应该是正常页面,因为失误导致无法访问,对于此类页面,第一时间进行修复。
2、提交死链接 但必定很多错误页面是本不应该存在的,那么我们要想办法获取此类页面URL,获取方式主要有三种:
(1) 百度站长工具--抓取异常--找不到的页面--复制数据 [修正:此处死链不需我们提交了,百度站长工具自动提交死链];
(2) 管理员在删除页面的时候手动或者程序自动保存被删页面URL;
(3) 使用相关爬虫软件,爬取整站获取死链,如Xenu 。
然后将上述数据合并并删除重复项(excel表格中能实现删重,wps表格更容易操作),然后再复制所有URL通过HTTP状态批量查询工具查询下,剔除掉非404返回码页面。
然后整理上面处理好的数据粘贴到网站根目录中的一个文档中,再把文档地址提交到 百度站长工具--网页抓取--死链提交--添加新数据--填写死链文件地址。
3、在robots中屏蔽抓取
若大量的错误URL存在一定的规律,可以在robots文件中写一个规则禁止蜘蛛程序抓取此类链接,但前提一定要照顾好正常页面,避免屏蔽规则误伤正常页面,比如你的网站全部是静态URL,那么如果错误链接中含有?的话,规则写成Disallow:/*?*,如果错误链接中有/id...html 的话,规则写成Disallow:/*...* 。
robots文件添加完规则后,一定要去百度站长的 robots工具 进行校验,将指定的错误页面放进去,看看是否封禁成功,再把正常的页面放进去看看是否被误封。
最后,2898站长资源平台再做个相关注意事项总结:
1、在百度站长工具中提交死链前,一定要确保提交的死链数据不存在活链接,或者存在HTTP状态码非404页面。一旦存在活链,会显示提交失败导致无法删除。
2、由于很多网站程序问题,很多打不开的页面返回码并非404,这是一个大问题,比如明明是打不开的页面返回码是301、200、500,如果是200的话,会导致网站中出现不同URL获取相同内容。比如我的一个站,社区的帖子删除后,返回码却是500,后期发现了,立马进行了处理。大家尽量找出所有错误URL格式,.并设置打开后HTTP状态码为404。
3、把所有的错误页面找到后,一定要寻找此类页面URL相同特征,并且和正常页面的特征有区分,写对应规则到robots文件中,禁止蜘蛛抓取,就算你已经在站长工具中提交了死链,也建议robots封禁抓取。
4、robots只能解决蜘蛛不再抓取此类页面,但解决不了已经抓取页面的快照的删除问题,若你的网站被黑,删除了被黑页面,除了robots封禁被黑页面外,还应该将这些页面提交死链。提交死链是删除被黑页面快照的最快办法。
2898站长资源平台网站资讯:http://www.2898.com/news/