网站索引是什么?与收录有什么区别?
页面不要被抓取一般在这种情况下使用:对于一个特定的网站,搜索引擎抓取网站的时长基本是固定的,所以我们应该把抓取时间用在核心页面上。
对于一些大网站,这一点尤其重要,由于网站太大,如果把抓取时间都放在一些过滤页面上,很容易一组合就几百万几千万个页面了,搜索引擎没有机会也没有时间再去访问你想要被访问的页面。所以有的时候,你可能希望搜索引擎不要抓某些页面。那么,那些你不想让抓的页面的链接尽量不要在网站上出现。你可以用Java去隐藏,或者加nofollow,或者用robots文件禁止搜索引擎去抓这些文件。
另外一种情况是,你可以让搜索引擎抓,但是不想让搜索引擎索引,“索引”也就是把这个页面的信息放在它的数据库当中。有的时候,这两个,不让抓取和不让索引是相反的过程,比如说刚才讲的上面提到的过滤页面。有的时候,其实如果你的网站没有那么大,你的抓取时间还没有达到搜索引擎分配给你的上限,那可以让这些页面抓取,但是你不想被收录,因为这些页面往往都是重复内容,因为它无非就是换个搜索条件,换个筛选条件,重排了一遍,产品还是一样,所以经常是大量的重复内容。如果这种重复页面多了的话,搜索引擎有可能认为这个网站是不是有什么问题,或者总体质量不太高。那么你可以让搜索引擎不去索引这些页面。你要用页面头上的no index标签,放上no index以后,这些页面就不会被放到索引库里。所以在搜索这些页面的时候,是没有结果的。但这些页面其实是被抓取过的,因为如果没有被抓取的,搜进去根本看不见no index这个标签,但是你不想让它被收录。所以“抓取”和“索引”是两种不同的情况,处理的时候也要用不同的方法。你需要根据网站的具体情况确定使用哪种技术方法去实现。
本文来源于互联网,如有疑问请及时联系站长资源平台官方客服,谢谢!