海兆富
 域名:http://kr290710669.blog.globalimporter.net/
 
  ·使更多的网页被收录(一)——削除蜘蛛陷阱Spider

蜘蛛程序陷阱(Spider traps)是阻止蜘蛛程序爬行网站的障碍物,通常源于那些显示网页的技术方法,这些手段能很好地配合浏览器,但对蜘蛛诚信就构成了阻碍。不在网站使用这些技术,就可以使蜘蛛程序收录更多的网页。那么,怎样除掉***流行的蜘蛛程序陷阱?

1. 小心设置 *域名隐藏* 指示(robots directives)
(1)它是是控制蜘蛛程序的一个方法,它告诉蜘蛛程序在服务器上什么文件是可以被查看的。必须放置在一个站点的根目录下,而且文件名必须全部小写。它只有2个操作声明:
 ?Useragent(用户代理)。用户代理声明定义了禁止指令适用于哪个蜘蛛程序。如果对用户代理编码了一个星号,指的是针对所有的蜘蛛程序。?
 ?Disallow(禁止)。禁止声明制定那个文件蜘蛛程序不能够查看。可以***一个***的文件名或者任何文件名或者目录的一部分——蜘蛛程序会认为那是一个匹配符号并禁止与那部分名字匹配的名字。例如:***了“e”可能会禁止全部有“e”的文件被查看,同样,所有文件和任何有“e”为开头的目录。***了“/”,就禁止查看所有的文件。
User-agent:*
Disallow: /cgi-bin
Disallow: /java        阻止蜘蛛程序爬过cgi-bin和java目录
User-agent: roguespider
Disallow: /            阻止“无赖蜘蛛程序”爬过所有文件
User-agent: MSNBOT
Disallow: /images      将msn搜索阻止在图形目录之外,因为它没有图形搜索
网站管理员必须使蜘蛛程序远离某些服务器上的目录——***服务器性能。大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在 *域名隐藏* 文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件发送给蜘蛛程序,可以节省服务器资源。
(2) robots标签<meta name=’robots’>
如果 *域名隐藏* 限制了那个网页,那么robots标签说什么都不重要了,因为蜘蛛程序根本不会看那个网页。但是如果 *域名隐藏* 允许蜘蛛程序来访问网页,那么蜘蛛程序在访问页面时就会看robots标签。
<meta name=’robots’ content=’index, follow’>
指导蜘蛛程序来收录网页,并可以跟着链接爬行(使用网站的链接从一个网页爬行到另一个网页)

<meta name=’robots’ content=’index, nofollow’>
指导蜘蛛程序来收录网页,并可以跟着链接爬行

<meta name=’robots’ content=’noindex, follow’>
指导蜘蛛程序来收录网页,并可以跟着链接爬行

2. 削除弹出窗口
如果站点使用弹出窗口来展示相关内容,那些内容不会被蜘蛛程序收录。如果站点使用弹出窗口来显示链接到其他页面的菜单,蜘蛛程序不能沿着这些链接爬行,蜘蛛程序也找不到这些网页。要想使这些页面被收录,方法就是停止使用弹出窗口,或者创建一个带正常链接的标准页面。

3. 不要下拉导航
蜘蛛程序对javascript 编写的下拉导航会面临和弹出窗口一样的问题:他们不能模拟点击上面的链接(沿着链接爬行)。解决方法是重新以正常的HTML重写这些链接,或者提供替代的通道使得蜘蛛程序能够访问这些页面。
还有一种方法可以消除javascript 蜘蛛程序陷阱,即使用<noscript>标签。<noscript>标签是为不支持javascript 的浏览器提供备选的代码。蜘蛛程序不会执行javascript, 因此他们通过处理<noscript>代码来代替。如果必须使用javascript 导航,需要将标准HTML链接代码放到<noscript>部分。但是为了让蜘蛛程序沿着链接爬行,必须给每个链接的网页提供完整的路径名。为更好地***蜘蛛程序能发现这些页面,需要在站点地图上加上这些网页。

4. 简化动态网址(Dynamic URLs)
在动态页面出现的早期,蜘蛛程序是拒绝爬行这些动态页面的。但随着时间的推移,越来越多的网页变成了动态网页。搜索引擎也开始调整自己。搜索蜘蛛现在可以在一定条件下收录动态页面:

(1) URL含有不超过两个动态参数?
其实没那么简单,有些情况下甚至2个参数也是太多了,并且这里有其他的情形当URL里面含有3个以上的参数仍然被索引了。如果在URL上必须使用2个以上的参数,可能使用一种URL重写(rewrite)技术。URL重写(rewrite)技术会使动态的URL表面上看起来是一个静态的URL。
 (2)URL少于1000个字母?
长URL会被忽视,短些的容易被接受。任何地方都没有理由有字母上千的URl,因此要使URL越短越容易读才越好。

 (3)URL不含区段标志符(Session? identifier)
区段标志符是名为“ID=”或者“Session=”参数(或者其他类似的名字),用来追踪哪个访客正在看这个网页。蜘蛛程序讨厌这种类型的参数,因为每时每刻都有同样的内容使用者不同的URL。如果你的网站包含这样的参数,那就让程序员使用一种替代方法,因为蜘蛛程序不会而且也不应该索引所有这些重复的网页。

 (4)从目录列表或者站点地图链接过来的所有有效URL?
因为有些动态页面可以对其参数使用几乎任何的值,搜索蜘蛛不可能知道你产品目录上的每个有效产品数字。可以建立一个目录页面或者站点地图页面,放上你想要被收录的动态网页的链接。
深圳市财富风云科技有限公司
www(dot)cffy88(dot)com

[2011年 3月9日 9 : 51]      评论:[0] | 浏览:[697]
  日 历 calendar
« 9月 2025 »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30            
  全 站 搜 索

  博 客 介 绍 
    关注女性乳房健康,我们做的更专业。
  文 章 分 类 
· 海兆富 [333]
  最 新 发 表 
    绝世美乳这样练成
    七八成女性有乳腺增生
    乳房***害怕哪种文胸?
    乳腺纤维瘤的天敌——益美清!!
    乳腺增生、乳腺纤维瘤久治不愈,怎么办?
    治疗乳腺纤维瘤***益美清
    哪里的皮肤***敏感 解读***身体秘密
    如何治疗乳腺增生
    海兆富告诉您:乳腺增生治疗有哪些讲究
    40岁前不要做钼钯照相检查 射线对乳房有害
    白领女性要注意的乳房保养
    便秘会致使女性患上乳腺癌?
    两种常见乳房发育异常
    女人的乳房需要细心的呵护
    揉拉耳垂弹风池穴 可以预防乳腺增生
  文 章 归 档 
  最新回复(已关闭) 
  我的连 接(已关闭) 
  博 客 统 计 
·
文章总数:333
·
评论总数:34
·
访问总数:396177
   管理入口