蜘蛛程序陷阱(Spider traps)是阻止蜘蛛程序爬行网站的障碍物,通常源于那些显示网页的技术方法,这些手段能很好地配合浏览器,但对蜘蛛诚信就构成了阻碍。不在网站使用这些技术,就可以使蜘蛛程序收录更多的网页。那么,怎样除掉***流行的蜘蛛程序陷阱? 1. 小心设置 *域名隐藏* 指示(robots directives) (1)它是是控制蜘蛛程序的一个方法,它告诉蜘蛛程序在服务器上什么文件是可以被查看的。必须放置在一个站点的根目录下,而且文件名必须全部小写。它只有2个操作声明: ?Useragent(用户代理)。用户代理声明定义了禁止指令适用于哪个蜘蛛程序。如果对用户代理编码了一个星号,指的是针对所有的蜘蛛程序。? ?Disallow(禁止)。禁止声明制定那个文件蜘蛛程序不能够查看。可以***一个***的文件名或者任何文件名或者目录的一部分——蜘蛛程序会认为那是一个匹配符号并禁止与那部分名字匹配的名字。例如:***了“e”可能会禁止全部有“e”的文件被查看,同样,所有文件和任何有“e”为开头的目录。***了“/”,就禁止查看所有的文件。 User-agent:* Disallow: /cgi-bin Disallow: /java 阻止蜘蛛程序爬过cgi-bin和java目录 User-agent: roguespider Disallow: / 阻止“无赖蜘蛛程序”爬过所有文件 User-agent: MSNBOT Disallow: /images 将msn搜索阻止在图形目录之外,因为它没有图形搜索 网站管理员必须使蜘蛛程序远离某些服务器上的目录——***服务器性能。大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在 *域名隐藏* 文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件发送给蜘蛛程序,可以节省服务器资源。 (2) robots标签<meta name=’robots’> 如果 *域名隐藏* 限制了那个网页,那么robots标签说什么都不重要了,因为蜘蛛程序根本不会看那个网页。但是如果 *域名隐藏* 允许蜘蛛程序来访问网页,那么蜘蛛程序在访问页面时就会看robots标签。 <meta name=’robots’ content=’index, follow’> 指导蜘蛛程序来收录网页,并可以跟着链接爬行(使用网站的链接从一个网页爬行到另一个网页) <meta name=’robots’ content=’index, nofollow’> 指导蜘蛛程序来收录网页,并可以跟着链接爬行 <meta name=’robots’ content=’noindex, follow’> 指导蜘蛛程序来收录网页,并可以跟着链接爬行 2. 削除弹出窗口 如果站点使用弹出窗口来展示相关内容,那些内容不会被蜘蛛程序收录。如果站点使用弹出窗口来显示链接到其他页面的菜单,蜘蛛程序不能沿着这些链接爬行,蜘蛛程序也找不到这些网页。要想使这些页面被收录,方法就是停止使用弹出窗口,或者创建一个带正常链接的标准页面。 3. 不要下拉导航 蜘蛛程序对javascript 编写的下拉导航会面临和弹出窗口一样的问题:他们不能模拟点击上面的链接(沿着链接爬行)。解决方法是重新以正常的HTML重写这些链接,或者提供替代的通道使得蜘蛛程序能够访问这些页面。 还有一种方法可以消除javascript 蜘蛛程序陷阱,即使用<noscript>标签。<noscript>标签是为不支持javascript 的浏览器提供备选的代码。蜘蛛程序不会执行javascript, 因此他们通过处理<noscript>代码来代替。如果必须使用javascript 导航,需要将标准HTML链接代码放到<noscript>部分。但是为了让蜘蛛程序沿着链接爬行,必须给每个链接的网页提供完整的路径名。为更好地***蜘蛛程序能发现这些页面,需要在站点地图上加上这些网页。 4. 简化动态网址(Dynamic URLs) 在动态页面出现的早期,蜘蛛程序是拒绝爬行这些动态页面的。但随着时间的推移,越来越多的网页变成了动态网页。搜索引擎也开始调整自己。搜索蜘蛛现在可以在一定条件下收录动态页面: (1) URL含有不超过两个动态参数? 其实没那么简单,有些情况下甚至2个参数也是太多了,并且这里有其他的情形当URL里面含有3个以上的参数仍然被索引了。如果在URL上必须使用2个以上的参数,可能使用一种URL重写(rewrite)技术。URL重写(rewrite)技术会使动态的URL表面上看起来是一个静态的URL。 (2)URL少于1000个字母? 长URL会被忽视,短些的容易被接受。任何地方都没有理由有字母上千的URl,因此要使URL越短越容易读才越好。 (3)URL不含区段标志符(Session? identifier) 区段标志符是名为“ID=”或者“Session=”参数(或者其他类似的名字),用来追踪哪个访客正在看这个网页。蜘蛛程序讨厌这种类型的参数,因为每时每刻都有同样的内容使用者不同的URL。如果你的网站包含这样的参数,那就让程序员使用一种替代方法,因为蜘蛛程序不会而且也不应该索引所有这些重复的网页。 (4)从目录列表或者站点地图链接过来的所有有效URL? 因为有些动态页面可以对其参数使用几乎任何的值,搜索蜘蛛不可能知道你产品目录上的每个有效产品数字。可以建立一个目录页面或者站点地图页面,放上你想要被收录的动态网页的链接。 深圳市财富风云科技有限公司
www(dot)cffy88(dot)com
|