使更多的网页被收录（一）——削除蜘蛛陷阱Spider

海兆富

　域名:http://kr290710669.blog.globalimporter.net/

　　·使更多的网页被收录（一）——削除蜘蛛陷阱Spider

蜘蛛程序陷阱（Spider traps）是阻止蜘蛛程序爬行网站的障碍物，通常源于那些显示网页的技术方法，这些手段能很好地配合浏览器，但对蜘蛛诚信就构成了阻碍。不在网站使用这些技术，就可以使蜘蛛程序收录更多的网页。那么，怎样除掉***流行的蜘蛛程序陷阱？

1. 小心设置 *域名隐藏* 指示（robots directives）
（1）它是是控制蜘蛛程序的一个方法，它告诉蜘蛛程序在服务器上什么文件是可以被查看的。必须放置在一个站点的根目录下，而且文件名必须全部小写。它只有2个操作声明：
?Useragent（用户代理）。用户代理声明定义了禁止指令适用于哪个蜘蛛程序。如果对用户代理编码了一个星号，指的是针对所有的蜘蛛程序。?
?Disallow（禁止）。禁止声明制定那个文件蜘蛛程序不能够查看。可以***一个***的文件名或者任何文件名或者目录的一部分——蜘蛛程序会认为那是一个匹配符号并禁止与那部分名字匹配的名字。例如：***了“e”可能会禁止全部有“e”的文件被查看，同样，所有文件和任何有“e”为开头的目录。***了“/”，就禁止查看所有的文件。
User-agent:*
Disallow: /cgi-bin
Disallow: /java        阻止蜘蛛程序爬过cgi-bin和java目录
User-agent: roguespider
Disallow: /            阻止“无赖蜘蛛程序”爬过所有文件
User-agent: MSNBOT
Disallow: /images      将msn搜索阻止在图形目录之外，因为它没有图形搜索
网站管理员必须使蜘蛛程序远离某些服务器上的目录——***服务器性能。大多数网站服务器都有程序储存在“cgi-bin”目录下，因此在 *域名隐藏* 文件中加入“Disallow: /cgi-bin”是个好主意，这样能够避免将所有程序文件发送给蜘蛛程序，可以节省服务器资源。
（2） robots标签<meta name=’robots’>
如果 *域名隐藏* 限制了那个网页，那么robots标签说什么都不重要了，因为蜘蛛程序根本不会看那个网页。但是如果 *域名隐藏* 允许蜘蛛程序来访问网页，那么蜘蛛程序在访问页面时就会看robots标签。
<meta name=’robots’ content=’index, follow’>
指导蜘蛛程序来收录网页，并可以跟着链接爬行（使用网站的链接从一个网页爬行到另一个网页）

2. 削除弹出窗口
如果站点使用弹出窗口来展示相关内容，那些内容不会被蜘蛛程序收录。如果站点使用弹出窗口来显示链接到其他页面的菜单，蜘蛛程序不能沿着这些链接爬行，蜘蛛程序也找不到这些网页。要想使这些页面被收录，方法就是停止使用弹出窗口，或者创建一个带正常链接的标准页面。

3. 不要下拉导航
蜘蛛程序对javascript 编写的下拉导航会面临和弹出窗口一样的问题：他们不能模拟点击上面的链接（沿着链接爬行）。解决方法是重新以正常的HTML重写这些链接，或者提供替代的通道使得蜘蛛程序能够访问这些页面。
还有一种方法可以消除javascript 蜘蛛程序陷阱，即使用<noscript>标签。<noscript>标签是为不支持javascript 的浏览器提供备选的代码。蜘蛛程序不会执行javascript, 因此他们通过处理<noscript>代码来代替。如果必须使用javascript 导航，需要将标准HTML链接代码放到<noscript>部分。但是为了让蜘蛛程序沿着链接爬行，必须给每个链接的网页提供完整的路径名。为更好地***蜘蛛程序能发现这些页面，需要在站点地图上加上这些网页。

4. 简化动态网址（Dynamic URLs）
在动态页面出现的早期，蜘蛛程序是拒绝爬行这些动态页面的。但随着时间的推移，越来越多的网页变成了动态网页。搜索引擎也开始调整自己。搜索蜘蛛现在可以在一定条件下收录动态页面：

(1) URL含有不超过两个动态参数?
其实没那么简单，有些情况下甚至2个参数也是太多了，并且这里有其他的情形当URL里面含有3个以上的参数仍然被索引了。如果在URL上必须使用2个以上的参数，可能使用一种URL重写（rewrite）技术。URL重写（rewrite）技术会使动态的URL表面上看起来是一个静态的URL。
(2)URL少于1000个字母?
长URL会被忽视，短些的容易被接受。任何地方都没有理由有字母上千的URl，因此要使URL越短越容易读才越好。

(3)URL不含区段标志符（Session? identifier）
区段标志符是名为“ID=”或者“Session=”参数（或者其他类似的名字），用来追踪哪个访客正在看这个网页。蜘蛛程序讨厌这种类型的参数，因为每时每刻都有同样的内容使用者不同的URL。如果你的网站包含这样的参数，那就让程序员使用一种替代方法，因为蜘蛛程序不会而且也不应该索引所有这些重复的网页。

(4)从目录列表或者站点地图链接过来的所有有效URL?
因为有些动态页面可以对其参数使用几乎任何的值，搜索蜘蛛不可能知道你产品目录上的每个有效产品数字。可以建立一个目录页面或者站点地图页面，放上你想要被收录的动态网页的链接。
深圳市财富风云科技有限公司
www(dot)cffy88(dot)com