SupeSite 7.0 采集管理-添加新机器人说明教程_SupeSite教程

教程Tag：暂无Tag,欢迎添加,赚取U币!

缂傚倸鍊搁崐椋庣矆娴ｈ娲晝閸屾氨鍔电紓浣插亾闁硅京顒CMS闂備浇宕甸崰鎰版偡閵夈儙娑樷攽鐎ｃ劉鍋撻崒鐐查唶闁哄洨鍋為悗顒€鈹戦悙鍙夘棡闁搞劎鍠栧濠氭晸閿燂拷婵犵數鍋為崹璺侯潖鐟欏嫮鐝堕柛鈩冪☉閻撴﹢鏌″搴″箺闁抽攱甯￠弻銊╂偆閸屾稑顏� 缂傚倸鍊风粈渚€藝闁秴绐楅柟閭﹀墾閼板潡鏌涢妷顔煎缂佲偓婢舵劖鐓冮柕澶堝妽閻濐亪鏌ｅ┑鎾村 闂傚倸鍊风欢锟犲磻閸曨垁鍥ㄦ綇閳哄啰顦繝銏ｆ硾閺堫剟宕楀⿰鍫熺厸闁搞儯鍔嶉惃鎴︽⒒婢跺﹦效闁哄被鍊栧ḿ蹇涘Ω閿旂粯顥涚紓鍌欑劍閸炲骞忛敓锟� 闂傚倷绀侀幖顐﹀疮閻楀牊鍙忛柟缁㈠枛濡炰粙鏌″搴′簽闁告纰嶇换娑㈠幢濡闉嶅┑顕嗙稻閸旀鍩€椤掑喚娼愰柟顔肩埣瀹曟洟鏌嗗鍛厬闂佽法鍣﹂幏锟�,闂傚倷娴囬惃顐﹀礋椤愩垹袘闂佽姘﹂～澶嬬箾婵犲偆鍤曢柛顐ｆ礀缁€鍐┿亜閺傚灝鎮戞い蹇曞枑缁绘盯骞嬮悙鏉戠殤闂佺ǹ顑嗛幑鍥ь潖閸濆嫧鏋庨柟顖嗗嫮浜梻浣告啞閻熴儳鎹㈠Ο渚殨濠电姵纰嶉弲鎼佹煥閻曞倹瀚�!

初次接触 SupeSite 的采集器，可能会感觉难以上手，本文将带你熟悉 SupeSite 的采集器，让您根据自己的情况做出自己的采集器。

以采集 http://vip.book.sina.com.cn/book/index_40931.html 为例。

一、首先简单说一下制作采集器的基本原理和思路

1、确定采集页面到 “列表页面链接” 。

2、确定在这些页面要采集的内容区域，也就是 “列表区域识别规则” 。

3、确定要采集的文章链接，也就是 “文章链接 url 识别规则” 。

4、现在真正您需要采集的范围，就是 “文章标题识别规则” 和 “文章内容识别规则” 。

5、以上 4 个步骤已经确定了采集的范围，如果您需要过滤标题和内容，请根据您的要求设置 “过滤规则” 。

以上几个步骤确定范围都是通过查看页面源码，进行设置的，截取的方法需要一些经验，建议多点右边的 “测试” 看看是否成功。

二、接下来介绍采集器的基本原理和步骤

1、进入后台 => 采集管理 => 添加新机器人，如下图所示：

1）填写基本设置

“单次采集个数”尽量设置较小的数字，以免超时。

2）采集页面的 url 地址设置

采集页面的 url 地址有两种设置方法：手动输入和自动增长。手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码。用 [page] 代替分页变量。以手动输入为例，如下图所示：

3）采集页面编码

如果采集的页面和网站的不一样，需要填写下编码，你只需要点击【程序辅助识别】，把识别出来的填写到下图位置。如下图所示：

4）列表区域识别规则

在你要采集的页面中点击鼠标右键 => 查看源代码 => 找到文章链接URL区域。

文章链接 URL 区域用 [list] 表示

左边 div 或者其他标签一定要选好，这里一定要注意，文章链接 URL 区域一定要在这个 div 内，而且是最近的，独一无二的。

建议大家用 Dreamweaver 工具查看

右边是接着左边的 div 结束后的标签，比如：

5）文章链接 URL 识别规则

现在需要的连接，如下图所示：

链接地址用 [url] 表示，比如：

<a href="[url]"

添加文章链接 URL 规则后，发现有些链接是不需要的，所以需要使用“文章链接URL剔除规则”，如下图所示：

6）文章链接 URL 剔除规则

剔除规则如果有多个选择，请用 | 隔开，比如：

http|?|index

如下图所示：

7）文章标题识别规则

点一个文章链接 => 在新打开的页面中点击鼠标右键 => 查看源代码 => 找到这篇文章的标题左右最近的标签

标题用 [subject] 表示，比如：

<h1>[subject]</h1>

如下图所示：

8）文章内容识别规则

点一个文章链接 => 在新打开的页面中点击鼠标右键 => 查看源代码 => 找到这篇文章的内容左右最近的标签

内容用 [message] 表示，比如：

<div id="contTxt" class="contTxt1">[message]</div>

如下图所示：

2、这样采集规则就写好了，点击提交保存。页面跳转后，点击开始采集，如下图所示：

3、采集的过程，如下图所示：

4、采集完毕之后，还需要更新下缓存，如下图所示：

5、如果您的采集规则正确，打开首页就可以看到你刚刚采集到的内容，如下图所示：

查看更多 supesite教程 supesite模板

来源：SupeSite/所属分类：SupeSite教程/更新时间：2009-11-24

[收藏][报错][返回列表]

SupeSite 7.0 采集管理-添加新机器人说明教程_SupeSite教程

SupeSite教程教程Rss订阅Cms教程搜索

SupeSite教程推荐

猜你也喜欢看这些