网管联盟 | 网管论坛 | 网管u家 | 网管博客 | 网管软件 | 网管求职 | 小游戏 | 网管搜索 | 网管原创 | 网管聚合 | 网管读摘 | 网管焦点 | 世界素材 | 会员投稿 | 会员中心 
中国网管联盟
Windows Linux Cisco 网络技术 数据库 黑客攻防 DotNet Java PHP 认证 新闻资讯 服务器 存储资讯 网络设备 网管学堂 技术专题 焦点 网吧频道
 当前位置: > bitsCN.com > 网管学堂 > 建站程序 > Discuz > Comsenz产品 > 四步教会您制作采集器  

四步教会您制作采集器

2007-01-22  作者:bitsCN整理  来源:中国网管联盟  点评 投稿 收藏


3、第2步确定区域之后,还要告诉程序您要采集的文章链接,也就是“文章链接url识别规则”。(图4和5)

网管网www_bitscn_com

网管论坛bbs_bitsCN_com

上图4

网管网www_bitscn_com

网管下载dl.bitscn.com

上图5
4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的标题,文章的来源和作者分别是什么。然后就是一篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。(图6)。 网管论坛bbs_bitsCN_com

网管网www.bitscn.com

上图6 网管bitscn_com

5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置“内容页面整理设置”。
以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一些经验,练习2--3次就可以领悟到了。 网管下载dl.bitscn.com

接下来介绍采集器的基本原理和步骤: 网管下载dl.bitscn.com

第一:打开后台的采集器,点击“添加新机器人”。(图1) 网管网www.bitscn.com

网管网www.bitscn.com


第二:填写基本设置:(图2) 网管联盟bitsCN@com

网管论坛bbs_bitsCN_com


      这里需要特别指出的有两个地方:单次采集个数和采集页面编码。单次采集个数尽量设置较小的数字,以免超时。采集页面编码是您采        集网页的编码,并不是您站点的编码。这里切记!!
      查看采集页面编码的方法:点击网页头部的“查看”,然后点击“源文件”,然后找到类似“<meta http-equiv="Content-Type"             content="text/html; charset=gb2312" />” ,charset后面的就是这里需要填写的“采集页面编码”。(图3)

网管联盟bitsCN_com


第三:列表页面采集设置:(图4)和(图5)
      这里设置的是采集页面的url地址,采集内容的区域范围,采集文章标题的url地址。
      采集页面的url地址有两种设置方法:手动输入(图4)和自动增长(图5)。手动输入需要您自己将所需采集的地址逐行输入。自动增长       只需填入采集页面的地址和页面页码。详见图5。用[page]代替分页变量。
      采集内容的范围用[list]代替,采集文章的标题用[url]代替。
第四:内容页面采集设置:(图6)
      这里需要设置的采集规则有:文章标题,文章来源(选填),文章作者(选填),文章内容,分页设置(选填)。
      文章标题用[subject]代替,文章来源用[from]代替,文章作者用[author]代替,文章内容用[message]代替,分页区域用[pagearea]代        替,分页链接用[page]代替。
      之后的过滤设置可以根据您的需要和采集页面的具体情况进行填写。 网管联盟bitsCN@com
      设置完毕之后点击提交,然后点击“开始采集”(图7),图8是采集的过程,采集完毕之后点击“查看结果”(图9),如果您的采集规       则正确,可以得到图10的页面,最后将采集的内容导入资讯。这里说明一点:采集的内容只能够导入资讯这个频道。

网管下载dl.bitscn.com

网管u家u.bitscn@com

中国网管论坛bbs.bitsCN.com


TAGs采集   制作   教会   页面   文章   设置   内容   需要   地址   代替    
 上一篇:没有了   下一篇:没有了
四步教会您制作采集器 评论:
loading.. 评论加载中…
评论:请自觉遵守互联网相关政策法规,评论不得超过250字。

验证码: 注册用户
本类热门排行:
最新推荐文章:
网管论坛交流: