狂人采集器|站群服务论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

200M独享/1300元起接百度360搜狗神马快速排名狂人采集器使用常见问题集锦主流网站采集规则模板免费下载
租服务器找45互联www.ssf.cc
电信云8核8G 独享50M 599元/月
群系统佛山BGP高防秒解防住付款
查看: 16792|回复: 27

[经验] 采集规则截取代码详解及技巧,编写采集规则需知!

[复制链接]
发表于 2008-10-18 12:02:18 | 显示全部楼层 |阅读模式
注意:以下规则的代码均用小写,大写无效

1、常用代码解释

d000d数字 为上一行,或下一行    (常用)

例:假设A为某关键字,A*d000d1 意思:关键字A的下一行    A*d000d-1  意思关键字A的上一行。

d111d数字 为前一字符,或后一字符    (常用)

例:假设A为某关键字,A*d111d1   关键字A的后一个字符   A*d111d-1  关键字A的前一个字符

d222d关键字   放在标题截取开始处.为整个文本只保留关键字前的文本.后面的全不要

d666d   不换行   (常用)   如果你你在采集的时候发现采集的内容的第一段无法采集到,总是少开头的一段文字,那么在截取开始的代码后面加上代码     d666d


d333d   只截取当前一行   例: 标题截取开始为 A   截取结束为 d333d  意思就是标题截取从关键字开始截取,只截取一行。


2、关键字组合解释:

A、B、C分别代表3个关键字

如果内容的截取开始为  A*B*C  则这个代码的意思就是,内容截取从关键字A开始截取,如果A后面有B关键字,则从B开始截取,如果后面有关键字C,则从关键字C开始截取。


如果内容的截取结束为  A*B*C  则这个代码的意思就是,内容截取到关键字A就结束截取,如果A前面有B关键字,则到B结束截取,如果前面有关键字C,则到关键字C结束截取。

如 /top.gif*d000d-1*gline.gif*本帖最近*[ 本帖最  意思就是内容截取到 /top.gif 上一行结束,如果在他们前面有关键字 gline.gif、本帖最近  或者  [ 本帖最  则到这些关键字就结束了,谁里文章内容结尾最近就到谁处结束。


常用高级代码解释
========采集文章后两关键字之间内容替换
========文章原文件代码两关键字之间内容替换
========文章原文件代码规则截取用关键字生成
========文章列表原文件代码关键字替换
========文章列表原文件代码文章地址合成开始结束位置
========文章列表原文件代码两关键字之间内容替换
====无超链接规则====
========繁体转简体==========
========简体转繁体==========
========分页采集规则====================
分页文章原代码开始处         
分页文章原代码结束处         
分页列表贴子网址相同         
分页列表贴子网址不同         
分页标题截取截取开始         
分页标题截取截取结束         
分页内容截取截取开始         
分页内容截取截取结束         
分页回贴部分截取开始         
分页回贴部分截取结束         
分页文章采集最大数量         

注释:
A、B为两个假设关键词,格式是中间空10个空格,以下所说的代码均是指软件测试界面得出的代码

========采集文章后两关键字之间内容替换
A          B
解释:删除“专用规则代码”中从A到B的内容

========文章原文件代码两关键字之间内容替换
A          B
解释:删除“帖子原代码”中从A到B的内容

========文章原文件代码规则截取用关键字生成
A          B
解释:将“帖子原代码”中的A替换为B
一般是在原代码里面插入某个提取标记的时候用,需要注意的是插入或者替换的代码不能破坏源代码结

构,比如代码“<td class="t_f" id="postmessage_6671">”
替换时可以设置为
<td class="t_f" id="postmessage_         内容开始代码<td class="t_f" id="postmessage_
不能设置为
<td class="t_f" id="postmessage_             <td class="t_f" id="postmessage_内容开始代码
否则代码不生效,简言之,不在要原代码的两个符号"<"和“>”中间插入标记,否则无法生效甚至破坏代码

========文章列表原文件代码关键字替换
A          B
解释:将“列表原代码”中的A替换为B,一般是目标站列表页网址比较特殊的时候用

========文章列表原文件代码文章地址合成开始结束位置
A          B
解释:只采集“列表原代码”中从A开始到B结束区域内的帖子地址,一般用来过滤置顶帖或者侧边栏帖子链接

========文章列表原文件代码两关键字之间内容替换
A          B
解释:删除“列表原代码”中从A到B的内容

====无超链接规则====
解释:加此代码后,会自动屏蔽所有超链接(如需要过滤,编写规则时就要加此代码,规则编写完成后再

加此代码的话,需要重新设置规则的)

========繁体转简体==========
解释:加此代码后,会自动将采集的繁体文字转换成简体

========简体转繁体==========
解释:加此代码后,会自动将采集的简体文字转换成繁体



========分页采集规则====================
分页文章原代码开始处         
分页文章原代码结束处         
分页列表贴子网址相同         
分页列表贴子网址不同         
分页标题截取截取开始         
分页标题截取截取结束         
分页内容截取截取开始         
分页内容截取截取结束         
分页回贴部分截取开始         
分页回贴部分截取结束         
分页文章采集最大数量         

这是编写分页的时候用到的一个组合代码,10个空格后填写代码标记


========分页采集规则====================
分页文章原代码开始处          A(“帖子原代码”中分页部分的开始代码)
分页文章原代码结束处          B(“帖子原代码”中分页部分的结束代码)
分页列表贴子网址相同          C(需要采集的分页的网址共同点)
分页列表贴子网址不同          D(需排除的链接特征符,一般是用来排除分页第一页的)
分页标题截取截取开始          E(分页标题,可不填写)
分页标题截取截取结束          F(分页标题,可不填写)
分页内容截取截取开始          G(分页内容开始代码,一般用于文章或图片类网页,和下面的分页回帖不能同时使用)
分页内容截取截取结束          H(分页内容结束代码,一般用于文章或图片类网页)
分页回贴部分截取开始          I(回帖分页开始代码,用于论坛的分页回复,和上面的分页内容提取不能同时使用)
分页回贴部分截取结束          J(分页内容结束代码,一般用于文章或图片类网页)
分页文章采集最大数量          (直接填写数字,控制最大分页采集数量,特别是论坛有些回帖几十个几百个分页的,用这个代码控制,如不需要控制,请删除此代码,否则无法采集分页)
回复

使用道具 举报

发表于 2008-10-18 12:09:59 | 显示全部楼层
不错啊
回复 支持 反对

使用道具 举报

发表于 2008-10-18 12:10:27 | 显示全部楼层
板凳



www.zhanghuia.cn

www.qiyunguzhen.com

[ 本帖最后由 用心人生 于 2008-10-18 12:11 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2008-10-18 12:10:40 | 显示全部楼层
地板
回复 支持 反对

使用道具 举报

发表于 2008-10-18 12:10:55 | 显示全部楼层
地下室
回复 支持 反对

使用道具 举报

发表于 2008-10-30 11:07:37 | 显示全部楼层
昨天用了两个模板,但帖子的会员签名都采集过来了
回复 支持 反对

使用道具 举报

发表于 2008-10-31 08:28:02 | 显示全部楼层
支持
回复 支持 反对

使用道具 举报

发表于 2009-2-17 09:51:27 | 显示全部楼层
这个 还需要学习 有点复杂
回复 支持 反对

使用道具 举报

发表于 2009-3-8 19:11:11 | 显示全部楼层
[s:18] 还不明白是怎么回事
回复 支持 反对

使用道具 举报

发表于 2009-3-9 13:11:17 | 显示全部楼层
[s:12]  地板,顺便打个AD,勾引蜘蛛 http://www.lureyou.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

删违规帖/投诉/建议/赞助等可联系管理员QQ:511737878
狂人旗下站点:狂人采集器 狂人站群系统 酷软邮件群发 站长论坛
本站内容均为会员发表,并不代表狂人立场!请在法律许可范围内发布言论!

QQ|手机版|小黑屋|狂人采集器|站群服务论坛 ( 鄂ICP备08002037号-9 )

GMT+8, 2020-11-24 05:41 , Processed in 0.156250 second(s), 17 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表