杰灵采集器 更新历史

更新日志
 

20190109

1 、新增列表分页采集(如discuz论坛,输入每个版块首页即可,不用每次填写列表最大页数)

2 、新增导出文本文件功能(可设定导出标题、内容格式;可按标题单独文件夹下存放文本及附件)

3 、新增从文本文件批量导入链接URL

4、 新增简体繁体转换

5 、新增待运行任务队列管理(可删除,重新排序)

6 、新增多站点/站群发布

7 、新增同义词替换可设定最大替换数量

8 、新增正则提取内容/内容为空再次提取/内容处理正则提取 支持纯正则和反向选择\1\2,使用见帮助文档

9 、新增列表超时时间 默认20秒

10、新增内容处理 增加替换后的内容可引用其他采集字段

11、新增图片水印可控制上下左右间距

12、新增前后截取 没有包含截取符 可定义结果为空

13、其他小功能优化及BUG修复
 

20181009

1 、新增任务批量复制,单次可批量复制20个采集任务

2 、新增纯正则替换

3 、新增关键词提取自定义词库(原分词库为25w+常见词语,可能太泛,使用您自已的词库即可)

4、 新增发布可设置ssl版本,更兼容https(发布规则 添加sslversion)

5 、新增采集内容为空,结束本字段数据再处理 

6 、新增多站点/站群发布(测试中,同一任务可批量发布到不同网站)

7 、新增访问日志.txt,单篇采集/测试列表提取网址访问的网址 将保存到该目录里。

8 、修复当限定内容最大分页数量时,顺序不对的BUG.

9 、修复列表网址倒序及网址带逗号的BUG

20180727

1、新增:采集内容替换处理 可选择区分大小写

2、新增:待采集任务队列(添加N个采集任务到队列,任务执行完,其他待采集任务自动顺序执行)

3、新增:批量发布可先上传附件再发布文章(附件打包上传/单独上传/分片上传)
(免接口发布必备)

4、新增:列表采集可设置按顺序/倒序/乱序采集

5、增强: 正则处理参数可支持99个。

6、修正: win2012 系统,远程进入,首次编辑任务出现字段重复的BUG

7、修正: 发布到https站点部份错误

20180502

1、新增:从EXCEL批量导入数据到软件

2、新增:内容页可重复采集(配合计划任务可重复采集同一批内容页)

3、新增:模拟浏览器登陆获取COOKIE的时候可伪造UserAgent,防止低版本IE无法打开网页

4、修复:部份WIN7系统采集内容页的时候卡死BUG

20180411

1、修正:远程唤醒等状态切换引起的BUG

2、修正:列表采集内容正则替换的BUG

3、优化:对部份HTTPS站点的采集

20171010

1、新增:(单篇发布)支持Web先批量上传附件;可自定义附件上传接口,发布到远程服务器;(当1篇文章,图片上百张要发布,因网络带宽问题或服务端上传数量限制等等,可使用此功能,先批量 单附件上传)

2、新增:(单篇发布)支持大附件分片上传,可自定义分片大小,最小单位暂定1K

3、新增:(单篇发布)支持FTP上传

(以上三项点击【高级设置】-【发布内容自动上传附件】右侧【高级】按扭进入设置)

4、新增:可设置每次执行任务的发布数量

5、新增:可设置发布内容id起始值。仅发布内容ID大于起始值的内容

6、新增:单独采集字段可复制粘贴(新增/覆盖)

7、新增:每一个任务可手动新增/删除/清空栏目节点,详见【任务】-【发布内容】(适合 没有发布接口纯模拟登陆网站后台 使用)

8、新增:(内容处理)增加UNIX时间戳转北京时间,可自定义时间显示格式

9、新增:(内容处理)增加【内容非空结束处理】(比如内容页模板不一样,已提取到内容,使用【内容非空结束处理】即可,如果没提取到内容,可使用0909版本增加的【内容为空再次提取】功能,继续提取内容)

10、新增:发布接规则 可自定义返回成功标志(新增发布字段 “jsuccess”,内容填写 “发布成功标志” ,当网站返回内容包括“发布成功标志” ,即判定为发布成功。适合 没有发布接口纯模拟登陆网站后台 使用;)

11、新增:发布自定义UserAgent(新增发布字段 “juseragent”,内容填写您的 User-Agent)

12、新增:图片水印模式,可自定义水印位置。

13、修复:多页采集的时候内存未释放。

20170909

1、新增:单篇采集可 勾选 “关闭可视编辑窗口”,选择后,不会跳出可视编辑界面。

2、新增:内容处理 直接访问网页获取源代码(内容处理结果为网址url的时候,可直接获取源代码)

3、新增:内容为空再次提取(当目标网站 同一列表页,内容模板不一样,默认前后提取结果为空,可再次提取)

4、新增:快速帮助系统。

5、优化采集性能,修复多处BUG。(其中1处导致批量采集速度后期越来越慢,建议升级)

20170730

1、新增:批量采集内容 人工审核。(采集内容,人工修改审核后的数据才能发布到网站)

2、新增:采集数据 可导出到EXCEL文件。

3、新增:随机插入文本(随机从文本文件中 提取N行数据,随机插入到内容里,可设置跳过html标签)

4、新增:附件下载地址 自定义,可支持多级目录(如斜杆/);支持引用采集字段(如采集标题  {DD:字段=标题} );可使用软件自带标签{dd:日期yyyymmdd}、{dd:随机字母12} 等。

5、新增:图片文件名 支持使用{dd:自增id}  (参考dedecms,同一篇文章图片格式 xxx_1.gif,xxx_2.gif,xxx_3.gif);支持引用任意采集字段(如采集标题 {DD:字段=标题}).

6、新增:发布到自已的网站 支持https协议。 (使用https必看http://www.lj55.net/question/882/answer/1503)

7、优化:软件内部局部性能优化,采集处理速度更快。

20170706

1、新增:任务数据库查看器,实时修改并保存。 使用教程:http://www.lj55.net/docs/33.html

2、修改:单篇采集后 可视编辑界面排版

3、修复:字段内容"前后提取"并且勾选重复提取 的BUG(该BUG仅存在于20170703 00:00至20170705 21:00之间下载的软件 )

20170703

1、性能提升,批量采集快2倍以上,单篇采集快3~5倍

2、新增:列表页 可选择直接跳过重复标题的url提取  (如某些网站(URL会变,但标题不变)或者(自媒体,不同发布人文章标题重复),直接跳过)

3、新增:数据库查看器可执行SQL语句(如批量替换已采集数据任意字段中的“A”为“B”)

4、新增:发布规则 可自定义COOKIE。(如发布到phpcms,需指定cookie才能使用站群功能)

5、新增:强制使用网页GZIP检测

6、新增:正则截取功能,可强制最大提取次数(如有图片有100张,只提取前5张)

20170520

1、新增Unicode字符转化(json字符转中文)

2、每个字段新增【筛选过滤】功能,可选择 【下次不再采集】:

  ①、不能为空(默认第1个字段不能为空)

  ②、文字长度限制(如正文就一句话,就过滤)

 ③、内容必须包含或不得包含某些关键词(如包含敏感词,就过滤)

 ④、图片最大数量 (如微信文章,图片比文字 还多,限定图片大于10张,就过滤)

3、内容页分页,支持获取最大页数,并支持访问每个分页的延时时间。

4、列表内容分页 提取前替换

5、 优化网址快速去重性能

6、修正数据库查看翻页

20170405

1:细节优化

20170226

1:修复少量bug

20170105

1:内容提取支持最多10级【参数】循环提取,适合(论坛问答回复采集头像,用户名,发布时间,及内容)

2:增加关键词自动分词

3:增加同义词替换,可自定义同义词词库

4:增加关键词内链功能,可自定义关键词词库,可限定替换频率。 (并可解决帝国IMG,A元素嵌套替换的BUG)

5:增加计划任务功能

6:下载附件支持带COOKIE登陆下载

7:发布规则 支持使用 全局标签函数 如帝国目录newspath 可使用{dd:日期yyyymmdd}

8:增强规则导入导出功能。

9:增加PHP脚本扩展(测试中)

10:可指定单次采集内容网址最大数

 

 

20161116

1:增加多页采集正则合成多级页

2:加强正则提取内容功能

3:可强制指定采集网页编码

4:预留dll,javasctipt接口(测试中)

5:除去自动更新功能 版本号见主页最后更新日期

6:简化界面操作

==================================

20160917

1:增加数据库查看管理工具 (点击查看相关http://www.lj55.net/a/20160917/72.html

V2.2版 20160908

1:新增本地任务系统,可以选择不用注册用户。注册用户比本地用户多一个云端任务保存功能。实际采集功能全部一样

2:一页采集(采集预览)后 可使用自带KindEditor,动态生成Html表单,快速预览并修改后,发布内容

   (如果不喜欢KE编辑器 ,可自已选择UE,CK等编辑器,但对低版本IE,许多功能并不友好)

3:增加https

4:增加“字符前后截取”,“内容前后追加”,“空内容替换功能”

20160824

1:附件下载增加refer信息,突破防盗链限制

2:完善直接附件下载功能

20160822

1:完善【更多页】采集功能

2:采集内容增加【正则提取】内容功能

3:修复组合字段 附件BUG等

20160727

1:增加采集字段 【自由组合】功能( 组合后的内容依旧支持字符串替换 html标签删除  图片附件下载 水印等功能)

   组合字段使用方法:【固定字符串】--  填写 {dd:字段=标题} {dd:字段=内容} 即表示 引用 标题字段和内容字段

20160710

1:修改主界面布局,任务栏支持无限级子任务添加。

2:单页采集支持图片预览

3:修复少量BUG

20160629

1:采集字段 新增自定义格式,如随机数 随机文本

2:自定义格式新增7种杰灵系统标签 如时间戳 日期时间格式 随机字母 等

标签分别是:(标签前缀暂定dd)

{dd:日期yyyymmdd hhmmss}   ,  {dd:MD5},

{dd:随机数[1,50]},  {dd:时间戳}  ,  {dd:时间戳2}   ,   {dd:随机字母12}

20160610

1:采集图片自动增加水印,自定义图片或文字水印设置
2:可以提取首张图片为缩略图
3:发布文章 自动上传图片附件到网站,使用HTTP批量上传,不用安装FTP照样使用!
4:图片附件同步帝国附件表, 支持删除文章同步删除相应附件。

20160603

1:修复数据库特殊字符BUG

2: 修复单页发布BUG

3:补充发布任务进度条实时显示

20160523

1:增加自动升级功能

20160518

1:单页采集模式,增加dedecms,discuz,wordpress同步栏目功能。

20160517

1:增加discuz论坛主题和WordPress文章接口

20160515 

1:新增多任务 多线程 云端同步任务功能

2:减化程序UI界面 更实用

20160509

1:采集器重新上路

===============================

20160123

1:修复BUG,任务规则如果空置采集列表 导致启动栏开始任务假死。

2:获取“栏目列表”添加异常处理判断,提示错误原因。

原版本V1.0,现版本V1.01

升级办法:下载本压缩包中的文件,解压EXE文件 覆盖原文件既可。

支付宝赞助已暂停

目前评论总数:0    会员:  0

评论加载中...

发表评论