懒人采集器(网页资源采集工具)官方版

大小:106.43M 类别:
  • 网络辅助

官方安全无插件纠错

  • 更新时间2025-05-20
  • 版本v4.0.2
  • 系统Pc
  • 语言简体中文

懒人采集器官方版是一款非常实用的网页信息采集工具,软件拥有内置浏览器,能够以可视化的方式帮助用户采集各种网页内容,操作方便简单,不需要掌握任何专业的网络知识,只需点击鼠标就能轻松创建采集任务。懒人采集器可自定义采集到你所需要网页上的所有信息,可智能自动识别网页列表、采集字段和分页等,输入采集网址,点击鼠标即可轻松选取要抓取的内容;懒人采集器可视化采集器,采集就像是搭积木,功能模块随意组合,可视化提取或操作网页元素,自动登录、自动发布、自动识别验证码,是万能的浏览器,可以快速创建自动化脚本,甚至可以生成独立的应用程序;用户可以通过懒人采集器来采集网页上的一些数据内容,并且可以将这些数据内容单独保存下来,这样用户如果在浏览网页的时候需要收集素材的话就可以通过这款采集器将这些数据保存下来使用了,有兴趣的小伙伴快来下载体验吧!

功能介绍

1、操作简单,可通过鼠标点击的方式轻松选取要抓取的内容

2、支持三种高速引擎:浏览器引擎、HTTP引擎、JSON引擎,内置优化后的火狐浏览器,加上独创的内存优化使浏览器采集也可以高速运行,甚至可以快速转换为HTTP方式运行,享受更高的采集速度,而在抓取JSON数据时,同样可以使用浏览器可视化方式,通过鼠标点选需要抓取的内容,完全不需要去分析JSON数据结构,使非网页专业设计人士也可以轻松抓取需要的数据

3、不用分析网页请求和源代码,却支持更多的网页采集

4、先进的智能算法,可以一键生成目标元素XPATH、自动识别网页列表、自动识别分页中的下一页按钮

5、支持丰富的数据导出方式,可以导出为txt文件、html文件、csv文件、excel文件,也可以导出到已有的数据库,如sqlite数据库、access数据库、sqlserver数据库、mysql数据库,通过向导的方式简单映射字段,即可轻松导出到目标网站数据库中

软件特色

1、可视化向导:所有采集元素,自动生成采集数据

2、计划任务:灵活定义运行时间,全自动运行

3、多引擎支持:支持多个采集引擎,内置高速浏览器内核、HTTP引擎和JSON引擎

4、智能识别:可自动识别网页列表、采集字段和分页等

5、拦截请求:自定义拦截域名,方便过滤站外广告,提高采集速度

6、多种数据导出:可导出为Txt 、Excel、MySQL、SQLServer、 SQlite、Access、网站等

懒人采集器使用方法

一、设置起始网址

要采集一个网站的数据,首先我们要设置从哪些网址进入采集,比如我们要采集一个网站的国内新闻,那么我们就要设置起始网址为国内新闻栏目列表的网址,而一般不会设置网站首页为起始网址,因为首页通常会包含很多列表,比如最新文章、热门文章、推荐文章等等各种列表块,并且这些列表块里显示的内容也是非常有限的,采集这些列表的话一般都无法采集完整信息

下面我们以采集新浪新闻为例,从新浪首页找到国内新闻,但该栏目首页内容还是比较杂乱,而且还细分三个子栏目

我们从进入其中一个子栏目内地新闻看一下

该栏目页包含有一个带分页的内容列表,通过切换分页,我们就可以采集到该栏目下的所有文章,所以这种列表页就非常适合作为我们采集的起始网址

现在,我们就复制该列表网址到任务编辑框第一步的文本框中

如果你要在一个任务中同时采集国内新闻里的其他子栏目,也可以把另两个子栏目列表地址复制进来,因为这些子栏目列表格式都是相似的,但为了便于导出或发布分类数据,一般不建议多个栏目内容混合在一起

对于起始网址我们也可以批量添加或从txt文件导入,比如我们要采集前5页,也可以这样自定义五个起始页

需要注意的是如果这里自定义了多个分页列表,在后面的采集配置里就不要再启用分页了,通常我们要采集某个栏目下的所有文章时,都只需要定义该栏目第一页为起始网址就行了,在后面的采集配置里启用分页,就可以采集到每个分页列表的数据

二、自动生成列表和字段

进入第二步后,对于某些网页,懒人采集器会智能分析出该页的列表,并自动高亮选择网页列表和生成列表数据,如

然后我们再对这些数据进行修整,比如删掉一些不需要的字段

点击图示三角符号,会弹出该字段采集详细配置,点击上面的删按钮即可删除该字段,其余参数后面章节会独立介绍

如果某些网页自动生成的列表数据并不是我们想要的数据,可以点击清除字段,把生成的字段全部清除

如果自动分析出的高亮列表也不是我们要采集的列表,那么我们就手动选取列表,要是想取消高亮显示的列表框,可以点击 查找列表,列表XPATH,把里面的xpath清空后确定即可

三、手动生成列表

点击查找列表按钮,选择手动选择列表

按提示,用鼠标左键点击网页列表中的第一行数据

点完第一行,再按提示点击第二行或其他相似的行

点击完列表里的任意两行后,整个列表就高亮显示出来了,同时该列表里的字段也会字段生成,如果生成的字段不对,点击清除字段,把下面的字段全部清除掉,下一章再介绍手动选取字段

四、手动生成字段

点击增加字段按钮

点击列表中任意一行中要提取的元素,比如要提取标题和链接地址,鼠标左键点击一下该标题即可

当点击的是网页链接时,会提示是否用时要抓取链接地址

如果要同时提取链接标题和链接地址,点是,如果只要提取标题文本,点否,这里我们点是

系统会自动生成标题和链接地址字段,并在字段列表中显示出提取到的字段内容,当点击底部表格字段标题时,会在网页上以黄色背景高亮显示出匹配的内容

如何还有标记列表中的其他字段,点击新增字段,重复以上操作即可

五、分页设置

当列表有分页时,启用分页后就可以采集到所有的分页列表数据

网页分页有两种

普通分页:存在分页条,并显示有下一页按钮,点击后可以进入下一页,如之前的新浪新闻列表里的分页

瀑布流分页:网页滚动条拉到底部时会自动加载下一页内容

如果是普通分页,我们选择尝试自动设置或手动设置

1、自动设置分页

新建任务时默认是没有启用分页的,点击不启用分页,会弹出一个菜单,选择自动识别分页,如果识别成功,会弹出对话框提示成功识别并设置了分页元素,并在网页下一页按钮上出现高亮的红色虚线框,至此成功启用自动分页

如果自动识别识别,会出现如下绿色提示框

2、手动设置分页

在菜单中选择手动设置分页

然后会自动出现查找分页按钮,点击后弹出菜单,选择标记分页

按提示向导点击下一页按钮

点击后会在网页下一页按钮上出现高亮的红色虚线框,至此成功标记了分页,如果要查看刚才设置的分页xpath,可以选择菜单中的分页XPath,即可看到该分页xpath,在这里也可以手动输入xpath进行设置

3、瀑布流分页

有些网页需要将滚动条拉到底部才能进入下一页,例如今日头条、知乎等网站,在菜单中选择瀑布流分页即可启用该分页,使用瀑布流分页采集时,页面会自动滚动到底部,直到分页完成或达到指定的分页次数

4、最大分页

指定最大分页次数,也就是切换分页的次数不会超过此数值

六、采集内容页等多级网页

如果我们要采集二级页面,如内容页,或采集更深一级的页面,三级、四级等,在当前页字段列表中,必须包含有一个提取链接地址的字段,也就是提取属性为Href的字段,如图

点击该字段标题栏,选中该列后会出现深入链接页采集按钮

点击该按钮后会自动创建一个配置选项卡,并自动打开之前选中那个字段的一个网址

而采集模式也自动显示为单条模式

列表模式:用于提取某个网页列表中的数据,预览中可看到多条数据

单条模式:适用于采集内容详情页里的各项信息,如文章标题、时间、正文等

因为我们深入采集的这个页面是内容页,所有使用默认的单条模式

然后,我们新建一个字段,提取网页中的文章发布时间,因为文章标题在第一层列表采集里已经提取了,这里就不需要重复了,采集运行时,多个页面的字段会自动合并为一个表格数据的

继续新建字段提取正文

而为了保持原文的段落格式,这里的取值属性可以选择InnerHtml,即该字段提取的数据包含Html标签

七、其他设置

我们可以对浏览器做一些设置,比如禁用图片、JS、Flash、框架等,提高浏览网页的速度

还可以设置浏览器标识(UserAgent)、代理IP、请求的间隔时间等

浏览器标识(UserAgent):网页通过读取浏览器标识来获取客户端的一些信息

请求间隔时间:用于降低请求的频率,即降低采集速度,避免因采集太快而被封IP,如果不需要降速,可以设置为0时

多值连接符:字段设置了多个xpah提取多个元素时,使用这里自定义的连接符连接多个元素值

HTTP引擎线程数:使用HTTP请求时,多线程运行的线程数,同一个HTTP请求的任务可以拆分并使用多个线程同时采集,提高采集速度,只适用于HTTP引擎,浏览器引擎不适合

注意事项

系统组件:

① .Net Framework 4.7.2

② VC++2015运行库

以上两个组件缺一不可,请务必安装完整,否则将无法正常运行。

更新日志

v4.0.2版本

新增验证码识别画布大小调整,某些网站验证码显示不全时可以调整画布大小解决

展开内容

猜您喜欢

电脑数据采集软件

工作中大家可能会用到一些数据,而苦于没有好的数据采集软件,只能一个一个的去网站采集。数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采集技术目前广泛应用于各个领域。针对制造业企业的庞大生产数据,数据采集工具尤为重要。那么市场上数据采集工具有哪些?3322小编整理了一批好用的数据采集软件,安装后可以轻松的采集到你想要的数据,还不赶快下载安装。

共有 10 款应用全部>>

类似软件

  • okshare局域网共享一键修复

    9.0/3K

    okshare是一款可以完美实现一键开启、关闭局域网共享的小工具,尤其是对于安全加固系统(类似360防黑加固),各种打印机无法共享,网上邻居、工作组无法浏览或打开缓慢等问题,导致文件资料能看到文件夹却打不开,这样会严重影响我们日常办公效率。

    查看
  • 爬山虎采集器官方版

    9.1/13.18M

    爬山虎采集器官方版是由合肥简数科技出品的一款新一代智能化采集系统。它是一款简单易用的网页数据采集软件,免费的网页爬虫工具。它能够采集互联网上的大部分网站数据,并且将数据导出为各种格式的文件或者数据库,比如csv、excel、mysql、sqlserver、sqlite、ac

    查看
  • Algorius Net Viewer(网络监控软件)

    9.1/18.53M

    Algorius Net Viewer是一款非常专业且功能强大的实时网络监控系统应用,软件界面清爽简约,使用便捷,不仅采用了先进的结构可视化和监视功能技术,致力于以最简单直观的方式来帮助用户可视化、管理和监控您的计算机网络。

    查看
  • SmartSniff(TCP/IP抓包工具)

    9.5/135K

    SmartSniff 是一款 TCP/IP 数据包捕获软件,可以帮助用户捕获和分析网络数据包。它支持 Windows 操作系统,并提供了简单易用的界面和多种数据包捕获和分析工具,可以帮助用户更好地了解网络通信情况。

    查看

网友评论

0人参与,0条评论
  • 评论需审核后才能显示

同类排行

  • 思科模拟器官方版

    8.2/227.62M

    思科模拟器(Cisco Packet Tracer)是一款世界知名的功能齐全的思科交换机模拟器程序软件,亦可简称为PT,也是由Cisco公司专为广大想要学习以及正在学习CCNA课程的网络初学者提供的一种中等保真,基于网络,基于仿真的学习环境,且具备了集成式模拟,可视化,协作

    查看
  • EasyConnect电脑版

    7.6/25.97M

    EasyConnect电脑版是一款功能强大的网络工具,无需复杂的操作和配置,只需要下载安装然后打开即可完成连接。通过它用户可以在办公室之外使用公司内网的所有系统及应用,在公司部署深信服远程应用发布解决方案后,公司所有业务系统及应用都可以轻松迁移至移动互联网上。

    查看
  • 草料二维码生成器桌面版

    9.1/238K

    草料二维码生成器是一款你自己就可以随意制作二维码的一款软件,草料二维码是国内专业的二维码服务提供商,提供二维码生成,美化,印制,管理,统计等服务,帮助企业通过二维码展示信息并采集线下数据,提升营销和管理效率。

    查看
  • 超级蜘蛛池站群

    9.1/847K

    超级蜘蛛池站群是一款简单实用的超级蜘蛛采集优化软件,软件支持采集百度蜘蛛、360蜘蛛和搜狗蜘蛛,可以设置定时采集,还支持动态链接管理、静态链接管理、关键词管理和站推链接管理,以及设置页面缓存,开启统计,gzip压缩等等,非常适合站长用户进行使用。

    查看
  • 爱快路由系统

    9.0/18.25M

    路由器管理软件。

    查看
  • WeToolPro单开版

    8.9/53.57M

    WeToolPro单开版一款运用于基于微信而制作的辅助工具,可以帮助用户提供对好友0打扰的僵尸粉检测清理功能,亦支持消息群发、批量加群好友,为帐号管理、资讯发布提供高效协助。

    查看
  • WireEdit(网络数据包编辑工具)

    8.9/23.2M

    WireEdit是由omnipacket开发的一款功能强大的可视化pcap报文编辑工具,可以在编辑所有的堆栈层数据包并保存,当然也可以编辑数据包里面的数据本身,编辑的同时,WireEdit还会保证数据包的结构性和完整性。

    查看
  • 哆点电脑版

    9.1/5.24M

    哆点电脑版是一款校园多各终端的拨号上网软件,采用秒接Wifi的认证模式,可以自动识别网络状态实现无感知漫游。并且软件采用Https全程加密的认证方式,提升了帐号密码的安全级别,满足校园与运营商对实名制认证的管理要求,与Dr.COM防代理PC客户端紧密配合,实现一台PC加N台移动终

    查看
  • 小鹿百度搜索助手电脑版

    9.1/28.73M

    小鹿百度助手是一款优秀、精炼的推广性软件,它是百度搜索平台倾力打造的一款综合性推广管理工具,包含物料编辑、智能竞价、优化报告、账户管理四大核心功能,功能强大、高性价比,是本款软件最大的特点,也是受广大用户喜欢的原因之一。

    查看
  • 时光倒流软件电脑版

    9.4/204K

    现在网络上很多功能强大的软件都是付费共享版,很多时候我们只能在10、30天试用期的时候进行使用,那么试用期过了怎么办呢。小编这里推荐使用时光倒流软件电脑版,它能将软件的使用时间回流到你需要的那一天,再也不需要支付昂贵的软件费用以及不需要多次进行软件卸载安装啦。

    查看
  • 微博批量小管家官方版

    9.1/50.31M

    批量小管家官方版是一款专为微博用户打造的账号多功能管理辅助工具,软件功能强大,可以有效的帮助自媒体、企业或个人用户全面的管理和维护微博账号信息。软件支持批量删除和管理微博动态,支持批量点赞,批量拉黑,粉丝群发等,更有私信管家、互粉转发、时光机、文章管理,僵尸粉处理等功能供你

    查看
  • DNS优选软件

    9.1/598K

    DNS优选软件是一款可以帮助用户更改DNS的小工具。它能自动获取列表中所有DNS服务器与本机的延迟,测试结束后按延迟从小到大进行排序,可根据实际情况选择最合适的DNS服务器,提高访问速度,避免DNS劫持。

    查看
  • wetoolpro多开版

    8.7/54.43M

    WeToolPro多开版是一款强大的微信社群管理工具,它能能够将多群消息集成给客服,支持自动踢人、引流辅助、丰富强悍等功能,助力社群深度运营。并且WeToolPro多开版最大的特点便是支持用户多开许多微信进行处理,操作界面简单,使用方便,只需要进行点击开始检测,即可快速的帮助用户

    查看
  • 费尔网络监护专家官方版

    9.1/6.04M

    家长不在家,孩子上网碰到垃圾网站,看到不良信息怎么办?不在实验室,办公区,电脑没做好安全防护,重要信息被人看到怎么办?生活中处处都是不良信息,重要信息被泄露等各种问题,让人头痛欲绝!

    查看
  • WeTool微信管理软件

    8.9/53.57M

    WeTool电脑版是一款专用于个人微信操作及运营的电脑工具,独家提供对好友0打扰的僵尸粉检测清理功能,亦支持消息群发、批量加群好友,为帐号管理、资讯发布提供高效协助。

    查看