--> 网络爬虫 - 内蒙古网络科技有限公司
电话:
OA-协同办公系统
点击下载
软件截图

2-引导页.jpg  TIM截图20180330094921.png  TIM截图20180330094858.png  TIM截图20180330094736.png  TIM截图20180330094712.png

OA协同办公系统的功能主要包括公文处理、公告发布、通讯录、信息查询、日程管理和邮件提醒等功能。其中公文处理为主要功能包括新建公文、公文处理批复、公文流转、公文查阅和建立公文列表等功能。


网络爬虫

网络爬虫实现互联网数据的实时采集,支持用户快速的在页面上选取配置爬虫规则,或上传爬虫脚本能够快速生成爬虫任务,并且能够方便的查看爬虫统计报表,以及能及速查询爬取到的数据;对爬虫任务进行管理,可以暂停,停止,删除,修改等,提供对爬取到的数据进行初步清洗等,并对外提供接口供各类数据存储结构(Mysql,Oracle,Hadoop,Mpp等)调用;监控网络爬虫运行情况,实时反馈并记录各类异常信息,并且能够干预异常任务的运行状态;负责解析爬虫脚本,支持HTML页面的分布式数据爬取,能够获取分页数据、多层嵌套网页数据,点击事件回调数据,超链接多层下钻数据等;支持反监控技术杜绝爬取不了数据的可能。并且支持定制化模块可以对非HTML页面进行抓取,并且支持高速缓存技术。


系统架构

网络爬虫软件是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问网页与相关的链接,获取所需要的信息,无需安装任何软件,挖掘互联网数据、配置规则简单(支持循环翻页、集合、点击事件、模拟账号登录)支持分布式采集、定时循环采集、有效的防范IP被封,支持采集数据导出,并且能够对接各种主流存储结构的面向主题爬虫。

网络爬虫产品结构分为四个层次:用户应用层、运行管理层、监控管理层、分布式爬虫核心,其中运行管理层又包括CAS单点登录系统、并且可以对接多种存储结构。



文章分类: 大数据