-
能力
- 错链、坏链、死链、内存溢出处置;
- 2000台云服务器,7*24小时无间断采集;
- 自动类聚达1000篇/分钟,1亿篇文章关键词检索响应时间0.03秒。
-
速度
①.分布式集群采集,单个采集器支持200个网站、1000个采集器并行;
②.网站、论坛等最快3分钟轮询一次,微博信息实时推送。
-
广度
- 网站、论坛、微博、博客、微信公众号、境外网站等11个信息端口全方位采集,不留死角;
- 定向采集+非定向补充采集数据
- 每天约7000万+数据
-
精度
①.模板和脚本引擎实现元数据抽取;
②.信息抽取准确率达99%以上。
-
深度
①.自动分析页面层级关系,采集到最深层内容;
②.可采集论坛跟帖、微博评论、网站评论。