1. 信息采集包括两个部分:一大部分为网络舆情信息的采集,通过Crawler(网络爬行器)对互联网信息进行采集,涵盖网络新闻、论坛、博客、微博、微信、QQ群等各种媒体。
2. 采集另一大类为对互联网的参与实体进行信息采集,包括站点的域名、IP、地理位置、网民的身份信息,实时位置等,该部分采集的信息可以来自于互联网,还可以由外部数据库导入(如身份证数据库,ICP备案数据库,位置数据库等)。
特点:范围广、全平台
1. 数据预处理模块对信息采集器采集的信息进行预处理,包括对网页文本的抽取、图片提取、站点域名、备案信息、所有者、网页关键信息(如作者,发布时间,发布IP,正文,浏览数等)进行提取
2. 同时再经过正文分词,元字段索引后,进行数据存储,以满足用户的信息检索和挖掘的需求。
特点:及时、精确
1. 数据分析模块将数据预处理模块所提供的数据在这里进行语义解析,并据此调用信息分析和挖掘程序库
2. 为提供从网络信息热点探查、发现、追踪、不良信息监测、到特定传播模式的分析、特定群体监测以及突发事件研判等各个层面上底层数据支持
3. 进而通过接口的形式向上层提供服务,以各种形式将最终将结果呈出给用户,充分保证数据的有效性与科学性
特点:直观、可视化
1. 校友服务工作流模块整合了几乎所有以校友为主题的活动,并针对不同的活动采用了不同的工作流支持
2. 例如校友招聘活动,从招聘信息的发布,到收集应聘者简历,然后对相关数据分析处理入库,最后形成主题文档保存
3. 工作服务流引擎针对用户需要解决的最终问题将数据以图形、表格、文字报告等形式提供给用户,对主题事件的整个过程进行追踪记录分析。同时,增值服务也在这个层上实现最后的整合
特点:便捷、一体化