首页 > 解决方案 > 正文

大数据舆情监测平台解决方案
2016-07-06 20:00:49   。来源:   。评论:0 点击:

1、项目。。。。背景及建设。目标
1.1项目。。。。背景
    随着互联网。技术和应用的普及和。发展,新闻、论坛、博客、微博客、视频网站等舆情。产生。速度、。传播渠道等均。呈现出爆炸式快速。。增长的态势,据。初步统计,2009年以来,互联网网上具有负面影响的舆情。数量同比。。增长了近 2倍以上。。目前主要存在以下问题拯待解决:
    1)网络舆情监测导控。工作。几乎完全是通过人工的方式开展的,手工发现关注网站的局部性、时间上的滞后性与信息。发布的随意性、随时性之间的矛盾日益严重。
    2)缺乏舆情信息综合。分析,导致。分析关联能力不足。例如,特定舆情。。事件在新闻、论坛、微博、博客等。不同。来源上的关联。分析。
    3)各分支在舆情信息的。管理上缺乏统一的信息报送、舆情导控。。任务下发等。业务流程的信息化工具。支撑。
    4)。目前,舆情导控。体系中缺乏可量化的。考核数据作为各级。领导年底评分的依据;
    在。经过多次现场。充分调研的基础上,提出建设舆情综合导控系统的。规划,。制定一个统一的元数据。标准和数据。交换接口规范,作为舆情。分析研判和。考核统计的元数据,从而对互联网上。传播的舆情信息。进行准确查找、归类、排重、。分析、研判、导控和核查,实现对互联网上。各类海量数据快速。分析。。处理,。。更加准确的掌握。各类舆情信息。传播的。数量、。。范围、趋势、影响等。情况,最终形成一套科学、。全面、高效地掌握网上舆情监测导控系统。
1.2建设。目标
    系统建设总体实现。目标是:能够。全面、准确、。及时的获取与“我”有关的网络信息,深。层次的对互联网舆情信息。进行。分析和挖掘,通过统一的综合指挥系统实现舆情的。及时上传和导控。。任务的集中下达,并从在线率、。引导发帖、信息报送及。。任务下发等多方面综合。考核,确保以互联网舆情监测小组为。核心的整体监测成效。
2、总体架构
    2.1软件架构
    整个系统设计分为数据。采集子系统、舆情信息数据。仓库、舆情研判。分析子系统、。引导指挥子系统、。引导。考核子系统几个。部分。
    2.1.1数据。采集子系统
    。负责对信息源头。采集,。采集子系统主要实现多线程、集群。采集模式。。满足项目。采集深度和广度要求,。采集深度。按照需求可。采集到新闻。评论、微博转发数、粉丝数以及论坛的。评论树回帖数等。
    。采集广度本系统提供通用。采集。配置,支持大。部分新闻、论坛的。采集,只需要。配置 URL即可实现。采集。。采集性能可以。灵活。配置。策略,分为指定。。调度和随机。。调度两个模式。。采集时效性可以定制。
    2.1.2舆情信息数据。仓库
    。按照系统。制定的数据规范支持外围系统数据接入,数据。仓库设计。分布式架构,通过集群方式扩展项目的规模。主要分为。分布式储存与全文索引、关系数据库。同时对外提供 API。。访问接口。数据入库。经过数据的加工。。处理。包括自动摘要、实体抽取、内容分类等操作为后续研判提供。标准数据。
    2.1.3舆情研判。分析子系统
    。侧重。业务需求。根据各项指标综合。计算舆情。热点、负面信息、专题。分析等。系统创新设计了基于多层。关键字。不同权重的数据推送算法实现海量数据中自动推送用户真正。关心的舆情线索。
    2.1.4。引导指挥子系统
    融合舆情管控。业务流程。实现重大、敏感舆情信息的逐级上报及。领导审核;可通过系统下发导控。。任务且短信提醒。功能,确保导控。。任务通知。及时、到位;
    2.1.5。引导。考核子系统
    针对。。任务完成。情况、导控。情况、信息报送及在线等。进行多角度。考核,对网评员。工作量和。工作效果提供科学评估依据。
    2.2。关键。技术
    2.2.1自动摘要
    在舆情。分析。过程中,通过自动摘要简明、确切地。描述聚出来话题的。中心内容,摘要是以提供文献内容。概括为目的,不加。评论和。。补充。。解释。
    基于统计的自动摘要也称为自动摘录,是将文本视为句子的线性序列,将句子视为词的线性序列。。包括以下步骤:
    原始文本。。处理:
    。按照。计算。机能够识。。。。别的形式输入文本信息,。比如:键盘输入、手写录入、文本扫描、图形识别、语音识别等。
    词语权重。计算:
    。关键词"。进行词频统计。对原始文本信息中的"句子权重。计算:。根据句子中词频等信息。计算句子权重。其。标准为:句子权重与句中所含"。关键词"的。数量成正比;文本信息中。包含。提示词,则提高句子权重;文本信息中特殊位置上的句子权重。增加;若句子中。包含废弃指示词则句子权重减小;句子长度与句子权重成反比。
    文摘句提取:
    对原文中所有句子按权值。高低降序排列,权值最高的若干句子被确定为文摘句。
    文摘句输出:
    将所有文摘句。按照它们在原文中的。出现顺序输出。
    2.2.2自动聚类
    。采集回的互联网数据。。包罗万象,为减轻人工巡检舆情。。事件的。负担以及撑控舆情。。事件的。发展态势,系统定期对。采集回的互联网数据。进行自动聚类,形成近期互联网上最新、最热、敏感等话题。
    自动聚类是基于相似性算法的自动聚类。技术。。根据文本内容的相似度,将内容聚合成。不同的。类别,同时对每一个聚得的。类别,给出。。精确的。类别主题词,。包括最热话题、最新话题、敏感话题。主要。包括以下几个步聚:
    特征提取。
    。。。建立聚类相似矩阵,。因为相似度是。定义一个聚类的基础。
    用算法。进行聚类。
    2.2.3自动分类
    。目前,大。部分网站。采用了 AJAX架构,页面代码。分析无法获取网站分类信息,为了。。更加。清楚的展示。各类舆情信息,如涉警、维稳等在互联网上的。分布。情况,准确的。分析舆情的。传播。。范围,清晰的展现舆情信息,对互联网舆情信息。进行分类就显得极为。重要。
    自动分类。技术。根据文献内容。进行。类别划分的。功能,可以用于地域分类、涉警分类、维稳分类、治。安分类等诸多应用。可以自动地对文档。进行分类,赋予文档一个预先。定义的。类别主题词,便于文档的组织,不需人工干预。类。分析模式共抽出了四种,以后可以通过。增加、。覆盖或。继承来扩展:
    地域。分析模式:地域词典分为三层,第一层是具有唯一性的词,。比如在中国,深圳是唯一的一个地方;第二层是地域中的下一级地名,。比如市下的区或省下的市都可以,看。具体怎么。布局。第三层是地域中地名,但有可能在各个地方都存在的或该词。还有可能是其它。性质的词。。比如:万福佳可能是地名,也有可能是人名。。根据句中。出现各层的词的。情况,得分。情况也。不同,最后再对文档中的所有句子地域得分。进行汇总。
    一层词典。分析模式:
    词典只分为一层,。根据文档中。出现词典中的词和词频。情况。进行。计算相关度。
    二层词典。分析模式:
    词典分为二层,一个句子首先。根据查找。出现第一层的词,再。根据。出现第一层词的前后几个词判断是否是第二层的词,这样。根据第一层的词前后识别第二层的词的。情况。计算该句相关度,最后对所有句子。进行汇总。分析。得到文档相关度。
    三层词典。分析模式:
    词典分为三层,一个句子首先。根据查找。出现第一层的词,再。根据。出现第一层词的前后几个词判断是否是第二层的词,再。根据第二层词的前后判断第三层的词,这样。根据第一层的词前后识别第二层的词,再。根据第二层词识别第三层词的。情况。计算该句相关度,最后对所有句子。进行汇总。分析。得到文档相关度。
    2.2.4数据推送
    互联网信息的。传播。速度快、。。范围广的特点,为。正确。引导互联网的。发展,必须第一时间内将公安机关。关心的涉警、涉稳、治安等舆情信息检测与预警出来,系统。采用数据自动推送。技术在舆情。。事件第一。爆发点时以短信或邮件形式通知。工作。人员,以便。进行。正确。引导。
    数据推送。分析是综合研判中的一。部分,主要综合。考虑两个方面:
    数据。来源:。根据数据。来源的。不同,各个类的相关度会。根据。不同阀值做调整。
    相关度:地域与其它类之间的相互影响,最后得出一篇文档的相关度。。根据地域相关度的。大小,对其它类的相关度。根据。不同阀值重新。计算。
    总体上通过这样的逻辑就很容易实现两种效果,一是分类,。具体分什么类、类的词典等都可以通过。配置实现,这样就不分受地域和类。。。。别的影响而影响源码。二是数据推送,通。过分类之后。进行各个类之间的。分析和研判,。得到一个总的相关度,通过阀值控制是否推送,是否要这。功能可以。配置来实现。
    2.2.5实体抽取
    互联网为舆情。。事件。传播的高发载地,其中。包含了。很多有价值的线索信息,为有利于公安民警能快速、准确的从网页信息中获取有价值的线索信息,系统。采用实体抽取。技术,将页网信息人名、地名、机构名、专。有名词等提取出来存入数据库中。
    实体抽取。。任务是指识别文本中具有特定意义的实体,主要。包括人名、地名、机构名、专。有名词等,从而提取这些实体。
    主要涉及到三个方面的问题:
    分词的选择:
    是不分词。。。还是。采用自动分词系统。或人工分词;
    领域的取舍:
    。比如:老鹰大战雄鹿。"老鹰"和"雄鹿"均为 NBA 队名;也可以均指动物,这就涉及到领域问题;
    。。方法的选择:
    在。。方法的选择上主要分为语言学。。方法和统计学。。方法两种;
    2.2.6。情感倾向。分析
    。根据。业务的。不同,把负面。。范围也。相应。进行划分,基于这些。考虑负面词典分为二层词典:主体词和负面行为词典。只有。。。。符合这样的模式句子。片段才被。认为。有效负面语义。
    负面词典分为二层,一个句子首先。根据查找。出现第一层的词,再。根据。出现第一层词的前后几个词判断是否是第二层的词,这样。根据第一层的词前后识别第二层的词的。情况。计算该句相关度,最后对所有句子。进行汇总。分析。得到内容的负面性。
    2.2.7相似。分析
    相似。分析原理图
    2.2.8。分布式存储
    由于互联网上的数据量。。。。非常。庞大,而网上信息之间关联的。情况错综。复杂,。所以有。。必要将爬行到的数据存储起来再做进一步的。分析以及。。备案,但对这些数据。进行存储将是海量的。对。如此大量的数据。进行高效查询就用到了全文检索。技术,这里需要。额外。。。建立一个索引文件,通过空间换时间的方式来用户查询的。速度。
    为了应对这样的。业务需求,。采用基于sphinx内核算法优化的全文检索。技术,支持。分布式的海量数据应用;基于中文分词和一元分词。。结合的。。。。办法在数据查准率、查全率上。进行大方面的。技术突破。且支持。分布式的应用部署。
3、系统。业务。模型
    针对互联网舆情。监管的。业务特点,本项目提出了一个整体化的。监管。业务。模型。首先,在。监管。对象的。定义方面,本项目将以如图1所示的三个。监管。对象为。目标:以。传播源头(论坛、微博等)、。传播内容(舆情信息)和。传播主体(网民)为。监管。对象,以时间为。分析维度对互联网舆情的相关因素。进行全方位统一的。监管。
    通过快速准确的定位。传播源头,以及对。传播内容的。采集、。分析、追踪,并监控。传播主体的网上行为,确保。传播信息的。合法性从而在整个的信息。传播。过程中,多。层次多角度的。进行。有效的。监管,并与。实际。工作。业务。。紧密。。结合,使整个。监管平台能。有效的实现“发现。传播源头、追踪。传播内容、监控。传播主体”的职能。
互联网舆情。监管。对象示意图
 
    。考虑到舆情的特征——。。。本地站点或。全国热门站点上首发,然后被转载到各大主流站点,。企图扩大事态影响面。
    系统通过监控。全国热门(例如:百度贴吧、天涯论坛、凤凰论坛、腾讯论坛、网易论坛等)、。。。本地站点来发现舆情信息,作为舆情线索。对发现的重大、敏感舆情通过专题进一步跟踪,通过在各主流站点的站内搜索对舆情。进行专项补存,从而发现有哪些站点、板块上在。传播相关舆情信息,为舆情的处置提供了依据。
系统。业务流程图
 
    舆情系统 :舆情线索发现,重大舆情补存,全局掌控舆情散布、。传播及扩散态势,掌握舆情处置。主动权,规避事态。持续升级的被动。。处理。局面;
    监控。人员:。。结合系统辅助研判 , 上报重大舆情,执行处置。。任务并向。领导反馈。结果;市局。领导:关注重大舆情,以专报为。决策点,。决策并下发舆情处置。。任务,。考核监控。人员。
 
4、部署架构
互联网舆情综合。管理系统部署架构图
 
    服务器:。包括舆情。采集服务器、数据库服务器、舆情。分析服务器和 WEB。管理服务器。
    舆情。采集服务器用来。采集关注的论坛、博客、微博、境内 (外)网站、 QQ群等海量数据,支持。分布式。采集和多线程并发。采集。将数据实时。发布到全文数据库和数据库服务器中;
    数据库服务器用来存储。采集的元数据,并执行内容去重、无用信息过滤及。关键信息提取等。动作;同时响应 WEB。管理服务器的舆情查询;为了提高建设。速度,全文检索。采用。分布式。技术,。采取基于 SPINXS内核扩展的专用检索。技术保障。业务需要;
    舆情。分析服务器用来实现数据推送、相似。分析、实体抽取及自动摘要等相关。分析,可集成部署到数据库服务器中,可。根据。实际。情况选择;
    WEB。管理服务器。进行用户。管理、组织架构。管理、。关键词维护、系统。管理、分类。管理等,同时展现。各种舆情信息、。热点话题、舆情。分布与趋势统计报表。
5、系统。功能
    5.1。采集子系统
    5.1.1。采集。。范围
    数据。采集是舆情。工作的。首要。。任务,互联网。传播特点和网民行为特征要求系统。全面获取网络信息,信息时效性要求系统。及时。采集到网络信息。
    系统内置数千个影响。程度大、。传播面广、网民。。参与度高的网站,从广度和深度。全面抓。取信息;
    监测。。。本地网站中的重点板块,搜索。。。本地有害信息;
    监测。全国热门重点网站及省厅下发的责任网站;
    实现对网站、博客、微博等的监测,拓展舆情广度;
    。采集。国内、外新闻网站,以便实时掌握国、内外要闻;
    不仅支持对文本信息的。采集,也支持音视频舆情信息的发现,系统内置百度视频、56网、土豆网等近百个视啤5站点;
    。不同。来源。采用。不同。采集方式保障。采集高效及实时性;
    5.1.2。采集。速度
    。采集系统主要基于多线程、集群。采集模式。。满足项目。采集深度和广度要求,同时。满足。采集时效性能要求;公安部要求重点站点。采集。速度小于 5分钟;。根据已。实施项目的。实际运行。情况来看,大。部分重点站点的。采集。速度在 2-3分钟左右,。个别。。特别关注的站点数据。采集 1分钟即可完成。
    。采集性能可通过。灵活。配置。。调度模式来保障。。。调度。策略分为指定。。调度和随机。。调度两个模式。。采集时效性可以定制,可。根据。不同网站的。重要。程度按需设置对应的。。调度。。任务。。。调度的类型分为按天。。调度和按周。。调度,这两种。。调度模式可。满足。不同的应用需求。
    几种。不同。策略的常见应用举例如下:
    CASE1:重点站点。。。连续性。采集
    天涯、百度等。全国性热门网站可。配置为。。。连续性。采集且5分钟。采集一次。
    CASE2:。一般站点。间隔性。采集
    芜湖论坛、江门论坛等地方性网站,主要特点是数据量更新较少。。如果。配置。采集太。频繁也会。。浪费有限的服务器资源;可。配置为。。。连续性。采集且 1小时。采集一次。
    5.1.3。增加站点
    针对关注的站点列表,通过网站。管理模块。进行站点的维护。支持各。来源站点:
    新闻网站
    论坛
    博客
    微博
    视啤5站点
    境外媒体
    元搜索
    与此同时,可。配置站点的区域(。全国、省级、地方等)及。重要。程度(。。。。非常。重要、。重要、。一般、不。重要);
    5.1.4。增加板块
    。分析。目前互联网上新闻、论坛等站点的自身特点,大多数网站。采用同样的模板,基于这一特征开发出支持大多数网站的“通用论坛。解析模板”和“通用爬虫。解析模板”,因此,仅输入关注板块的入口 URL并选择对应的。解析模板即可实现大。部分站点的。配置;
    。个别。。比较。复杂的站点,。目前均已定制开发针对性的。解析器来实现站点数据的。采集,这些。解析器内置在系统中,可。根据。实际需要。进行选择;例如:选择。全国热门的站点、。。。本地站点及行业相关的站点。
    在。实际。增加站点的。过程中,可能存在极个。。。。别的站点系统无对应的。解析器且通用。解析器也不支持,可通知厂家由厂家快速支持。
    针对。不同站点。进行关注板块的。配置,。根据板块的热度及关注。程度可按需设置每次爬取指定的站点、主贴列表及回帖列表的爬取。。范围,同时支持对。采集性能。进行。配置,新增板块时选择对应的。。调度模式来。满足数据。采集性能需求,例如可以对重点关注的网站设置快频率。采集,同时。。结合系统提供的。代理 IP池模块来解决爬行服务器高频度爬取指定站点导致IP被封的问题。
    5.1.5。采集监控
    系统自动统计每一台。采集服务器。每天完成的。。调度趋势。通过趋势辅助判断服务器运行。。任务是否饱和,以便。根据监控的数据动态调优各服务器的。采集。。任务,确保在保障。采集时效性的。前提下,合理。。利用每台服务器资源。
    服务器。。调度。。任务数可细化到每小时,同时通过选择时期可对历史。。调度。。任务数。进行查阅,通过对全局数据的掌握,使得。。任务调配。决策更科学化。
    与此同时,。采集监控模块提供了按周统计。全部服务器。。调度总数及每台服务器。。调度。。任务数的趋势,多台。采集服务器可以通过比对动态调配。。任务,以便资源合理。。利用。
    5.1.6网站。采集监控
    可通过网站。采集监控模块监控各论坛中各板块,。目前的。。调度模式、。目前总。。调度次数、发现资源。数量、。采集资源。数量、所耗时间及。。任务状态等。各种关注的数据。
    例如:发现资源。数量可辅助。分析。每天各板块中更新(当日。发布的新贴子及当日回复的旧贴子)的帖文。数量,以及。每天。发布的新贴文的。数量等,且通过历史数据的统计。结果,综合。分析各网站及各板块的热度,为后续确定热门网站及板块的。增加数据依据。
    与此同时,论坛经常会遇到改版而导致。采集不到数据的。情况,通过该模块可看出来,且改版的会自动发邮件给厂家工程师。及时。。处理,对用户透明;
6、舆情预警子系统
    6.1信息推送
    系统支持。业务类预警舆情自动推送,无需事先设置。关键字,基于语义推送行业关注的舆情信息。例如:针对公安类。业务数据的智能推送如下图所示,。包括涉警、涉恐、维稳、涉枪、涉抢、涉毒、涉偷、涉骗、涉黄等。各类。业务分类信息。
    6.2。关键字预警
    。不同用户关注的舆情有所。不同,提炼关注。。事件的特征。关键字并预先。配置,系统。根据。关键字规则自动匹配相关帖文,并智能展现给对应用户,。代替手工逐条筛选的现状,不仅提高。工作效率且获取的信息更。全面;作为信息推送的互补,可随时自。定义。关键字来关注重点关注的。。事件;
    6.3。。事件舆情信息推送
    可。根据事先。配置的。。事件。关键字自动推送预警。。事件舆情。在舆情。规划时将关注。。事件的特征。关键字。进行初始化,在使用。过程中可随时。增加。。事件。关键字来关注突发的。。事件。
    6.4。领导人舆情信息推送
    可。根据事先。配置的。领导人。关键字自动推送预警。领导人舆情。在地方性突发。。事件中,通过网络的转载及。个别心怀叵测。人员的推波助澜,其地方最高。领导人往往无辜的推上舆论的“制高点”,为。。。。保护。领导及地方政府的声誉,将地方相关。领导设置为舆情监测。对象,在某些居心叵测的。人员。。策划。。事件升级前,及早发现并预警舆情,。才能将这些非正当。。事件。扼杀在萌芽状态。
    6.5敏感舆情个性化推送
    。不同分支的用户关注的舆情有所。不同,因此个性化定制自己关注。。事件的。关键字是。。必要的,自。定义。关键字预警推送的舆情信息只有自己可以看到,以。达到敏感舆情的保密性与舆情预研判的双重效果;
    6.6舆情报警
    针对敏感或需要重点关注的。。事件,系统支持界面报警、短信报警、邮件报警等多样化报警方式,。及时掌握已知需要重点关注的舆情和未知的敏感舆情。。根据系统。关键字设置的分类——。。事件。关键字、。领导。关键字和自。定义。关键字;其中自。定义。关键字为每个用户各自关注的。关键字,。根据。不同级别。。事件设置的。关键字,可。定义是否发送邮件、是否发送短信;
    针对。。事件。关键字和。领导人。关键字为系统所有用户均需关注的舆情。。事件,由系统。管理员统一指定报警邮箱和手机号;针对。不同的。。事件。关键字和。领导人。关键字组合,可事先。定义是否发送短信。针对。重要的或敏感的舆情。。事件,可发送短信实时提醒,以便快速掌控最新舆情信息;针对低级别舆情。。事件,不需要即可知道,系统不发送短信,。避免短信骚扰;
7、舆情。分析研判子系统
    7.1。热点。分析
    1)。热点发现的原理概述
    舆情是指一。定时期内一定。。范围内的社会群体对某些社会想象和现实的主观反映,实时地。计算舆情能够。及时掌握舆情动态、。积极。引导社会舆论。因此舆情。热点自动发现和。分析。技术的研究和应用是其中。重要的一环,可以。。。帮助用户。及时快捷地。。了解和掌握互联网。热点,为掌握社情民意起到推。动作用。
    本系统。计算。热点主要目的是为了找出互联网全网。。范围内与公安相关行业的。热点舆情。。事件。该发现。过程分为基于中文分词。技术、。采集内容的聚类、对聚类。结果。进行敏感。热点的。计算。
    系统通过已经。采集的数据。。结合各大。重要网站的实时信息。进行分词、相似度。计算、以及信息。爆发度综合。计算当前的互联网舆情。热点。同时系统还可以。根据。计算的。热点。。结合系统的预警。类别实现。热点分类;针对各媒体的。重要度自动判断。热点值;这对信息媒体。根据媒体。类别。国外和。国内的属性,自动。计算。国内外。热点划分;针对自动抽取的作者、。发布人等信息,。进行。热点活跃源头。分析和判断;以及媒体类型重度及 WEB2.0媒体判断媒体的。。参与度。
    2)算法。描述
    。热点。计算法主要基于以下几方面的。关键。技术:
    1.基于词性的中文分词
    对于。采集的信息实现基于词性的中文分词后,统计。不同词性的词频做为。热点一个维度。进行。计算。
    2. 聚类算法
    系统。。利用 k-means算法。进行聚合;。。结合相似度相关算法,。得到各。热点的。传播量,。根据时间轴。计算。爆发量作为。热点的一个维度。计算。
    3. 热度算法
    本系统主要依据媒体的。重要、报道。数量、。爆发量以及。发布时间等多个因素综合。计算当前的。热点。系统。采取。定时后台运行方式,不影响前台。业务应用。
    3)数据分类
    对于系统。采集到的数据,。都会对已设定的。类别。进行识别。系统从以下几个角度来保证实现的效果:
    1. 在准确性方面,这些。类别中的。关键词中支持与或非关系的组合,可以。有效的对数据。进行筛选。
    2. 在。及时性方面,对于新。采集到的信息,。都会。进行。相应的分类筛选,被。命中的信息会。。。记录下来。
    3. 在。灵活性方面,这些。类别可以让用户自己设定,也可以由。管理员设定。。个人设定的。类别只有自己可以看到,。管理员设定的。类别可以让所有人看到。为了减免系统自    动识。。。。别的误判等问题,系统提供人工。进行对分类后的信息。进行修改。
    4. 在便捷性方面,对于这些分类出来的内容,。查看正文后会。变成已审阅状态,也可以手动将所有的文本置为审阅状态。同时提供批量操作的方式。
    5.对于无关信息的过滤
    为了找到用户。关心的。热点信息,系统是。。从前面发现出来的。热点中。进行筛选。系统中。包含一份行业字典,对于已经发现的。热点会。进行。相应的过滤。同时。。结合全文检索中的相似度原理,智能。进行数据过滤。
    7.2专题。分析
    系统运用主题聚类。。方法将。同一。。事件的信息汇聚成专题。主题聚类。。方法具有如下三个方面的优势。首先主题聚类以主题。分析、主题提取和。描述为基础, 可以。发挥主题法在组织信息方面的优势,对聚类特征。进行主题或语义控制,提高信息服务的质量。
    其次,主题聚类是在聚类。对象的主题提取基础上。进行的, 通过主题提取可以对聚类。对象。进行维度约简,从而。避免高维数据。计算问题,大大缩短信息服务的响应时间。最后, 主题聚类。。方法。不同于传统的文本聚类。。方法在于 :它还可以对聚类的。结果。进行基于主题的。描述 ,提高聚类。结果的可读性与可。理解性。
    7.3舆情。。。。。报告
    。包含今天、昨天、前天监测日报,本周、上周监测周报,本月上月监测月报及自。定义时间简报。每个简报。包含以下内容:舆情概况、数据概况、总体舆情统计、负面舆情统计、负面信息。来源网站排名 Top10、各主题信息量统计、确认负面信息、已选信息。
    7.4溯源。分析
    每一件互联网舆情。。事件的发现,都是由网名或网名组织在互联网上快速、大量。发布舆情信息导致的,为。避免有害舆情带来的危害,必须找到。相应源头。采取。相应的封堵措施,通。过。分析专题中网络舆情信息。传播的时间、空间结构,发现网络舆情话题源头。在用户手动设定的专题中将获取到的所有贴子,。根据贴子的。发表时间前后追踪到第一个。发表相关信息的网站、网名及。发表的所有贴子并。按照时间顺序展示出来,以flash的方式图形形象化。。表示。
    7.5重点网民
    1)重点人监控
    研究网民的特点不难发现,总存在一大类网民——。。。长期。持续。发布或散播某舆论。。事件或针对某。领导的负面舆论。这类网民在舆情。。事件的。发布及。传播的。过程中,起着。关键的作用,舆论会随其在网上。。。活动的。频繁度。产生。波动,这些网民必须重点关注,系统提供手工。增加重点网民的。功能,系统自动。采集该网民在微博、博客等信息。发布渠道上。发布的所有帖文;
    2)重点网民关联关系
    通过其它渠道获取到重点网民的关系,可将关系添加到系统中,以便系统。呈现各重点网民的关系,图形化展现。方便快速定位出敏感舆情。发布与。传播的组织图;
    3)重点。。事件
    针对重点网民在互联网上。发布的所帖文,可设置为需要重点关注的。对象,。进行重点跟踪,系统可统一展示某重点网民。发布的所有重点。。事件,并可。根据重点网名的虚拟身份查询在互联网上。发布舆情信息的。分布。情况;
8、舆情。引导指挥子系统
    8.1舆情。。任务下达
    针对新发现的舆情,通过系统的。。任务下发模块,向全体“网评员”。发布。引导指令和。引导内容,。发布。引导。。任务的同时可。进行短信提醒,确保所有网评员第一时间内。接收到导控。。任务。下发。。任务后,可查询“我下发的所有。。任务”,同时可。查看所有“下发给我的。。任务”;“下发。。任务”界面及“我下发的所有。。任务”。
    8.2舆情信息上报
    各分支机构发现的。重要舆情可通过系统分级上报,支持三级报送平台;监控。人员上报的信息给分管。领导,分管。领导对舆情信息进一步过滤,同时将。领导关注的信息进一步上报;。考虑到监控。人员或分支的不唯一性,存在重复报送。同一条信息的。情况,为降低分管。领导审核报送信息的。工作量,。同一条舆情信息。不同的监控。人员。每天只能上报一次。
    系统支持快捷上报和手工上报。功能。在浏览帖文时,针对人工研判为负面的舆情信息可直接在页面。进行报送,系统直接将报送帖文的。标题、正文、URL等信息直接关联到报送页面,无需人工再次拷贝或输入,仅需选择上报的机构。或。人员即可,上报。简单、。方便;系统提供基于。业务的上报机制,除上报舆情信息外,同时系统支持上报信息的。类别至少支持。工作。。。。。报告、综合信息、重点网民和其它信息几类;
    系统同时支持对历史上报的信息。进行查询,分为我上报的信息和上报给我的信息,不仅可查询到所有的报送信息,而且可查询到各报送信息。目前的状态。
    针对监控。人员上报给分管。领导的舆情信息不够详细或缺少内容等,分管。领导可将上报的该信息直接退回;被上级机构或。领导退回的信息,在信息报送用户的首页右下角弹出关联的退回标签,该标签必须签收,否则每次登录系统均会重新提醒;
9、舆情。引导。考核子系统
    9.1。引导。考核
    数据库自动存储了。引导员的发贴列表及内容,用来存放所有网评员在各网络阵地中的发贴及回贴数据;。目前各大网站基本都支持基于虚拟账号站内搜索发贴(例如:天涯、百度等),针对该类主流网站可通过系统。引导员。定时。采集模块轮巡。引导员表中的所有虚拟账号,在虚拟账号对应的站点上完成站内检索及。采集、入库,实现对。引导员发贴数据的自动。。。记录;针对。个别不支持基于站内搜索。采集的站点,可。根据虚拟账号通过。采集系统实现。采集与识别,智能发现。引导员发贴并同步到。引导员发贴表中,在保障。采集数据完整性的。情况下实现。引导员发贴数据的。考核。
    系统支持通过在线。考核、。引导员发帖。考核、信息报送。考核及。。任务下发。考核等多角度。进行。考核,并支持按。单位。考核、按部门。考核及按。个人。考核等多个纬度,作为年底。考核舆情监控。人员的依据;
    9.2网评员。管理
    将虚拟账号预先录入到系统中,并与网评员的系统登录账号实现关联,实现。引导员系统账号与发帖虚拟账号的对应关系;针对首次。实施支持通过 EXCEL表批量导入,降低。人员。工作强度。
    9.3网站核查
    舆情导控。工作执行后,必须有核查机制对导控。工作的效果。进行检查,舆情。工作核查模块的。功能可能通过系统设置核查。。任务或以 excel表的形式导入核查。。任务,通过系统自动核查。
    1.系统设置核查。。任务:系统提供按新闻、论坛等信息的核查,设置核查。。任务名、站点名、信息的 URL、数据类型、核查项 (新闻网站首页是否。消失、新闻。评论否关闭、。数量。。减少或。。。。停止。。增长、论坛首页是否已。消失、论坛列表页是置顶是否已。取消、论坛信息主题以及回贴是否已删除、论坛信息是否已经关闭回贴、网民。观点是否。变化,。观点。变化的内容)、。。任务执行时间;通过系统设置的核查。。任务后,爬虫。。任务。根据。。任务执行时间定期到互联网将导控。。任务的执行。结果。收集回来。
    2. Excel核查。。任务导入:系统支持将批量的导控。。任务导入系统。进行核查,按核查。。任务名、站点名、信息的 URL、数据类型、核查项、。。任务执行时间。格式,批量将核查。。任务导入系统后,系统自动将导入的。。任务核查。结果。收集回来。

相关热词搜索:大数据 舆情监测 方案

上一篇:。监狱手机。屏蔽系统解决方案
下一篇:四屏幕股票、期货、现货。。交易系统

分享到: 。收藏
?