关键词:网络英语学习生态系统;计算机网络;情感交互
当计算机播放某多媒体程序的时候,编程人员可以他的思想及情感发出指令控制该程序的运行,而不是程序单方面执行下去,程序在接受到编程人员相应的指令后而相应的做出反应,这一过程及行为,我们称之为情感交互
人与人之间的直接沟通一般是在双向交互的情况下实现的,比方说学校的一些具体的管理行为、教学行为及其它种种交往行为。而借助传统媒体实现的师生沟通大多数是章向交互的,是教师到学生的,学生的反馈行为一般并不通过传统媒体来实现。在这个主面,网络媒体的不同之处在于,借助它可以实现师生间的双向交互,甚至可以方便地实现学生与校园围墙以外世界的双向交流。
在当前的网络教学尝试中,师生之间的情感沟通被忽视。学生与教师远远相离,客观上使师生之间的感情沟通比较困难,可是并不见有主动的工作去弥补这些缺陷。在这种情况下,学生很难与教师产生情感上的共鸣,很难产生对教师的喜欢、喜爱乃至不很过分的“崇拜”,无法指望得到这种感情对学习产生积极的影响,更不用说在学生的人格成长方面,没有教师的行为作风的潜移默化的影响。笔者认为,这就是教师对学生可以产生意义的第三个方面。这种对教师的行为“导航”和情感沟通对于促进学生学习的必要性的认识缺陷,在近期的网络教学试点工作中一直部分地存在着,直到2000年的长沙会议也没有看到任何转机。
在新的媒体群落条件下,教师除借助传统媒体向学生递送知识信息外,还增加了借助网络媒体与学生进一步沟通的机会。理论上,这些沟通作为通常面对面沟通的补充,也可以产生多方面的意义,比方说,可以指导学生的学习,也可以进一步沟通感情,增进师生之间的了解,使教师对学生产生更多人格等方面的影响,促进学生全面发展。夫子云:“师者,传道、授业、解惑也”。这个道,即有为人之道与为学之道的双重含义。在此作一个小结,在教学活动中,教师与学生的沟通可以认为在三个层面上实现意义:其一,情感沟通;其二、管理沟通;其三、知识导航与传授沟通。
网络教学发展的最终制约瓶颈是教师的注意力资源。当前,一个不负责任的流行观念就是简单地将渠道的丰富与沟通的增进对等起来,甚至混淆为一个概念。产生的观点就是网络媒体可以几乎是无限制地扩大招生人数,提高教学效率。估我国,教育事业的相对落后使得我们急于寻找效率更高,受益面更大的教学模式。这种心情是可以理解。但是经验告诉我们,指望借助某种先进媒体的作用使教育的质量和数量在一夜之间“赶超英美”是不现实的,无疑是式的天真幻想。决定教学规模及教育水平的最终制约瓶颈是教师的注意力资源,是教师的质量与数量,与之相对应的是社会的教育投入。
教师已经不能无视网络媒体的冲击,网络上源源不断的信息和源源不断的新理念迫使教师必须有所改变,在这个改变过程中,教育思想的改变也自然而然地发生了。这正是技术进步推动思想进步的一个生动例子。所幸的是,网络媒体并不仅仅是使教师陷入被动状态,它同样为教师准备了足够的自我发展空间,为教师的继续学习和提高业务水平提供了更充分的条件。网络媒体呼唤教师在新的教育思想指导下进行新的教学方法的尝试,比方说,教师不仅仅作为知识的传授者,更多地作为学习的导航者,也作为网络海洋中知识的导航者。
教师作为知识的传授者,并不仅仅是刻板地把知识灌输给学生,而是在了解学生的基础上将知识恰当有序地传授给学生。在新的教育理念下,教师更多地扮演引导者的角色,即以引导为轴线,以知识传授为内容。就是说,教师的作用在教学活动方面也可以分为两个部分,一是作为知识的提供者和传授者,二是作为知识的导航者。这第二个部分的作用正是当前流行的教育思想所要强调的。
教师的另外一层管理意义是他在教学活动中同时在承担着具体学习过程中的“管理”任务。在课堂上:教师对学生就是一个客观的近在咫尺的行为约束,这个约束在规定着学生在课堂上可以干什么,不可以干什么;教师随时对良好的主动积极的学习态度予以鼓励,随时对出现的异常现象进行分析判断,然后按照自己对教育思想及管理思想的理解予以处理。教师深入课堂的管理是整个学校管理活动的重要末梢,忽视这个末梢,管理活动将是不完善的和低效的,不能保证学习活动高效正常地进行。这种观念 在一般的教学理论中已经是老生常谈,但笔者注意到,在过去的有关网络教学的讨论中,这个问题谈得太少且经常被忽视。
总之,如上所述,教师资源所产生的意义中应该包括有管理意义上的部分,还必然有教学意义上的部分。教师在教学方面的作用也因网络的出现而受到冲击。新的媒介带来的新观念首先对一些教师的陈旧教育思想和教学习惯形成冲击,使教师对教学信息的垄断地位受到威胁,近使教师不得不重新思考,重新为自己定位,调整自己的教育思想使之与新的条件相适应;另一方面,新的媒体群落也为教师提供了一个更为广阔的学习和提高的空间,提供了更为丰富的教学信息的表达手段,使他的教学活动更能丰富多彩、引人入胜,更易于培养和激发学生的创造力。
参考文献:
关键词:大数据 网络舆情 数据抓取 数据存储 舆情分析
中图分类号:G206 文献标识码:A 文章编号:1674-098X(2017)01(c)-0108-02
S着新兴媒体的发展,互联网舆情已经在社会发展中扮演着重要的角色,它已不仅仅局限于个别范围的使用和拓展,而是演变为全民互动型的参与和讨论,所以如何在众多信息中获取最全面的舆情数据,并将舆情数据以最快的速度和最灵活的方式展现出来,使舆情在可控的范围内实现最大的社会和商业价值,显得尤为重要。
1 网络舆情
网络舆情不同于传统舆情,传统舆情是民意理论中的一个概念,是民意的一种综合反映。该文所提到的网络舆情,是未经任何中介包装和验证,直接于网上的社会舆情,并以互联网为载体,以舆论事件为核心,集民众情感、态度、意见、建议、传播互动和影响力于一身的集合。
因为网络舆情的传播介质是网络,网络既具有公开性又具有隐蔽性,同时需要事件、网民、网民情感,以及通过网络介质的传播和互动,所以在既公开又隐蔽的环境中,从众多的信息中捕获并抽取出复杂的网民情绪和态度非常重要。
2 舆情捕获
由于舆情具有自由性、交互性、多元性、偏差性和突发性,所以如何从众多舆情中获取实时数据并服务于大众,是新兴媒体所面临的严峻挑战和考验。
2.1 关键词确定
在互联网上传播的信息可以用海量来形容,如果针对舆情盲目进行检索,犹如大海捞针,不仅得不到我们想要的数据,还会浪费大量的人力、物力和财力来投入到数据的分析中。所以如何在海量的信息中获取用户想要的数据,“关键词”就显得非常重要,它不仅可以让我们精确地捕获到想要的数据,而且还可以减少脏数据的捕获,大大缩短了舆情分析的时间,提升了舆情分析的反应速率,下面就介绍几种关键词确定的方法。
(1)定制关键词。关键词的确定可以从舆情分析的发出者来反向提出,舆情分析的发出者一定是希望从网络舆情中得到某种相关信息,那么我们可以从需求提出者和需求分析者的角度来确定关键词,即关键词由用户提出,并通过需求分析将用户的表述发展为定制词语,并将其定义为用户定制关键词。根据用户定制的关键词来捕获数据,是最直接明了的数据捕获方式。
(2)热门舆情关键词。很多网站如百度、搜狐、Facebook、新浪等几乎所有的交互网站都会有热门指数,我们可以借助这些网站自身携带的热门指数,来确定关键词。因为通过热门舆情关键词来捕获数据,一定是网站热门数据,这样不仅可以节省我们分析确定关键词的时间,而且还可以用最短的时间获取最多的分析数据,提高大数据在舆情分析中的反应速率。
(3)热搜舆情关键词。热搜舆情关键词不同于热门关键词,由于舆情具有广泛传播性,很多人参与到舆情探讨中,都是通过网络搜索并定位的,所以热搜关键词就是根据搜索引擎的热搜排行榜,来确定舆情关键词,通过热搜排行榜,我们可以第一时间知道并了解网民想要了解的舆论事件。
(4)参考舆情网站。想要找到网络事件的发展状况和原由,最简单也是最直接的方式,就是找到舆情的网站,很多网站就是网络舆情事件的源泉。
2.2 数据抓取
当我们通过各种方式获取并确定了关键词之后,如何把关键词变成我们想要的精确数据,就显得非常重要。我们可以通过网络爬虫技术来获取舆情数据。
当前主流的数据抓取模式主要包含4个主要部分:网络爬虫技术(Spider)、数据处理技术(Data Process)、爬取URL队列(URL Queue)和数据。爬虫主要是从互联网上捕捉网页内容,并从中抽取出需要的内容。数据处理:对爬虫抓取的内容进行处理。URL队列:为爬虫提供需要抓取数据网站的URL。数据包含3个方面:(1)Site URL:需要抓取数据网站的URL信息;(2)Spider Data:爬虫从网页中抽取出来的数据;(3)Dp Data:经过dp处理之后的数据。
2.3 数据存储
因为网络舆情具有及时更新和海量的特性,所以我们如何将抓取到的数据实时保存起来,是非常关键的,它决定了最后舆情分析的全面性和精确性。一般通过IT技术可以将数据存储到数据库中,下面介绍一下当前主流的3种数据库及其区别。
Oracle数据文件都是采用二进制编码的文件,而且它可以对SQL在执行过程中的解析和优化指定统一标准,其中包括RBO、CBO以及HTNT规则,这些都会使在Oracle数据库中执行的SQL拥有极大的优化自由,同时也对CPU、内存、IO资源方面进行优化。
MySQL最大的特点应该属自由选择存储引擎。它的每一个表都是一个文件,都可以选择合适的存储引擎。但由于它的存储引擎是开放式的插件引擎,所以文件的一致性大大降低,并且在SQL优化方面,也会有一些不可避免的瓶颈,例如多表关联、子查询优化、统计函数等都是它的弱项,并且MySQL只支持极简单的HINT。
SQL Server的数据架构基本是纵向划分,分为:Protocol Layer、Relational Engine、Storage Engine、SQLOS。SQL执行都是逐层,其中Relational Engine中的优化器,是基于成本的,其工作过程跟Oracle是非常相似的。同时它也支持丰富的HINT,包括:连接提示、查询提示、表提示。
虽然,这3个数据库各具特色,但是,如果对数据安全、存储等特性没有特殊要求,通常我们会选取MySQL数据库,因为开源而且操作相对简单。
3 舆情分析
如果说舆情数据的抓取和存储目的是在数据获取方面下工夫,那么舆情分析就是通过比较、论证等方法把数据通过图形报表等更加简洁的方式呈献给用户。
每一个舆情事件的本身都有自己的特点,分析设计人员可以根据不同的特点选择舆情分析的方法或报表。通常舆情分析方法有连续接近法、举例说明法、比较分析法和流程图法等。通常图形报表也有很多种,如趋势图、比例饼图、百分比柱图、流程图、表格等,分析设计人员根据舆情的特点选择合适的图形呈献给用户。
4 结语
通过大数据相关技术对舆情进行全方位收集、存储和分析的过程中,我们既不修饰、篡改舆情事件的真实性,也不隐藏舆情事件的丑陋性,大数据的智能捕获分析,只是将网络舆情更加清晰形象地呈现给用户,使用户在第一时间获取民众态度,掌握民众意见或建议,并根据舆情报告的精准分析反馈,及时对舆情事件做出相应的政策,调整相关的策略,实现商业和政治利益最大化,创造更多的社会价值,并使网络舆情健康良性发展。
参考文献
[1] 王博.大数据时代网络舆情与社会治理研究[D].云南财经大学,2016.
[2] 杨旭东.网络舆情监控系统关键技术研究[J].信息网络安全,2016(9):251-256.
摘要:本文以基于数据挖掘的决策支持系统方法整合网络舆情信息,建立网络舆情信息仓库,对非结构化的模糊复杂的信息,运用数据挖掘中文本挖掘技术有效分析网络热点事件的舆情,及时发现重大突发事件,减少危机损失,提高政府管理和监控舆情危机的能力。
关键词:网络舆情 数据挖掘 决策支持系统
1、引 言
近几年,随着Web2. 0的兴起与普及,互联网已成为一个开放的、个性化的社会环境形态,对社会稳定和国家安全的维护带来了严峻挑战。但是现在我们政府情报机构网络安全管理和监控能力比较薄弱,难以适应复杂的环境。因此,建立基于数据挖掘的网络舆情预警决策支持系统,对非结构化的模糊复杂的信息,运用文本挖掘技术有效分析网络舆情事件,及时发现重大突发事件,减少危机损失,提高政府管理和监控能力势在必行。
2、基于数据挖掘的决策支持系统
决策支持系统(DSS) [1]是利用大量信息,数据结合众多模型,通过人机交互,辅助各级决策者实现科学决策的系统。它是融计算机技术、信息、技术、人工智能、管理科学、决策科学等学科和技术于一体的技术继承系统,包括数据仓库和数据挖掘分析系统,由以下三个主体[2]组成:
(1)模型库系统和数据库系统结合,作为该系统的基础,为决策问题进行模型计算和定量分析,提供辅助决策信息。
(2)知识库系统和数据挖掘的结合,从数据库和数据仓库中挖掘知识放入专家系统的知识库中,通过知识推理定性分析,辅助决策。
(3)数据仓库和OLAP,从数据仓库中提取综合数据和信息来反映了其内在本质。
3、基于数据挖掘的网络舆情预警决策支持系统的定位
从网络舆情预警决策支持系统的功能和实现方式对其定义:基于决策支持系统技术,将联机分析处理、数据挖掘模型(文本挖掘模型)、数据仓库、知识库、方法库等相结合,应用于情报机构的网络舆情预警中的人机结合系统。
3.1数据仓库
数据仓库[3]的设计要满足决策支持系统的要求,即数据要具备概括性、抽象性、统一性三个特点。所以图1中数据仓库和部门数据库加上一个虚拟层,实现数据挖掘的数据清洗,为数据仓库提取有用数据。
3.2数据挖掘方法
数据挖掘[4],简单点说,就是从大量数据中寻找规律的技术,通过处理海量的、不完全的、随机的、结构复杂的数据选择有用数据,建立知识模型。网络舆情预警决策支持系统运用数据挖掘中文本挖掘技术,包括自动分类技术、自动关联技术、观点挖掘技术、自动分词技术、结构化抽取技术以及自动摘要、关键词技术等。
图1 决策支持结构系统
4、基于数据挖掘的网络舆情预警决策支持系统的构建
基于数据挖掘的决策支持系统采集网络中的新闻网页、论坛、博客、新闻评论,贴吧等网络资源,发现突发性热点事件,进行热点跟踪定位和实时舆情预警,帮助政府及时掌握舆情动向,准确捕捉预警信息,对有较大影响的重要事件快速发现、快速处理,为政府决策提供信息依据[5]。
4.1数据准备
网络舆情预警需要多样化的信息,在整理信息的时候,需要做到全面、准确、及时。本系统涉及的信息有:
文本信息:新闻、博客、产品评论、论坛帖子等文本信息,包括主题、关键词、时间、URL等。
词汇信息:包括现在词典中的字或词和现在网络用语的语义、适用的语境和是否带有情感等。
图像信息:主要是新闻、博客、产品评论、论坛帖子等上的图片,包括主题、内容、时间、URL、浏览数量等。
视频音频信息:主要是新闻、博客、产品评论、论坛帖子等上的视频音频,包括主题、内容、时间、、URL、浏览数量等。
这些来自互联网的大量信息,通过收集、整理、存储、预处理在数据库中作为原始数据,这些数据是离散的、模糊的。
4.2系统功能模块
根据网络舆情预警的规划,如舆情分类、情感分类与趋势预测、舆情检索以及统计分析等,本系统建立了舆情信息采集管理系统、舆情分类管理系统[6]、舆情来源管理系统、舆情情感分类管理系统和用户管理系统。
①舆情分类管理系统:舆情分类即对海量信息的自动(文本语义分析)分类。通过关键字样本、文件样本、自定义等把原始信息分类,形成分类别(危害国家安全、危害社会治安、扰乱社会秩序等)的分类库,分类管理可以对分类的类别数据进行增加、删除、修改等操作。
②舆情信息采集管理系统:舆情信息采集管理系统对文本信息、图像信息、视频音频信息的来源,如新闻、博客、产品评论、论坛帖子、网站及其网站的权威性进行分析统计。
③舆情来源管理系统:舆情来源管理部门对文本信息、图像信息、视频音频信息的来源,如新闻、博客、产品评论、论坛帖子、网站及其网站的权威性进行分析统计。
④舆情情感分类管理系统:舆情分类管理部门从根据新闻、博客、产品评论、论坛帖子等收集的文本信息、图像信息、视频音频信息,经过预处理之后,通过观点挖掘方法对舆情信息的情感倾向进行分析,及时发现消极情感的信息,以便迅速做出反应。
⑤舆情统计系统:统计舆情分类管理系统和舆情情感分类管理系统的信息,为政府提供报表或报文,供政府决策使用。
5、结 论
基于数据挖掘的网络舆情预警决策支持系统可以有效解决现在网络舆情预警系统中存在的问题,通过文本挖掘技术对非结构化的模糊复杂的信息分析处理,及时发现重大突发事件,减少危机损失,提高政府管理和控制舆情的能力。
参考文献:
以近年来在中国兴起并急剧发展的舆情监测和分析行业为例,即通过海量信息采集、智能语义分析、自然语言处理、数据挖掘,以及机器学习等技术,不间断地监控网站、论坛、微博、平面媒体等信息,及时、全面、准确地掌握各种信息和网络动向,从浩瀚的数据宇宙中发掘事件苗头、归纳舆论观点倾向、掌握公众态度情绪、并结合历史相似和类似事件进行趋势预测和应对建议。
互联网如今已经成为收集民意、了解政府和企业工作成效的一个非常有效的途径。然而由于缺乏对互联网发贴等行为的必要监管措施,在舆情危机事件发生后,难以及时有效获取深层次、高质量的网络舆情信息,经常造成舆情危机事件处置工作的被动,因此,北信源舆情分析专家建议应该重视对互联网舆情的应对,建立起“监测、响应、总结、归档”的舆情应对体系。
舆情服务应对大数据挑战
在国内市场中,舆情分析类产品很多,产品水平也参差不齐。要选择优秀的产品首先需要选择技术背景雄厚的生产厂商。北信源经过十几年的发展,拥有专门的数据管理部门和专业分析团队,专业的技术人员对信息的鉴别力、萃取力、掌控力处于全国的领先水平。
对大数据的采集加工是整个舆情分析服务的基础。掌握数据抓取能力与舆情解读能力,通过“加工”实现数据的“增值”,是舆情分析的必备技能。北信源网情监测平台采用多线路、加密隧道方式作为互联网上公开信息的采集通道,通过自主研发的爬虫系统,从网上自动获取页面信息。北信源舆情搜索引擎使用信息采集技术对全球范围内的网页进行检索,通过中文语义特性并结合舆情结构特点而构成的元数据搜索技术,能够提高信息采集的针对性,同时扩大采集范围的广度,提升舆情搜索的精准度。另外在采集的速率上,北信源网情监测平台通过“云计算”技术在互联网不同位置可任意部署监测工作站PC机,实现非重点网站的定时监测、重要网站及链接全天候监测。并根据网页及链接的重要度,做到对最重要的网站数据分钟级的采集更新。
如何对复杂大数据进行解释是舆情服务的关键。数据分析的模式是否科学将直接影响数据分析的质量,决定了舆情产品的可用性。基于数据分析,能否提炼出独到、高质量的观点,在凌乱纷繁的数据背后找到更符合客户要求的舆情产品和服务,并进行针对性的调整和优化,这是大数据时代舆情最大的变量。北信源舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪等计算机文本信息内容识别技术。以数据挖掘为核心技术, 应用不同的建模基础,包括关联规则、序列模式、频繁序列、决策树分类、神经元网络、线性回归、Logistic回归、K-Means聚类、模糊聚类、异常检测等多种数据挖掘算法,结合相应的数据挖掘模型可视化方法,用预测模型对舆情数据进行预测评分。
对趋势的研判是大数据时代舆情分析的目标。如今人们能够从浩如烟海的数据中挖掘信息、判断趋势、提高效益,但这远远不够,信息爆炸的时代要求人们不断增强关联舆情信息的分析和预测能力,把服务的重点从单纯的收集有效数据向对舆情的深入研判拓展。北信源舆情监测与分析平台从情报检索与分析技术基础上发展起来,除了能够跟踪、协助解决关联舆情,还能够辅以经过分析后的决策参考。
舆情面临变革
大数据时代的大舆情充分反映数据爆炸背景下的数据处理与应用需求,这是大数据时代最大的舆情变革。北信源网情监测与分析管理平台成功地实现了针对互联网海量舆情自动实时的监测、自动内容分析和自动报警的功能,有效地解决了传统的以人工方式对舆情监测的实施难题,加快了网络舆论的监管效率,有利于组织力量展开信息整理、分析、引导和应对工作,提高用户对网络突发舆情的公共事件应对能力,加强互联网“大数据”分析研判。并能够协助用户建立起舆情监测应对体系:
快速发现:实践表明,在互联网舆情出现后4小时内是控制舆情的黄金时间,被称为“黄金4小时”。
Research of public opinion monitoring system in campus network based on
Nutch and meta search engine technology
Nie Yan
(College of Science and Technology, Ningbo University, Ningbo, Zhejiang 315202, China)
Abstract: Aiming at the insufficient public opinion monitoring work, combined with transmission characteristics of public opinion information in colleges, the whole scheme of constructing public opinion monitoring system is presented. Information retrieval technology based on Nutch searching engine is applied to campus network. Information collection technology based on meta search engine is used on the Internet. The keywords feature library matching is used for automatic experiment monitoring and the public opinion information is found timely and accurately. In addition, the dealing methods such as monitoring, analysis, guide and feedback are discussed to form perfect coping mechanisms.
Key words: public opinion; Lucene; Nutch; meta search engine; information retrieval
0 引言
高校师生是网络利用率极高的一个群体,也是网络舆情的主要生成力量和影响对象。高校网络舆情的形成原因主要有三方面:一是由于国内外相关热点问题的触发,二是校内外突发事件的网上讨论,三是与高校师生利益密切相关事情的网上诉求。近年来,由于社会上网络舆情导致政府信任危机的事件不断发生,高校也逐渐重视了网络舆情突发事件的应对机制研究。同时,随着公安部对网络信息安全工作的逐步加强,高校利用自身技术优势,自主构建舆情监测系统并建立一套完善的应对机制正逐渐成为高校网络信息安全工作的重点。因此,在新形势下,遭遇突发事件,高校如何能以最快的速度收集网络上相关信息,跟踪事态发展, 及时向有关部门通报,防范网络不良舆情的快速扩散和演化,并建立相应的响应机制,实现对网络舆情的有效管理与控制,使健康的网络舆情成为维护高校稳定,推动社会文明发展的动力,已经成为当前亟需解决的重要课题。
高校的网络舆情信息主要来自两部分,一是内部独立的校园网络,二是外部开放的互联网络。随着高校校园信息化建设的深入发展,校园网中网站、论坛、博客等平台上信息资源数量呈指数级增长,仅依靠人工检索和信息审核的方式无法有效实现对网络舆情信息的监测,急需利用技术手段实现对海量网络信息的挖掘与分析,快速汇总成舆情信息;互联网上信息量十分巨大,通过垂直搜索引擎方式所获取的与高校相关的信息往往存在查全率不高的缺陷。高校网络舆情的监测,既要考虑信息采集的深度和广度,又要提高系统的精度与准度;同时对于发现的舆情信息,要能够做到快速定位,有效控制。本系统针对上述高校网络舆情监测工作的不足,并结合网络舆情传播特点,提出了构建高校网络舆情监测系统的整体方案,并探讨高校面对网络舆情在监测、分析、引导和反馈等环节的处理方法,从而形成完善的应对机制。
1 系统体系结构
高校网络舆情监测系统主要包括三个功能模块,分别是:校园网舆情信息采集模块、互联网舆情信息采集模块、网络舆情分析与预警模块,体系结构如图1所示。
图1 高校网络舆情检测系统体系结构
由于高校对校园网络具有较大的控制权限,一部分信息数据可利用各种信息系统的管理平台与数据库的访问权限来获取;另一部分可利用网络爬虫从网页数据中获取,系统基于Nutch搜索引擎技术对校园网内数据进行信息采集,采集的深度与广度都达到了较好的效果。对于互联网上的海量网络信息,如果采用垂直搜索引擎进行数据采集,所获取的数据质量不高,为此系统采用元搜索引擎技术来获取互联网信息,既提高了信息采集的针对性又扩大了采集范围。此外,对于某些特定的互联网网站,可以采取以上两种方式相结合的监测方式,同时采用网络爬虫与元搜索引擎技术,来提高系统的监测精度。
网络舆情分析与预警模块采用关键词特征库匹配方式和机器学习算法自动进行网络舆情监测,实现对舆情信息及时准确的发现,并与短信预警等系统接口实现对接,实现舆情信息的实时发送。
2 系统主要功能模块
2.1 Nutch搜索引擎与校园网信息检索
Nutch是一个开源的Java实现的Web搜索引擎,其在Lucene基础上添加了网页数据抓取功能,提供了构建搜索引擎所需的基本工具模块,包括网络爬虫、文本分析、分词工具、建立索引、搜索功能和结果过滤等。Lucene是一个高性能、可伸缩的信息搜索库,可为Nutch提供了文本索引和搜索的API,也可为应用程序添加索引和搜索功能,通过Lucene的数据库接口直接从数据库中取出数据,用API 建立索引并提供搜索接口。利用Nutch搜索引擎作为校园网舆情信息采集工具,不但可以缩短开发周期,提高开发效率,而且通过其内部的接口和插件机制可以实现对校园网数据的高质量采集。网络爬虫模块用来实现对校园网内网页文件的信息采集;Lucene接口实现与各种异构数据库的连接;利用Nutch的插件机制,采用POI插件和PDFBox插件来实现对Word、Excel、PDF等文档的读取。通过上述三种方式可以实现对校园网内多种异构数据源的信息采集。
2.2 元搜索引擎与互联网信息采集
元搜索引擎是建立在独立搜索引擎之上的搜索引擎。元搜索引擎没有自己的爬虫系统和索引系统,数据全部来自于不同的成员搜索引擎(例如 Baidu, Google, Bing等),元搜索引擎将用户的搜索请求转发给多个成员搜索引擎,对成员搜索引擎的查询结果进行筛选与去重操作后返回给用户。将元搜索引擎应用于系统可有效提高互联网范围内舆情信息采集的广度、精度和速度。各独立搜索引擎查询接口的格式和编码并不相同,首先要将元搜索引擎中的检索条件转换为各独立成员搜索引擎能够接受的格式,并通过各自的查询接口提交,然后对获得的HTML源文件格式的检索结果进行分析、处理,如百度搜索引擎返回结果中所包含的em、href标签,通过对上述标签信息的解析与提取,可以获得与之相对应的链接地址、网页标题以及部分说明文字,将上述信息处理为结构化数据后存放到相应的数据库中。再通过对不同独立成员搜索引擎所获取的舆情信息的链接地址和网页标题等信息的对比和有效性检测来实现结果的筛选和去重,然后将最终结果提交给Nutch的文档分析与分词模块,建立索引。
2.3 文档分析与中文分词
信息检索的基础是文档分析,而文档分析在很大程度上依赖于分词模块对语言的处理。文档分析是信息采集完成后的首要任务,Nutch中的文本分析模块能够完成对各异构文件中结构化标记语言的处理,得到纯文本文件。Nutch自带的CJK分词模块在中文分词的效率和准确度上不能满足实际需要。为此,在对比了JE分词、Paoding分词和ICTCLAS分词等多款中文分词模块后,Paoding分词由于其开源性和良好的分词效果被本系统采用,并通过Nutch的插件机制集成到系统当中。其原理是Nutch中的抽象类Analyzer类实现了配置和插入中文分词模块的接口,该抽象类中定义了一个公有的抽象方法tokenStream(String fieldname,Reader reader)返回的类型是TokenStream。Paoding分词的分词类返回类型也是TokenStream,故只需将参数fieldName和reader作为Paoding分词的输入参数并将其结果返回给Analyzer类即可。
2.4 信息索引与检索
系统为校园网和互联网内的多个异构数据源分别建立了各自的索引文件,为有效整合索引文件,并将其作为统一的索引库提供给舆情分析与预警模块,需要对索引文件进行优化。索引优化其实是将多个索引文件合并成单个文件的过程,目的是减少索引文件的数量,并且能在搜索时减少读取索引文件的时间。Nutch中的IndexWrite类提供了optimize方法实现该优化操作。索引优化完成后,利用Nutch中的MultiSearcher类可实现对优化后索引的统一检索功能,检索结果会以一种指定的顺序合并起来。针对高校网络舆情信息的特点,综合考虑信息相关度,时效性和访问量等因素后,系统采用了自定义的排序机制,Lucene的文本相关度公式作为信息检索的主要排序依据,辅助以信息时间和访问次数作为重要的排序因子,系统通过Lucene的激励因子boost值来改变文档得分,从而调整文档的出现顺序。
2.5 信息预警
系统采用关键词特征库匹配与机器学习算法相结合的方式对舆情信息进行预警。在对特征库内的关键词进行组合后,对舆情信息索引库进行检索,获取与之相关的信息,再通过与数据库中历史记录的比对得到最新发现的舆情信息。对新发现的舆情信息通过聚类算法对信息进行分类,从而获得舆情信息的分析结果;系统提供了良好的人机交互接口与信息展示界面,预警信息通过短信接口发送给网络舆情监测人员,做到舆情信息的及时发现、快速预警。
3 应对机制研究