在科研工作中,我们常常需要对海量文献进行挖掘分析,找出关键文献进行细读与研究,并锁定研究热点,探寻学科前沿。CiteSpace作为一款功能强大的文献计量学软件,能够帮助我们对文献进行可视化分析。今天,小竞就和大家分享一下如何使用CiteSpace吧!
CiteSpace(引文空间)是一款着眼于分析科学分析中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件。由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”。
CiteSpace是由美国雷德塞尔大学信息科学与技术学院的陈超美博士,以及大连理工大学的WISE实验室共同研发的。
CiteSpace的文献数据来源主要有以下几种。但我们需要注意的是,不同来源的数据所使用的格式是有特定要求的。
1.Web of Science
格式要求:全记录与引用的参考文献纯文本。
2.CSSCI
格式要求:默认格式utf-8编码。
3.CNKI
格式要求:Refworks
4.NSF(NationalScience Foundation)
格式要求:nsf.gov:XML格式&research.gov:xlsx格式
5.Derwent(德温特专利数据库)
格式要求:默认格式。
6.Scopus
格式要求:RIS(.ris)/CSV
CiteSpace的研究前沿所针对的是施引文献聚类,主要包括施引文献群组本身的内容,以及施引文献群组引用的参考文献。
CiteSpace的知识基础是某个学科领域中相对于研究前沿文献集的所有前期文献集合,也可以简单地理解为文献共被引聚类。
引文分析(CitationAnalysis)。这是一种利用数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,进而揭示其中的数量特征和内在规律的一种文献计量分析方法。
信息可视化(Informationvisualization)。这是一个跨学科领域,旨在研究大规模非数值型信息资源的视觉呈现(如软件系统之中众多的文件或者一行行的程序代码)。
1.Text(文本)
2.File(文件)
3.Project(项目)
4.Data(数据)
5.Visualization(可视化)
6.Geographical(地理化)
7.Network(网络)
8.Analytical(文献网络分析)
9.Overlay Maps(叠加分析)
10.Preference(偏好设置)
11.Help(帮助)
1.项目新建及编辑
点击“New”选项及“MoreActions”选项操作。
2.修改所建项目参数
可供修改的参数主要包括Title、ProjectHome、DataDirectory、DataSource。
一般情况下,其他参数选择默认即可,不需另作改动。
1.Time slicing
该功能即用来切分文献数据的时间年代。我们需要注意,时区分割设置应该与文献数据的时间范围相符。
2.Text Processing
首先是Termsource,我们需要选择聚类词来源,通常使用系统默认的“全选”选项。
其次是TermType,我们一般选择术语形式为“NounPhrases(名词短语)”。
3.Node Type
在此模块内,我们需要选择节点的类型。而不同类型的节点则对应着不同类型的图谱。
首先,针对施引文献的节点类型主要有以下几种:
→Author~作者共现图谱
→Institution~机构共现图谱
→Country~国家共现图谱
→Keyword~关键词共现图谱
→Term~术语共现图谱
→Category~学科共现图谱
→Paper~文献耦合图谱
针对被引文献的节点类型有以下几种:
→CitedAuthor~作者共被引图谱
→CitedJournal~期刊共被引图谱
→CitedReference~文献共被引图谱
4.links
在CiteSpace的该模块中,我们可以计算节点之间连线的连接强度。
首先,在Strength选项中,我们可以分析对象数据之间的连接强度,具体包括Cosine、PMI、Dice、Jaccard等算法模式。
其次,在Scope选项中,我们可以分析连线连接的范围广度。
5.Select Criteria
在此模块中,我们可以设定阈值选择准则,或节点提取的依据。
CiteSpace会按照用户设定的阈值提取出满足各个时间切片的文献数据,最后将其合并到网络中。
6.Pruning
我们可以在这一区域选择网络的剪枝方式,对初步形成的网络进行修剪和优化,去除不重要的节点和连线,将关键性节点和连线更显著地呈现出来,从而使图谱更加清晰,可读性更强。
7.Visualization
即设置网络图谱的可视化模式。
8.运行进度区
通过这一模块,我们可以看到软件计算和运行的机制与过程,主要包括处理过程和处理报告(SpaceStatus&Process Reports)两个区域。
1.我们需要从数据源获取ADs、arXiv格式的数据,根据对图谱类型的具体要求获取不同文件数据。获取方式主要包括以下几种:
→词检索(主题词检索、关键词检索)
→期刊检索
→学科检索
→作者检索
→机构检索
2.在选定并保存文献数据后,我们可以点击“Data-import/Export”,选择文献数据来源进行添加。
1.首先需要在存有文献数据的文件(sentimentanalysis)中创建“Data”、“Input"和“Output”三个文件夹,并将获取的文献数据放置于“Input”文件夹。
2.点击CiteSpace界面的“FormatConversion”选项,将数据转换至“Output”文件夹。
CiteSpace具备文件合并、文献去重、分隔符格式转换等数据处理功能。在转换过文献数据后,我们需要对其进行下一阶段的处理,具体可以划分为以下几个步骤:
1.将文献数据的文件名改为系统所要求的“download.txt”格式。
2.将“Output”中的文献数据粘贴至“Data”文件夹中。
3. 在CiteSpace中点击“New”选项创建新项目,并点击“MoreActions”设定项目参数。
4.参数设置完成后点击“GO!”选项进行创建。
1.阈值的选择(Threshold)
关于阈值的设置,我们可以主要采取三种较为通用的模式:
→第一种为“c,cc,ccv(默认0.2)”
→第二种为“TopN(前N个)”
→第三种为“TopN%(前N%个)”
2.时区的选择
3.叠加分析
4.文本挖掘
5.剪枝方式的选择
首先,我们可以根据文献数据量和图谱效果来选择不同的剪枝算法,具体包括以下两种:
→Pathfinder(寻径)
这一算法可以生成唯一解,呈现节点之间的显著性关系,但有时会丢失相对重要的节点,在处理量大的文献数据时更为便捷。
→MST(MinimumSpanning Tree)(最小树)
这一算法运算简捷,但并非生成唯一解,更适于处理量小的文献数据(万以内)。
其次,我们可以根据时段来选择不同剪枝策略:
→Pruningslice network
这是针对每一时间段的网络进行剪枝的,可以反复选择,分析更为细致,网络图谱更为清晰准确。
→Pruningthe merged networks
这是针对针对整体网络图谱进行剪枝的,操作较为便捷高效,但细节处理的效果不如Pruningslice network。
1.合作(主要包括作者、机构、国家)
2.共现(主要包括特征词、关键词、来源、领域)
3.共引(主要包括文献、作者、期刊)
4.耦合(主要包括文献、基金)
1.图谱类型
→聚类图谱
聚类图谱侧重于不同研究领域形成的知识聚类、聚类之间的联系及其随时间的演变特征。包括“默认图谱”与“自动聚类标签图谱”两种。
→时间线图谱
时间线图谱侧重于勾画聚类之间的关系和某个聚类中文献的历史跨度。
→时区图谱
时区图谱侧重于各研究主题随时间的演变、更新趋势和相互影响。
2.图谱效果
关于图谱效果,我们需要关注图谱的轮廓值、密度、剪影值以及模块化值。
1.聚类标签来源
主要来源包括特定聚类的标题、特定聚类的关键词以及特定聚类的摘要。
2.聚类标签形式
一般情况下我们选择“NounPhrases(名词短语)”形式。
3.算法
主要包括“TF*IDF加权算法”、“对数似然率算法”以及“交互信息算法”。
我们可以通过“Display”选项调整图谱的呈现模式。
1.背景颜色的调整
→BlackBackground
→WhiteBackground
→ColormapPalate
2.节点的调整
→NodeRendering Type
→NodeShape
→NodeSize
→NodeFill Color
→NodeOutline color
3.标签的调整
→LabelAligment
→LabelColor
→LabelFont Size
→LabelPosition
4.连线的调整
→LineShape
→DashedLines
→SolidLines
5.聚类的调整
→ClusterLabel(聚类标签)
→ClusterID(聚类ID)
→ConvexHull(聚类区)
→Circle(聚类圈)
1.针对不同类型的图谱,我们解读的方式也有所不同:
→聚类图谱
节点及连线的颜色及厚薄程度表示文献数据在不同时间段内出现(或被引用)的频次:
连线表示文献数据之间的共现(共引)关系。
连线的粗细表示各数据节点之间的共现(共引)强度。
节点颜色表示文献数据第一次共现(共引)的时间。
节点或连线的颜色一般由冷色调(早期)趋向暖色调(近期)。
→时间线图谱
哪些年份该聚类开始出现。
哪些年份该聚类的热度升高,相关学术成果开始增多。
哪些年代该聚类的热度和关注度开始降低。
→时区图谱
通过各时间段节点的连线关系,我们可以看出不同时间段之间文献数据的传承关系。
2.特殊点
我们需要关注一些特殊节点的显著特征。
首先需要关注节点的“中介中心性(centrality)”,即一个节点担任其他两个节点之间最短路桥梁的次数,这是测度节点在网络中重要性的指标之一。出现紫圈的节点的中介中心性>=0.1,这些节点是我们关注的重点。
其次,我们也需要关注一些具有高频性的节点。具有“高频性”的节点实际上代表着高被引文献,是某个领域或多个领域的重要知识基础,需要我们将其作为整个网络图谱分析的重要参照。具有强中介中心性和高频性的节点实际上就可以视为该时期研究的热点主题。
再者,突现性(burstdetection),即某一时段内引用量有较大变化的情况。我们需要关注这些变化幅度大的时段,思考其中重要节点的影响及作用。
最后,我们还需要关注图谱Sigma值以及特殊点间连线的具体特征。
在解读过图谱后,我们需要通过专家调查法等方法来反复检验CiteSpace得到的结果是否与实际情况一致,以保证学术的严谨性、科学性和客观性。
如软件系统中所提示,“inputfilenames must start with'download'”,输入文献数据时必须将文件名改成特定格式,并注意区分字母的大小写。
CiteSpace可以将可视化图谱中的节点和连线储存为“.net”格式的文件,从而可以进一步利用Pajek或UNCINET进行知识网络的绘制。
根据数据分析与运算得到相应的网络图谱后,我们不要直接截图,这样的图片清晰度低,不适合放在学术论文中,且不美观。我们要将图片下载、保存在电脑上,并可借助Gephi等其他软件将其进一步美化,并与论文文本结合起来。
以上就是本期干货内容啦!希望可以为大家实际操作和不断探索提供一些帮助~我们下期再见!
参考文献:
[1]邱均平,王曰芬.文献计量内容分析法[M].国家图书馆出版社,2008.
以上就是本篇文章【手把手教你用论文可视化分析神器——CiteSpace】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/1068.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多