2022年5月12日下午,4118云顶集团设计学系、光影交互服务技术文旅部重点实验室、数字光影技术湖北省工程研究中心联合推出“光合沙龙”第二期活动,本期活动主题为“文本挖掘:工具与方法”。报告在西七楼401室举行,设计学系博士研究生、科研助理范浩宇对学术研究中常用的文本挖掘工具CiteSpace的使用方法进行了系统讲解。设计学系张健教授主持了本次活动。
讲座开始之前,张健教授对文本挖掘工具与论文写作的关系及其价值进行了简要介绍,使大家形成对这次主题的基本了解与认知。
随后,范浩宇展开了具体的内容讲解。首先,他就文本挖掘自身内涵进行了讨论。其指出,当下生活的方方面面都离不开数据支撑,分析数据变成了现代社会的刚需。而分析数据的第一步就是对数据进行挖掘,英文叫“Data Mining”,而“文本挖掘”其实是“数据挖掘”的一种延伸,英文叫“Text Mining”。两者的相同点都是要从大量的数据中通过各种各样的分析方式来获取高质量的信息,但文本挖掘侧重于通过分类、聚类、概念/实体挖掘、模型等方法来对诸如词语的频数、模式识别、标签\注释等信息进行抽取,其本质是将文本转化为数据进行的一种分析。
其次,他介绍了文本挖掘的数据来源。一般而言,文本挖掘的数据来源有以下几种,中文的有CNKI(中国知网),CSSCI中国社会科学引文索引,CSCD中国科学引文索引;英文的有Web of Science(WoS)数据库,Scopus数据库数据,PubMed数据库以及Derwent数据库。从文本分析的信息完整程度的角度上看,Web of Science和Scopus的数据最完整,Derwent和CSSCI次之,CNKI完整性最小。而我们平时接触得比较多的两个数据库就是CNKI和WoS。
同时,他为大家对比了几款常用的文本挖掘工具。使用文本挖掘的工具的目的就是要是使复杂的学术问题逻辑化、可视化,利用良好的工具使复杂的问题简单化,在短时间内用看似很难的方法、软件、模型来进行学术研究。当下主流的文本挖掘数据可视化工具包括CiteSpace、VOSViewer、CitNetExplorer、SCI2、Pjek、Gephi等,综合比较来看,CiteSpace除了暂时无法制作热度图之外,在网络分析、网络可视化、热度图、转折点、聚类自动化命名、宏观理论、双图叠加、概念树、时间线图上都能实现。
接下来,范浩宇对CiteSpace的功能、内部运作原理和操作方法进行了详细讲解。CiteSpace中译为“引文空间”,是在科学计量学、数据可视化背景下逐渐发展起来的,一款着眼于分析科学文献中蕴含潜在知识的引文可视化分析软件。由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”。其是以知识域为对象,显示科学知识的发展进程与结构关系的一种图像,擅长用可视化的图谱揭示知识之间的联系和知识的进化规律。同时,范浩宇以实例分析方式为大家演示了CiteSpace文本数据挖掘的流程。
在讲座的结尾,范浩宇为大家推荐了《CiteSpace中文版指南》、《数据挖掘概念与技术》和《CiteSpace:科技文本挖掘及可视化》三本参考书,方便对数据可视化感兴趣的同学进行更深入的学习。
最后,张健教授对此次讲座进行了总结。她指出CiteSpace作为一个文本挖掘工具,可在论文写作的前期文献整理阶段为大家提供有力帮助。它可以快速进行基础性的学术信息识别工作,迅速推演出直观可见的知识框架,为研究者节约大量的资料梳理时间,增强文献综述的可读性。但同时,学术研究与写作的主体是人,文本挖掘有其局限性,要善用才能真正形成对研究与写作的有效助力。