档案学研究

基于的我国档案学主题结构与演化研究

 

1 引言

学科主题识别研究一直以来都是图书情报领域,特别是计量分析的主要工作内容之一。在传统的计量研究中,学科主题的识别方法总体而言可以分为两类:第一类是通过学科研究论文外部特征如期刊[1]、作者[2]、机构[3]等构成的共现网络,在进行社区识别的基础上,依据研究人员的主观认识进行学科主题揭示;第二类是对与主题直接相关的内容要素单元进行的分析,如共词分析[4],研究人员依据关键词和主题词构成的网络或矩阵,通过多元统计中的降维方法或社会网络分析,能够较容易地发现关键词群所构成的主题。上述两类方法中,共词方法显得更为直接,但是其局限也十分明显:关键词容易被划分到单一主题而导致语义反映单一化、孤立词归属不准确、频次难以反映语义强度等问题[5]。

主题模型[6]较好地克服了共词分析中存在的问题,逐渐被广泛应用于学科主题的识别中。在主题模型的基本假设中,词和文本之间设立主题层,通过不同的概率分布,将词映射到主题空间,并假设文本由多个主题依据特定概率组成,抽取文本集合中的主题及其分布,能够有效反映文本的语义内涵和主题结构;进一步通过加入时间维度,主题模型的分析结果能够通过时间序列分析有效地反映主题的发展过程。

档案学作为图书馆情报与档案管理一级学科下的一个二级学科,经过长期发展已经逐渐形成了较为明确的学科结构,但目前对于档案学研究的分析多依据传统的定性分析方法或常规的计量分析方法,难以准确识别学科整体发展的主题内容,对学科主题的发展过程揭示也存在不足。本文以我国档案学研究论文为分析对象,通过文本内容分析揭示学科主题结构和主题发展过程,并在此基础上分析档案学研究的发展方向,以期为相关学科分析和方法研究提供参考。

2 主题抽取过程

2.1 数据获取

本文选择了档案学研究的两种CSSCI期刊《档案学通讯》和《档案学研究》2007年至2016年所刊载的研究论文为主要分析对象,数据来源选择CNKI网络期刊总库。在数据的获取上,由于范围明确,因此直接以来源期刊进行数据检索,《档案学通讯》近10年共载文1535篇,《档案学研究》共载文1279篇。在数据获取的基础上,进一步对所有论文进行内容分析,通过手工筛选获得2811篇研究论文及其关键词、摘要数据作为文本挖掘的基本对象,数据检索时间为2017年1月10日。

2.2 文本主题挖掘过程

本文在研究过程中主要是先通过中文文本分词,进一步利用主题模型对档案学近十年的研究成果进行内容分析。中文文本的分词工作是进行内容挖掘的基础步骤,在研究过程中,本文利用中国科学院计算所自然语言处理研究组张华平博士开发的NLPIR2016,在此基础上通过编写python程序利用ctypes调用NLPIR API的相关库文件中函数间接实现分词[7];在分词过程中,本文还依据档案学论文的关键词,通过相应的筛选机制建立了词表作为分词依据。在主题模型分析方面,本文主要利用斯坦福大学自然语言处理研究组开发的主题模型工具包Stanford Topic Modeling Toolbox(简称TMT)实现[8];该工具包主要面向非计算机专业人士和社会科学领域学者的主题模型分析需求,提供可视化的操作界面如图1所示,用户可以通过利用TMT运行编写的脚本实现主题的挖掘[9]。

图1 Stanford TMT的操作界面

TMT的主要操作可以直接针对CSV格式的文本数据实施,图2给出了利用TMT分析的文本基本格式。由于本文的研究主要针对题录数据进行挖掘,因此文本主要包括题名、关键词和摘要三个字段;同时,由于需要对主题演化情况进行分析,因此也包括了文章的发表年代信息。

图2 适用于TMT分析的CSV文档格式

TMT在帮助文档界面提供了主题挖掘过程需要的原始脚本下载,用户可以根据自身的实际需求对代码进行修改以实现所需的分析。在TMT中进行主题挖掘主要通过主题模型的学习和推理两个过程实现。图3是主题模型学习过程脚本的核心内容。脚本的第1行给出了加载文件的名称,本研究中为try.csv,文档中的第一列为ID。代码的第3—8行定义分词器,由于中文文本的分词已经通过NLPIR实现,因此需要使用TMT内置的WhitespaceTokenizer分词器,第7行表示在文本处理过程中忽略短于2个字符的词。

脚本的10—19行是有意义词的提取过程,第12行表示从原始文档的第3、4、5列进行文本内容的提取,由于出现频率过于频繁的某些词和较为罕见的词无法作为判断文档相似性标准,因此第16行表示去除在少于4篇文献中出现的词,17行则删除了最常见的40个词,同时,18行又舍弃了整个文本长度低于5个词的记录。进一步的,脚本第21—25行给出了LDA的训练过程,本文中经过多次试验后选定了15个主题(第22行),并采用Gibbs抽样进行LDA模型训练(第25行)。