档案学研究

基于双聚类算法探测档案学研究领域知识基础及

 

一、引言

对档案学近阶段研究知识基础及研究前沿的探索与分析,有助于全面认识学科发展现状,掌握学科的演进动态,把握学科未来走向及促进档案工作健康发展。

聚类作为一种常见的数据挖掘算法,传统的聚类分析只能对单一维度上的数据进行全局聚类,获得全局信息,丢失局部信息,不适合寻找矩阵中的局部模式。目前双聚类算法有传统聚类的双聚类算法(如双耦合算法)、贪心迭代搜索算法(如CC算法)、双聚类穷举策略算法(如δ-Pcluster算法)、数据模型算法(如格子模型算法)等。国内将双聚类算法应用于文献计量分析领域的研究处于起步阶段,方丽和崔雷等首次应用双聚类对图书情报领域的部分高产作者和研究特色双向聚类[1],并将双聚类应用于探测学科前沿及知识基础[2]。姚强等应用双聚类对我国医院绩效评价领域的作者和关键词两个维度进行双向聚类[3],揭示我国医院绩效评价研究的核心作者及其热点研究方向。于跃[4]等对生物医学信息学领域的相关论文进行聚类,获得期刊高频关键词双聚类矩阵图,分析得出近年来期刊研究主题方向和热点。近年来的发展趋势表明,双聚类方法在文献计量领域有着良好的应用前景。

二、数据与方法

(一)数据来源

以CSSCI数据库中收录的两个档案学学术期刊《档案学研究》和《档案学通讯》近5年内的载文作为数据源,检索策略为:期刊名称=“档案学研究”OR“档案学通讯”,检索时间范围为2011年至2015年,检索时间为2016年1月22日,经过去重处理,得到1234条记录。利用刘胜波博士开发的转换工具将CSSCI数据格式转化为WOS格式[5],再将数据导入崔雷等人开发的书目信息共现挖掘系统(BICOMB),对文献集的引文进行清洗和统计[6],得到7384篇文献,经修改不规范引文规格和补全数据后,选择被引次数≥5的61篇高被引文献(见表1),构建高被引—来源文献矩阵(见表2)。

表1 用于双聚类分析的高被引文献(部分)序号 被引文献 频次 百分比% 累计百分比%1冯惠玲, 2006, 北京:中国人民大学出版社, /档案学概论/ 56 0.7584 0.7584 2 周雪恒, 1994, 北京:中国人民大学出版社, /中国档案事业史/ 20 0.2709 1.0293 3 谢伦伯格 T.R., 1983, 北京:档案出版社, /现代档案—原则与技术/ 20 0.2709 1.3001 4 陈兆祦, 2005, 北京:中国人民大学出版社, /档案管理学基础/ 16 0.2167 1.5168 5 胡鸿杰, 2005, 北京:中国人民大学出版社, /中国档案学的理念与模式/ 15 0.2031 1.7199 6吴宝康, 1988, 北京:中国人民大学出版社, /档案学概论/ 14 0.1896 1.9095 7库克·特里, 1997, 北京:中国档案出版社, /1898年荷兰手册出版以来档案理论与实践的相互影响:第十三届国际档案大会第三次全体会议主报告/13 0.1761 2.0856 8 郭莉珠, 2000, 北京:中国人民大学出版社, /档案保护技术学教程/ 11 0.1490 2.2346

表2 高被引—来源文献矩阵(部分)注:表中行为高被引文献,列为来源文献,矩阵中的数值1代表来源文献引用相应的高被引文献,空则代表来源文献和相应的高被引文献间无引用关系。 冯惠玲,2006 1.000000 1.000000 1.000000周雪恒,1994 1.000000 1.000000谢伦伯格 T·H陈兆祦,2005胡鸿杰,2005吴宝康,1988库克·特里,1案大会第三次 1.000000郭茉莉,2000中国第二历史李财富,2005 1.000000

(二)双聚类方法

利用gCLUTO 软件[7]进行双聚类分析。对参数进行各种优化,选择最优参数。软件运行后,矩阵行的聚类代表高被引文献聚类(即知识基础),列的聚类代表来源文献聚类 (即研究前沿) ,并生成双聚类结果相似性指标表(见表3)、可视化山峰图(见图1)和可视化矩阵(见图2)。

三、结果与分析

(一)双聚类结果相似性指标

gCLUTO 计算各聚类相似性指标(见表3)。其中,ISim (类内相似性)表示每个聚类内部各对象间的平均相似性,ESim ( 类间相似性) 表示类内对象与类外对象间的平均相似性,ISim值越高,ESim 值越低,聚类效果越好。ISim 值分布在0.3左右,聚类效果一般。

(二)可视化山峰图

聚类山峰图1反映分类整体特征和效果。其中类内相似性与山峰的高度成正比例,类群拥有的对象数与体积成反比例,类内标准差与山丘颜色成比例,红色代表低标准差,蓝色代表高标准差,只有山峰顶部的颜色是有意义的。基于双聚类分析将档案学研究领域分成8类,但整体聚类效果一般。

表3 双聚类结果相似性指标8-way clustering:[61 of 61]Cluster Size ISim ISdev ESim ESdev 0 4 0.389 0.112 0.005 0.005 9 7 0.361 0.080 0.007 0.003 2 0.265 0.057 0.009 0.005 3 7 0.220 0.023 0.008 0.004 7 4 11 0.228 0.030 0.017 0.011 5 9 0.192 0.040 0.015 0.012 6 0.181 0.018 0.008 0.007 7 9 0.148 0.014 0.008 0.007 7