《研究生通讯》2017年第3期(Vol 58).pdf
研究生通讯 GRADUATE STUDENT NEWSLETTER 中国科学院文献情报中心研究生管理办公室 主 办 中国科学院文献情报中心研究生会 编 辑 本期导读 汲众科之长,助力图情——访文献情报中心张迪老师记 ArXiv 可持续发展计划的运营与管理机制剖析 宛若新生般大步奔走在成长之路上 2017 年第三期 总第 58 期 卷首语 心的力量 段美珍 (一)打坐 我学佛祖打坐 只听不说 假装没有心跳 顶头的是星星是月亮 耳畔 释迦牟尼在跟我讲禅话 (二)冥想 闭眼之前 天地很大 时间很宽 抬头是精灵 整个世界只有你 一人 睁眼之前 世界是动听的音乐 时间是五彩的颜色 那里 只属于你一个人的绿 你是修行者 是冥想时的修行者 修行的世界极限静 一望无际的绿和闪烁的光 修行的世界只有微微一笑的面孔 修行的世界里只有我 而我还只是修行的粗糙体 我没有禅者的慧根 没有智者的聪慧 只有一梁无垠的梦 只有一颗时刻跳动的心 还有一张逐年老化的皮囊 我说我是修行者 是一直行走的修行者 是一直寻找自己的修行者 是一直寻找出口的修行者 是一直与尘世搏斗的修行者 我说我是修行者 佛祖在一旁只娓娓一笑 03 目录 2017 Contents 01 名师访谈 01 汲众科之长,助力图情—访文献情报中心张迪老师 徐 涵 陈亚杨 04 图林论剑 04 ArXiv 可持续发展计划的运营与管理机制剖析 白林林 15 图书情报领域近十年国家级科研项目研究特征分析 崔林蔚 20 基于学术合作关系的学科专家导航实现算法研究 卜玉敏 23 陈莉玥 图数据库系统与可视化研究综述 28 温度生活 28 《蝇王》 戈尔丁:非常糟糕的阅读体验 王焱弘 29 宛若新生地大步奔走在成长之路上—— 致 2016 级特工组 徐 31 咫尺天涯 , 青藏高原最美的相遇 赵旺林 【主办单位】中国科学院文献情报中心研究生管理办公室 【编辑出版】中国科学院文献情报中心研究生会 【投稿邮箱】YJSTX@mail.las.ac.cn 【联系电话】010-82626611-6721 【通信地址】北京市海淀区北四环西路 33 号 【邮 编】100190 涵 33 诗情画意 33 夏,夜迷离 任晓亚 34 无名鸟 王 朔 35 学子风采 35 “用脑减压,用心快乐”专题心理辅导讲座成功举办 寇晶晶 36 “活出精彩的一生——职业生涯规划” 专题讲座成功举办 寇晶晶 37 文情学子参观焦庄户地道战遗址纪念馆 邓洪波 彭媛媛 38 文情学子参加 “五月的鲜花”文艺汇演 张鸿雁 39 文情学子参加“捐资赠物,齐献爱心”爱心捐赠活动 徐 40 师兄师姐去哪儿 任) 问】 刘会洲(主 何 林 ( 党委书记) 【主 编】 段美珍(2015 级硕士) 【副 主 编 】 韩正琪(2015 级硕士) 寇晶晶(2015 级硕士) 【编 辑】 白林林(2016 级博士) 盛怡瑾(2016 级博士) 陈莉玥(2015 级硕士) 吴朋民(2015 级硕士) 侯雪婷(2015 级硕士) 陈 超(2016 级硕士) 陈亚杨(2016 级硕士) 崔林蔚(2016 级硕士) 柳 影(2016 级硕士) 彭媛媛(2016 级硕士) 徐 涵(2016 级硕士) 张 颖(2016 级硕士) 苏娜平(2016 级硕士) 雷佳丽(2016 级硕士) 任晓亚(2016 级硕士) 【排版美编】 包秦雯(2016 级硕士) 杜 婕(2016 级硕士) 编委:【顾 中国科学院文献情报中心 研究生会公众号 北四环西路 33 号 涵 名师访谈 汲众科之长,助力图情 —访文献情报中心张迪老师 2016 级硕士 徐涵 陈亚杨 【编者按】张迪,现任中国科学院文献情报中心情报分析与知识产品研发中心情 报分析师,从事情报产品的分析与加工工作。毕业于北京航空航天大学材料科学与工 程专业,于 2011 年加入中科院文献情报中心学科咨询服务部,担任工程技术学科馆 员职务,负责材料类研究所的学科化服务工作,并于 2016 年转岗至情报分析与知识 产品研发中心。张迪老师拥有丰富的学科化服务经验和一定的情报分析经验,参与过 “研究所新增能力项目”、“NSTL 情报服务项目”、“2014-2016 研究前沿”等若干 情报分析及服务项目,参与了大量情报产品的研发工作。张迪老师从 2015 年开始担 任中科院大学研究生选修课程“学科与技术态势分析”的授课工作,其讲授深入浅出, 生动活泼,深受选课学生好评。目前,张迪老师在职攻读情报学的博士学位。此次我 们有幸邀请到张老师作为本期的访谈嘉宾,畅谈科研与人生,为同学们答疑解惑。 1. 张老师您好!非常高兴您能抽出 析更为复杂。单就时间而言,涉及到申请 宝贵的时间接受我们的采访。了解到您原 时间、授权时间、公告日、优先权日等, 来不是图情专业出身的,那么是什么样的 可分析字段更多样。这就是我目前主要的 机会让您开始从事图情这方面的工作呢? 工作内容。 张老师:我以前是学材料科学方面 2. 您的工作团队中有不少是图情学 的,工科背景,研究方向是航空航天高温 科背景的成员,那么在合作中你们是怎样 合金,之前的研究工作主要侧重于工科的 互相取长补短,使团队效率最优化的呢? 实验以及实验结果的整理。那么我为什么 张老师:首先从情报分析的方法角度 会来到文献情报中心工作呢?主要是因为 来看,在融入图情分析的团队中工作初期, 近年中心开始吸纳更多除图情外有专业背 对于其他专业背景的成员而言,肯定是要 景的研究人员,利用多元的专业背景知识 先学习一些图书情报中常用的分析方法以 更好地为情报分析、学科咨询等工作服务。 及分析工具的使用。这些可以通过部门的 刚来到文献情报中心工作时,我主 培训、讲座等途径完成学习。并且,毋庸 要从事与材料相关的学科情报分析等较为 置疑的是在这些方法及工具的使用上,图 具体的学科化服务工作,科研方面与目前 情专业出身的成员一定掌握更为熟练,这 在读博士课题方向一致,主要是探索研究 也是我们要虚心学习的地方。但是,就目 前沿,如在共被引的基础上,增加对共被 前中心主要业务来看,单纯只依靠图情的 引论文的施引论文的分析等。除此之外, 方法是不足够的。比如我们会分析 3D 打 还有一些与目前工作相关性较大的科研任 印材料、激光技术后完成相应报告,若团 务,如专利分析。相比文献而言,专利分 队中没有此类专业背景的成员,有时会在 01 汲众科之长 助力图情 一些专业知识处理上遇到瓶颈。而这,也 正是团队中不同专业背景成员之间合作的 契合之处。 因此,从团队学科背景构成角度出 发,如一个团队中有材料、化学、数学、 地理等学科出身的成员,当某一报告中遇 到与化学相关的问题时,那么团队内部成 员会进行相关基本概念的交流,进而更有 效率地推进工作进度。当然,除团队内成 员提供的背景知识帮助外,我们每次完成 报告的过程中还会咨询相关领域的专家。 但是,咨询的过程也会因为团队中有相应 专业背景的成员而使沟通更为顺畅。 此外,还有一点就是处理问题的思 维方式相互融合。理工科背景的研究人员 思维方式更注重的是实验,即通过实验, 得到实验数据,并从中提取出相应结果和 理论依据,对此进行总结。这个过程非常 “直线条”,对自身的想象与总结能力有 一定要求,但是不高,因为实验数据是什 么样的,我们只需对其进行合理解释即可。 但是在情报学的一些研究工作中,我们需 要善于发现问题,知道我们“想要做一件 什么事情”,并善于把“想要做的这件事 情”的思路完整、清晰地表达出来,这一 点很重要。同时,有时候还需要我们自身 提出一个适用该情况的模型或者是一套方 法体系等,其实对理工科背景的研究人员 还是有一些难度的。因此,在思维方式上, 我们需要做到适时的转变、融合。 3. 我们有一些同学本科不是图情专 业的,在这第一年的学习当中,有一些困 惑和迷茫,老师是否可以给一些建议,让 同学们可以尽快融入这一领域? 张老师:其实图情领域包含的研究 范围很广,比如学科化服务,如何开展这 种服务;再比如学术交流,学术交流的形 式种类很多样化,比如我们现在所进行的 讨论在某种程度上也可以说是学术交流, 而邮件交流、课题组的组会、乃至学术会 议都可以称之为学术交流;此外,还有通 过历年诺贝尔获奖预测下一届诺贝尔奖得 主,以及通过现有论文与专利预测未来技 术以及技术交叉领域等。 但是无论哪个领域,我们发现图情 专业的同学在去进行分析时,可能都会用 到一些共现、耦合等分析方法,那么在做 分析时一定会用到实验数据,而截至目前, 我们的大量实验数据其实都是来源于理工 科。当图情专业出身的同学去对这些实验 结果进行分析时,现有的实验结果是否理 想、是否揭示了真实的领域现状等,以及 在实验过程中对哪一个参数进行调整会使 得结果更为优化,其实是没有很准确的感 官认知的。因此,对于纯工科学生或者理 工类背景的学生而言,我们可以在完成对 共现、耦合等常用情报分析方法学习的基 础上,再来做实验。那么可能在做同样一 组实验数据时,我们在实验进行过程中就 能及时发现需要调整的参数,以突出我们 的目标结果,使得最后对实验结果的解释 效果也更佳。而对于侧重理论的那部分同 学而言,可以多关注领域动态,培养自身 发现问题、总结提炼的能力,可能会取得 相对较好的效果。 除此之外,我认为目前图情领域的 进一步发展非常需要计算机技术的注入。 随着领导、公司以及科研人员等各层面人 们对情报分析的进一步需求,计算机等工 科领域的机器学习、文本挖掘以及大数据 分析等一系列方法,对图情领域帮助很大。 4. 经过这一学期的课程讲授,老师 您认为图情专业以及其他专业的同学各有 什么特点?与其他专业的同学相比,图情 专业的学生有哪些方面需要进一步提高? 张老师:学科态势这门课程选修同学 02 汲众科之长 助力图情 的专业背景各不相同,有物理学的、计算 机的、环境科学的、生物学的、管理学的 等等。让我印象最深刻的是经管学院的一 位学生,我们的研究方法与他们的是相通 的,比如说我们现在做一些分析也要用到 社会网络分析之类的方法,学科态势往深 处分析也可以用到社会网络分析的方法, 他们分析的对象更广,数据来源也更广, 我们可能就只是分析与学术相关的对象。 同时,他们也一直在实践,水平还是挺高 的。就以我之前提到的那位同学而言,他 在完成这门课程的作业时,使用了其他的 数据和方法,并且自己编写了一个小程序, 进行数据清洗,让分析的效果更好。我们 可以常与他们进行沟通交流,互相学习。 其他如物理、生物学专业背景的学 生,他们在检索自身领域内容的时候比我 们想的更细,制定检索式时,他们在决定 使用哪些检索词时比较专业。我们学科态 势这门课对这些专业的人来说是非常有用 的,因为这门课涉及的方法不是很难。他 们学会了这些方法,应用到以后的研究中, 能够在自己的研究方向检索得更好更全, 还能分析出一些态势,但对于图情专业的 学生来说,这门课太浅显,还需要进一步 深入学习。 5. 根据老师的工作经历,我们在就 业时有哪些可以选择的方向,老师有什么 经验可以与我们分享? 张老师:我听说的、就业去向主要 有三类:一、图书馆,主要是从事服务类 的工作,例如高校图书馆、中科院各所的 图书馆等。服务类的工作还是挺多的,除 图书馆的传统业务外,目前图书馆,尤其 是高校图书馆比较重视学科化服务,针对 不同的学科提供不同主题的服务;不少高 校图书馆,如北大、清华,经常举办各种 活动,让学生爱上图书馆。二、类似我们 中心的情报机构,例如中信所、医学信息 研究所,农科院的农业信息研究所等,从 事情报分析工作。三、互联网公司,有计 算机背景的同学可以考虑进入互联网公司 工作,这些公司也会做一些情报分析工作, 也是很不错的去向。 6. 考试周课程结课、项目任务、9 月 份的开题报告等,让同学们倍感压力,在 这种紧张的时期,老师有什么好的解压方 式呢? 张老师:我自己倒也没有什么特别 独特的解压方式,关键是我们要对自己有 信心,相信自己,既然别人能够做好,那 么自己也一定能够做好。此外,交流很重 要。当我们遇到问题时,要及时向他人请 教,多与老师沟通,切记独自埋头苦干。 合理做好学习工作安排,一步步推进,不 要给自己太大压力。相信每一位同学都可 以成为更好的自己! 左二 张迪老师 03 图林论剑 ArXiv 可持续发展计划的运营与管理机制剖析 2016 级博士 白林林 摘要:[目的 / 意义]对 arxiv 实施的可持续发展计划运营与管理模式的剖析希望可以 为我国 2016 年成立的“中国科学院科技论文预发布平台(ChinaXiv)”在管理运营方 式、服务、发展等方面提供借鉴。[ 方法 / 过程 ] 对 arxiv 实施的可持续发展计划采用 的管理与经营模式、执行路径图进行了详细剖析。[ 结果 / 结论 ] ArXiv 可持续发展计 划强调从外部获取资金资助,成员费用是根据下载的文章数量计算的机构排名,筹资 方式透明化。在 SAB 和 MAB 代表成员机构利益和对用户的需求调研情况下,来源于 实际的系统发展、升级等方面的意见都是值得我们借鉴的。并且 arXiv 开始关注与其 他机构知识库的互操作性的这种思想也是值得我国在运营 ChinaXiv 时考虑的。 关键词:ArXiv;可持续发展计划;管理模式;运营模式;路径图 分类号:G254 1111 1 引言 ArXiv[1](以前的 xxx.lanl.gov)是一个 预印本论文存缴、检索、发布和交流的 开放知识库平台和服务器,覆盖的领域包 括物理、数学、计算机科学 x、非线性科 学、定量生物学、定量金融学和统计学。 最初是由量子物理学家保罗·亨利·金 斯帕(Paul Henry Ginsparg)于 1991 年在 美国洛斯阿拉莫斯国家实验室成立,自 2001 年开始,转而由美国康奈尔大学图 书馆运营。2010 年 1 月,为了确保 arXiv 的可持续发展,康乃尔大学图书馆开始了 历时三年的 arXiv 长期可持续发展(ArXiv Sustainability Initiative) 模 式 探 索, 以 促 进 arXiv 由康奈尔大学图书馆向多机构协 同管理模式的转变。该可持续发展计划从 2013 年 1 月份开始执行,为期五年。到 2017 年 2 月为止,arXiv 可持续发展计划 已执行四年,共有来自 25 个国家的 206 个成员机构参与进来 [2],存储的数据量在 2016 年底达到了 121,9219 篇 [3]。在西班 牙国家研究委员会(CSIC)网络计量学 实 验 室(Cybermetrics Lab) 在 2016 年 7 月和 1 月公布的第 19 版、20 版全球知识 库(Rankings Web of Repositories)[4] 排 名 中,arXiv 都居于第一,可见其影响力之 大,当然这与其管理运营方式、提供的服 务密不可分。ArXiv 自成立以来,国外学 者主要围绕其中的论文的使用情况进行了 大量研究,arXiv 中论文确实具有较高的 引用率,究其原因在于 arXiv 存储的论文 先于期刊出版 [5],Davis P M 等人对 19972005 年发表在 4 种数学期刊的 2 765 篇论 文作为数据源 , 得出在 arXiv 仓储论文的 篇均被引频次为 1.1,比非 arXiv 存储的 论文高出 35 %[6]。国内学者主要集中在对 2013 年 arXiv 可持续发展计划实施之前运 营机制的介绍及对国内预印本系统的启 示、与国内预印本系统的比较和存储论文 的定量分析方面,如 2009 年刘银娣从业 务、财务和社会影响 3 个方面详细分析了 arXiv 的运营情况 [7];王欣等对 2008-2011 04 ArXiv 可持续发展计划的运营与管理机制剖析 年发表于 Frontiers of Physics 期刊上的 161 篇论文进行数据分析,建议国内物理学期 刊出版者加强网站建设,充分利用 arXiv 平台提升期刊引用水平 [8]。 本 文 对 2013 年 arXiv 开 始 实 施 的 可 持续发展计划中的管理与经营模式、实施 路径图进行了详细分析,希望可以为我国 2016 年成立的“中国科学院科技论文预 发布平台(ChinaXiv)[9]”在管理运营、 服务、发展等方面提供借鉴。 2 ArXiv 可持续发展计划的管理和经 营模式 2.1 ArXiv 可持续发展计划的提出 2010 年,为了 arXiv 的可持续发展, 康奈尔大学将 arXiv 管理模式从由康奈尔 单独管理转变为多家机构协同管理,旨在 减少 arXiv 的财务负担和对单一机构的依 赖。为了实现这个目标,康奈尔大学制定 了一个临时机构自愿资助模式:邀请来自 全世界 200 个代表 arXiv 的高频机构的图 书馆和研究实验室以会员的身份对 arXiv 进行资助。ArXiv 的管理不仅仅是运营成 本的管理,而且要在基于用户需求和不断 发展的学术交流模式基础上提高学术资源 的价值。 在 2010-2012 年为期三年的计划过程 中,为了将 arXiv 定位为协同管理、社区 支持的开放获取资源,康奈尔大学广泛寻 找相关利益者。计划中还包括一场与几个 出版社和协会代表讨论协同管理的可行性 和可取性的会议:讨论了科研资料的交叉 链接、互操作性和生命周期、补充材料支 持 [10]。 可持续发展计划过程旨在研究如何使 收入模式多样化、如何确保 arXiv 满足一 系列管理原则和如何提供透明和可靠的社 区支持服务。最后在西蒙基金会资助下, 2010-2012 年三年计划的主要成果:arXiv 的可持续发展计划的成员协同管理模式诞 生了。 2.2 ArXiv 可持续发展计划组织管理 模式 ArXiv 由 康 奈 尔 大 学 图 书 馆 在 arXiv 科 学 顾 问 委 员 会(Scientific Advisory Board,SAB)和成员顾问委员会(Member Advisory Board,MAB) 的 指 导 下, 以 及 许多学科审核者的协助下进行维护和操 作(图 1)。其中,康奈尔大学图书馆主 要分为领导小组和运营小组来对 arXiv 进 行管理决策和技术维护。成员顾问委员会 (MAB)和科学顾问委员会(SAB)是并 行运营的,相辅相成,分别从发展和运营 方面对康奈尔大学图书馆就 arXiv 的管理 提供建议 [11]。 图 1 arXiv 组织结构 05 ArXiv 可持续发展计划的运营与管理机制剖析 其中康奈尔大学图书馆的主要承担 的工作是:在 arXiv 科学顾问委员会和成 员顾问委员会的指导下,承担 arXiv 运营 和管理的全面责任,包括最终经济责任; 对提交资料的审核过程和用户支持进行管 理,包括提交过程和政策的制定和实施; arXiv 的技术基础设施运营,包括系统维 护、标准实施以及用于吸收新功能和服务 的计划的制定;协调和促进科学顾问委员 会和成员顾问委员会的会议和审议活动; 提供数据接口访问以支持 arXiv 数据的开 放重用;承担归档的责任,以确保 arXiv 镜像站点长期访问和维护;通过互操作共 享工具和软件与相关项目活动建立和保持 合作,以提高科学界的服务;保持透明和 开放的交流战略,以吸引 arXiv 的主要利 益相关者;当 arXiv 不再承担目前的服务 时,负责制定“继任计划”;为了确保透 明度和问责制,arXiv 为成员机构提供年 度经营和财务报告。 科学顾问委员会由 arXiv 所涉及领域 的科学家和研究人员组成,并从中选举一 名主席,与 arXiv 的用户支持主任一起协 调科学顾问委员会的活动,其中有两名是 来自于成员顾问委员会的无选举权的当然 委员。提供有关 arXiv 知识监管的建议和 指导,特别关注 arXiv 审核系统的政策和 操作;审核 arXiv 中的存缴标准,有必要 时建议对这些标准进行修订;提出 arXiv 覆盖的新主题或新学科领域,并对这些领 域进行审核;对成员顾问委员会提出的 arXiv 发展计划,提供科学家反馈意见; 就发展计划提出建议,特别是关于改进支 持提交和审核处理的系统的建议。 成员顾问委员会从 arXiv 的成员中选 出, 成 立 于 2013 年。ArXiv 的 会 员 和 成 员顾问委员会的代表主要是为图书馆、研 究机构、实验室和对 arXiv 服务提供资金 支持的基金会预留的,其中两名是来自于 科学顾问委员会的无选举权的当然委员, 由康奈尔大学图书馆的 arXiv 项目主任担 任主席。委员会代表的是参与成员机构的 利益,就 arXiv 知识库管理和发展、标准 实施、互操作性、发展重点、经营计划、 外展和宣传方面的问题向康奈尔大学图书 馆提供建议,对康奈尔大学图书馆提出的 arXiv 预算方案进行审议。 2.3 ArXiv 可持续发展计划经营模式 ArXiv 由康奈尔大学图书馆和全球机 构成员集体提供资金支持,可能还有基金 会赠款。主要包括四方面 [2]: (1)康奈尔大学图书馆承诺每年提 供 7.5 万美元的现金补贴,用于支持 arXiv 的运营成本和所有间接成本的实物捐助, 目前占所有运营成本的 37%。 (2) 每 个 成 员 机 构 承 诺 支 持 arXiv 的五年资助。成员费分为四个层级,根据 下载的文章数量计算机构排名,每年计算 一次,从 1,500 美元到 3,000 美元不等(表 1),主要集中在排名前 250 名的机构上, 因为其占了下载量的 75%(2016 年以前 是前 200 名)。通过联盟协议提供支付的 成员机构可以给予折扣。 表 1 成员费分级 层级 1级 2级 3级 4级 下载排名 1-50 51-100 101-150 151+ 年度成员费 $3,000 $2,500 $2,000 $1,500 3)西蒙基金会(Simons Foundation) 2013-2015 年每年捐赠 5 万美元,2016 年 增加至 10 万元用于支持康奈尔大学图书 馆对 arXiv 的管理。 (4)基于通过成员支付产生的税收, 西蒙基金会将匹配支持 30 万美金的补助。 在经费的利用方面,对于需要补充资 金的,董事会建议必须在服务升级或开发 06 ArXiv 可持续发展计划的运营与管理机制剖析 项目实施之前确定此类资金的来源。增值 较注重审核系统、数据质量控制、数据 服务的任何费用将被设定在足以收回提供 保存等技术方面的改善(如表 2 所示)。 服务的成本和促进业务运营成本的水平。 在审核系统的技术改善方面,根据收集到 需要以透明和非歧视性条款提供增值服 的用户需求改进和简化审核流程,使得审 务,避免独家合作;会员机构成功提供初 核者可以更加直接高效地与 arXiv 系统和 始资金后,如果成员的财政支持低于康奈 管理者进行交互,更快地完成内容质量审 尔认为足以保持 arXiv 在可接受的质量水 核。在数据质量控制技术方面,集成 Paul 平,将会启动使用两年储备金,以便康奈 Ginsparg 开发的自动重叠检测应用程序, 尔获得足够的资金支持。如果不这样做, 将新提交的内容与现有语料库进行比较; 可能导致得制定一个退出战略,包括将 添加了 ORCID 作者标识符支持,以实现 arXiv 转型成另外一个机构。 与其他知识库更好的互操作性。在数据保 2017 年启动的 Next Generation arXiv[12] 存技术方面,将所有服务器迁移到虚拟机 大改造计划成功获得了斯隆基金会(Alfred 基础架构来增加存储容量;扩展 arXiv ID P. Sloan Foundation)44.5 万美金的捐款 [13], 范围为 yymm.nnnnn,使得提交数量扩展 用于启动 arXiv-NG 计划。除此之外,支 至 1 万 / 月。 除 此 之 外,arXiv 系 统 支 持 持 arXiv-NG 第一阶段的另一个资金来源 将研究数据作为辅助文件进行存缴;向提 是艾伦人工智能研究所(Allen Institute for 交系统添加自动分类检查。 Artificial Intelligence, AI2),提供了 20 万 3.2 用户支持和审核 美元 [14],用于支持自动质量控制和改进 在 用 户 支 持 和 审 核 方 面, 截 止 到 搜索和检索体验工具的开发。 2016 年底来自全球的 150 多名 arXiv 学科 为 了 鼓 励 全 球 更 多 的 图 书 馆 和 科 专家是 arXiv 成功的关键原因,他们根据 研 机 构 支 持 arXiv 知 识 库,2017 年 1 月 arXiv 确定的审核流程、审核政策和公认 26 日 康 奈 尔 大 学 公 布,arXiv 的 管 理 者 的学术交流标准,对提交的内容是否符合 和 Google scholar 的 共 同 创 始 人 Anurag 主题、是否符合科学界兴趣、适当的时候 Acharya 合作制定了一个新的赞助模型 [15]: 对提交的内容进行重新分类、删除、文本 个人赞助商可以为无力承担费用的机构提 重叠度注释等一系列内容审核手段来进行 供成员费用。为了帮助推出这个模型, 严格的质量把关,同时 arXiv 也制定了一 Anurag Acharya 赞助了印度三家领先的物 些指标来对审核者进行绩效考核。除此之 理研究机构(哈里什 - 钱德拉研究所(HRI) 外,arXiv 将与用户和审核者的通信管理 [16] 、物理研究实验室(PRL)[17]、塔塔基 础研究院 [18])的成员费用。 3 ArXiv 可持续发展计划的执行 对 ArXiv 可持续发展计划在过去四年 的执行主要从技术、用户支持和审核、管 理新的合作伙伴、特别计划五方面进行了 总结。 3.1 技术 ArXiv 在过去四年的技术发展中,比 07 转移到基于 WEB 的问题跟踪系统(请求 跟踪器),取代目前基于邮件的 arXiv 管 理流程,通过问题跟踪系统可以回答用户 问题、解决技术问题、与审核者进行交互、 对审核申诉问题予以回应和解决。相比基 于邮件的管理流程,问题跟踪系统不仅可 以更好地进行跟踪,而且可以建立报告和 问题分类工具,用以更好地管理 arXiv。 ArXiv 可持续发展计划的运营与管理机制剖析 表 2 arXiv 技术路径 时间 技术 2013 年 ·将所有服务器迁移到虚拟机基础架构来增加存储容量; ·采用请求跟踪器,取代目前基于邮件的 arXiv 管理流程; ·从收集用户需求开始改进支持审核过程的工具和界面; ·研究数据支持:审查了 2013 年 3 月结束的数据保护试点的使用情况,我们将继续使用现 有的辅助文件机制支持适度大小的数据集和其他材料,并将从试点获取数据作为辅助文件, 以支持其长期性。 2014 年 ·开始了改进支持审核过程的工具和界面的工作; ·扩展 arXiv ID 范围为 yymm.nnnnn,使得提交数量扩展至 1 万 / 月; ·向提交系统添加自动分类检查; ·向 SAB 提供 arXiv 代码的摘要文档; ·集成 Paul Ginsparg 开发的自动重叠检测应用程序,将新提交的内容与现有语料库进行比较。 2015 年 ·根据科学顾问委员会和审核员的意见,持续改进工具和界面,使审核员可以更加直接高效 地与 arXiv 系统和管理员进行互动; ·启动了对 TeX 系统进行升级、重组的过程; ·添加了 ORCID 作者标识符支持,以实现与实施权威控制的其他知识库更好的互操作性, 并且作为向成员组织提供机构统计数据的途径。 2016 年 ·继续对 TeX 系统进行升级、重组; ·简化审核者和管理员工作流程、互动过程。 表 3 arXiv 用户支持和审核路径 时间 用户支持和审核 2013 年 ·科学咨询委员会(SAB)合作,正式确定主题咨询委员会的职责; ·与 SAB 合作,选举物理咨询委员会的新主席,并重新启用该委员会; ·开始确定物理类别的审核者; ·与审核者合作,定义新工具和界面的要求,以更系统的方式支持他们的工作; ·将与用户和审核者的所有通信转移到基于 Web 的问题跟踪系统(Request Tracker), 新系 统提供更好的跟踪和内置报告。 2014 年 ·招募超过 12 个新的物理学科的审核者,全球现在 arXiv 共有 150 多个审核者; ·与物理咨询委员会合作,分析和重新设计通用物理学类别的覆盖范围和工作流程,包括招 聘和聘用通用物理审核者; ·开始与各利益相关方合作,确定科学主任在日常审核流程和工作流程方面的作用。 2015 年 ·审查所有主题类别的当前 arXiv 批准程序和政策,以寻求更大的统一性和透明度; 发布各个类别明确的范围和界限定义,帮助用户将内容进行正确地归类、减轻审核者和管理 者的工作量; ·开始审查和优化 arXiv 管理员在与提交者和其他 arXiv 用户通信信息系统; ·为 arXiv 开发了一组评估和接受新主题领域的标准; ·制定 arXiv 审核者评价指标; ·对 arXiv 审核申诉流程进行系统化,实现在所有主题类别上实现统一的审核申诉流程; ·根据不断变化的审核工具和人员需求对 arXiv 管理流程进行评估。 2016 年 ·对 SAB / MAB 调查他们对未来方向和 arXiv 优先发展的意见; ·根据“设定的愿景”对用户进行初步调查; ·举办技术基础设施研讨会,集思广益并改进一系列可能的技术,在 arXiv 重新实施全部或 部分的; ·实施了针对 arXiv 大约 150 名审核员的调查,扩大我们对其需求的了解。 08 ArXiv 可持续发展计划的运营与管理机制剖析 3.3 管理 ArXiv 可持续发展计划在 2013~2016 年的实施中,在 arXiv 管理方面,每年会 举行科学顾问委员会 SAB 和成员顾问委 员会 MAB 会议,用以讨论技术发展重点、 财务状况、审核工具和政策以及筹资战略 等;并对这种新的协同管理模式持续进行 的制定、人员的安排和相关会议的筹办; 除此之外,筹资也是 arXiv 可持续发展计 划管理关注的重点,尝试从其他机构或 者联邦政府获得筹资机会,从 2015 年开 始了网上捐款试验,2016 年通过网上捐 款获得 3.2 万美元的收入,甚至 2017 年 1 月 26 日康奈尔大学公布:arXiv 的管理 测试与完善,用以明确康奈尔大学图书馆、 者和 Google scholar 的共同创始人 Anurag SAB 和 MAB 各自的责任与权利。可看出, Acharya 合作制定了一个新的赞助模型 [12]: arXiv 可持续发展计划特别注重科学顾问 个人赞助商可以为无力承担费用的机构提 委员会 SAB 和成员顾问委员会 MAB 章程 供成员费用。 表 4 arXiv 管理路径 时间 2013 年 09 管理 ·建了一个临时科学主任职位,将科学专业知识带入康奈尔大学的 arXiv 团队,为 arXiv 的运 营提供知识领导; ·成立了一个成员顾问委员会(MAB),代表参与机构的利益向 CUL 提供意见; ·为科学顾问委员会(SAB)制定章程,以描述小组的目标,组成,运营和成员选举过程; ·制定了计划路线图(2013 & 2014),以进一步提高 arXiv 团队的目标; ·为 SAB 和 MAB 举行年度会议,讨论主题包括:预算审查、技术发展重点、审核工具和政策、 科学主任职位、准备金储备政策、筹资战略; ·制定了一套描述如何使用 arXiv 储备金的程序; ·创建 arXiv 指南以提供有关 arXiv 的基本信息; ·测试和完善新的管理模式。 2014 年 ·招聘 Chris Myers 担任临时科学总监,负责制定服务及其政策的总体科学方向; ·成立了几个成员咨询委员会(MAB)和科学咨询委员会(SAB)小组,以专注于具体问题, 如 IT 优先级,招聘科学总监,评估成员资格和收入模式; ·根据 SAB 章程指定的提名和选举程序指定两名新的 SAB 成员; ·为 SAB 和 MAB 举行年度会议,讨论技术发展重点、财务状况、审核工具和政策以及筹资战略; ·测试和完善新的管理模式。 2015 年 ·建立了一个新职位(arXiv 运营经理),以确保更有效率地管理人员配置; ·试行了通过网上捐款试验如何扩大的 arXiv 的收入来源(在一个星期内收入 1.6 万美元); ·维护全球的 150 多名专家组成的 arXiv 审核员网络; ·与科学基金项目管理者进行讨论,以更好地了解 arXiv 的持续运营和新计划如何最适合 NSF 项目; ·为 SAB 和 MAB 举行年度会议,讨论技术发展重点、财务状况、审核工具和政策以及筹资战略; ·继续评估和完善新的管理模式的运营。 2016 年 ·通过网上捐款 arXiv 的收入了 3.2 万美元的收入; ·举行 SAB 和 MAB 年度会议,讨论技术发展重点、财务状况、审核工具和政策以及筹资战略; ·继续评估和完善新的管理模式的运营; ·Chris Myers 离职后,继续评估 arXiv 科学主任的岗位责任,2017 年重新填补这一位置; ·在人员配置方面,为了加强 arXiv 的日常监督,在 2016 年,将 arXiv 团队模式转变为有两 个全职经理,一个是 IT 经理,另一个是用户支持运营经理。 ArXiv 可持续发展计划的运营与管理机制剖析 3.4 新的合作伙伴和交流 ArXiv 在过去的四年中,一直在扩大 其 成 员( 图 2)。 截 至 到 2017 年 2 月, 已有 25 个国家 206 个成员加入到 arXiv, 按表 1 所示的按下载量进行排名,排在 1 级、2 级、3 级、4 级 的 成 员 各 有 42、 45、36、73 个。1 级 成 员 中 有 9 个 成 员 (如欧洲核子研究组织 CERN[19]、德国研 究中心亥姆霍兹协会(DESY)[20]、哈佛 大学、苏黎世理工学院、普林斯顿大学 等)承诺承担更多费用用以支持 arXivNG 。除此之外还有 5 个白金成员(Platinum Membership)和 5 个不属于成员的机构: 其中 5 个白金成员(包括加州理工学院、 联盟的形式参加,英国的 14 个机构全部 通过英国联合信息委员会(JISC)联盟参 加,日本的 14 个全部机构通过 NII Japan Consortia 联盟参加,法国的 6 个国家全部 通过法国开放科学交流中心(CCSD)[21] 参加,而美国的 84 个成员中有 15 个成 员是通过十大学术联盟(BTAA)[22]、15 个是以美国西部图书馆联盟成员的身份 (GWLA)[23] 参加,加州大学的 10 个分 校通过加州数字图书馆(CDL)[24] 参加, 通过这种联盟协议参加的成员所缴的费用 相比其他独立的成员费用有所降低。 ArXiv 还继续与一些对康奈尔可持续 发展计划工作感兴趣的出版商、协会进 伦敦大学帝国学院、马克斯·普朗克数字 行对话,探讨不断发展的公开政策和强制 图书馆、麻省理工学院、剑桥大学)将在 性开放获取政策;同时也收到来自图书 提供基本成员费用的基础上,还会承担 馆、资助机构提出的关于 arXiv 在支持新 更多费用用以支持 arXiv-NG;其他 5 个 型强制性开放获取政策方面的问题和功能 非成员机构包括美国数学学会(AMS)、 需 求。 ArXiv 还 计 划 使 用 ORCID、 资 助 奥地利科学基金会、丹麦电子研究图书 ID、机构 ID 来整合标准化元数据,继续 馆(DEFF)、 欧 洲 研 究 委 员 会、Google 探讨存缴和链接与论文相关的科研数据来 Deep Mind 也为 arXiv 运营提供资助。分 提升 arXiv 在学术交流生态圈中的作用。 布的 25 个国家中以美国所占比例较高, 目前除了康奈尔大学图书馆的主要网 达到 40.8%,包括 84 个机构;其次是德国、 站,arXiv 还提供了许多的镜像站点。目 英国、日本、加拿大,分别有 32、14、 前在六个国家有镜像站点:中国、德国、 14、8 个机构,我国只有中国科学院高能 印度、西班牙、洛斯阿拉莫斯 [25]。在欧 物理研究所和文献情报中心、清华大学两 洲的高能物理信息检索系统 [26](Stanford 家机构,且 2016 年下载排行均在 4 级, Physics Information Retrieval System, 下载量较低。ArXiv 支持以联盟的形式成 INSPIRE)、 美 国 航 空 航 天 局 天 体 物 理 为会员,比如德国除了马克斯·普朗克 数 据 系 统 [27](Astrophysics Data System, 数字图书馆和欧洲南方天文台(ESO)之 ADS)和中国的中国科学院文献情报中心 外的 30 个机构全部以 arXiv-DH and HGF [28] 三个数据库也有 arXiv 的检索界面。 图 2 arXiv 成员 10 ArXiv 可持续发展计划的运营与管理机制剖析 表 5 arXiv 新的合作伙伴与交流 时间 新的合作伙伴 2013 年 ·来自 22 个国家的 173 个成员提供了 34 万美元的成员费用; ·继续与一些对康奈尔可持续发展计划工作感兴趣的出版商 / 社团进行对话,对新型的开放 获取权限和合作想法进行讨论; ·制定新伙伴关系参与 arXiv 的准则; ·加强与用户(科学家)的沟通; ·寻求外部资金来推进 arXiv。 2014 年 ·来自 24 个国家的 183 个成员提供了 34.1 万美元的成员费用; ·继续与几个出版商和社会的对话,以评估在文章发布后(即在制作过程中)将文章的作者 版本存入文档的想法; ·让 MAB 成员参与对其本国机构的 arXiv 用户体验的非正式调查,以扩大对 arXiv 的理解偏 好和当前新兴的使用模式。 2015 年 ·来自 23 个国家的 188 个成员提供了 37.2 万美元的成员费用; ·arXiv 与其他机构和学科知识库的互操作性,调研了 arXiv 与其他机构和学科知识库互操作 性需求; ·arXiv 在学术交流生态学中的作用。 2016 年 ·来自 25 个国家的 201 个成员提供了 51.5 万美元的成员费用; ·arXiv 在学术交流生态学中的作用,与其他系统实现一站式存缴。 3.5 ArXiv-NG ArXiv 从用户的角度看,是一个成功 的知识库系统,服务于世界各地的许多 科学家。但是 arXiv 面临着巨大的压力, SAB 和 MAB 在 2015 年会议上得出的结论 是:arXiv 目前的重点除了是维护经营模 式外,还需要努力继续通过赞助和合作筹 集资金。ArXiv 需要首先制定一个“引人 注目的愿景”,以便能够说服我们的筹资 目标,这个愿景能够超越目前可持续发展 计划。 在 2016 年 8 月份 arXiv 迎来 25 周年 之际,arXiv 由科学家和图书馆员组成的 顾问团队开始考虑将平台改造得更为现代 化的计划,经过 2016 年十个月的规划, 康奈尔大学图书馆公布 arXiv 将启动为期 三年的 Next Generation arXiv 现代大改造 计划(下一代 arXiv),简称 arXiv-NG, 主要目的是对 arXiv 系统基础设施进行大 改造。改造计划主要参考 2016 年 6 月份 所做的用户调查结果开展。其中 2016 年 11 6 月该网站公布的针对大量用户的调查结 果表明:大部分用户不希望网站大改,但 提出了一些调整建议,比如升级搜索功 能、网站对参考文献的链接、更多格式的 引用导出功能等;喜欢网站现在内置的质 量控制体系,包括文本检查、重复率检 查、将论文分类到正确的主题领域、以及 驳回没有科学价值的研究论文等。康奈尔 大学的物理学家 Paul Ginsparg 说:“调 查的结果表明,人们或多或少地希望网站 坚持基本的传播任务,不希望因过度延伸 或商业化而转型 [18]。”这项计划于 2017 年启动,为期三年 [9],通过多阶段设计和 开发,所需资金预算大概为 250 万到 300 万。2017 年为这项计划的第一阶段,为 期 18 个月,主要是创建和实施工作计划 和人员安排,在 2016 年 12 月已完成了资 金筹集,成功获得了斯隆基金会(Alfred P. Sloan Foundation)44.5 万美金的捐款, 用于启动 arXiv-NG 计划。除此之外,支 持 arXiv-NG 第一阶段的另一个资金来源 ArXiv 可持续发展计划的运营与管理机制剖析 是艾伦人工智能研究所(Allen Institute for 大改造。在组织管理方面,ArXiv 由康奈 Artificial Intelligence, AI2),提供了 20 万 尔大学图书馆在 arXiv 科学顾问委员会和 美元 [11],用于支持康奈尔大学图书馆与 成员顾问委员会的指导下,以及许多学科 康奈尔计算和信息科学(CIS)之间的合 审核者的协助下进行维护和操作,同时实 作,允许 arXiv 聘请一位研究与创新研究 现与相关的出版商、协会进行对话,探讨 员与 arXiv 团队合作,为 arXiv 设计和集 不断发展的公开政策和强制性开放获取政 成一系列现代化的、以研究为导向的功能, 策各自分工明确,并定期进行管理模式的 最终目标是将从研究中产生的工具集成到 评估与完善,这种有效的协同组织管理模 arXiv 系统中,以提高用户和审核者的体 式确保了 arXiv 的有效管理。在运营方面, 验。 通过协同组织管理模式,确保了资金来源 在 开 发 arXiv-NG 过 程 的 未 来 三 年 的多元化,以比较创新的对 arXiv 的下载 中,arXiv 将 继 续 依 赖 现 有 系 统(Classic 量排名的筹资方式从外部获取资金资助, arXiv),并致力于继续其强大的服务。 筹资方式透明化,同时还扩展新的资金赞 arXiv-NG 改造计划包括:(1)互操作性 助模式(网上捐款试验、个人赞助无力承 和公共访问权限支持:添加有关资助信息、 担费用的机构),这种合理的资金来源模 文章状态和旧内容迁移的元数据字段;支 式确保了 arXiv 持续与稳定发展。 持 arXiv 和机构知识库之间的互操作性; ChinaXiv 经 过 前 期 的 规 划, 从 2016 在数据知识库中添加数据集的链接;创建 年中旬开始实施。在组织管理方面,实 更好地与计算机科学会议进行集成的工具 施中国科学院文献情报中心信息系统部单 和设施,为数据分配 DOI;将 arXiv 内容 独管理。且系统的资金来源仅仅依靠政 吸收到康奈尔大学机构知识库。(2)现 府的拨款,没有一个合理的资金来源模 代化用户提交、搜索界面、添加分面分类, 式,很难维持其持续和稳定发展。因此, 包括作者标识符;更换和改进警报系统; ChinaXiv 可适当借鉴 arXiv 预印本系统的 标记撤回的文章。(3)软件调整和改进: 一些做法。由于目前 ChinaXiv 系统处于 调整提交系统;加速传统代码库的改进。 初步探索阶段,国内权威学者仍然更倾向 4 ArXiv 对我国中国科学院科技论文 于将其成果通过传统核心期刊发布,因此 预发布平台(ChinaXiv)管理运营方面的 目前要做的是,加强宣传力度,通过不断 启示 呼吁权威专家投稿以加强存储质量和学术 4.1 建立长期规划和有效的管理运营 影响力,带动其他学者加入到这个活动中 模式 ArXiv 可 持 续 发 展 计 划 协 同 管 理 模 式的提出经过了一系列长期规划与短期 规划,并建立了有效的组织管理体系。 ArXiv 的可持续发展计划从计划到诞生经 历了 3 年的时间,全面实施已过了 4 年时 间,接下来继续花三年的时间全面开展 来,确立系统的地位后再逐步扩大范围。 在经营方面,我们除了借鉴 Arxiv 按论文 下载量对机构收费之外,还可以按下载率 单独对作者收费、提供个性化服务、实行 会员制管理、网上捐款试验等措施,来获 得系统运行、管理经费。 4.2 注重质量审核控制和简化流程 Next Generation arXiv 现代大改造计划,主 要目的是实现对 arXiv 系统基础设施进行 ArXiv 的成功一方面得益于物理学家 对预印本这种交流形式的认可 , 另一方面 12 ArXiv 可持续发展计划的运营与管理机制剖析 与其运行中严格的质量审核控制和系统功 品存储安全的重要措施之一,也是保证资 能的不断完善是分不开的。质量控制方面, 源能够持续稳定地为读者所用的重要手 经历了从一开始的通过对作者的注册地址 段,因此,ChinaXiv 应借鉴 arXiv 在资源 中需要有个“.edu”后缀作为合法科研单 长期保存上的做法,对存缴的记录进行长 位的控制、认证(endorsement)制度审核 期保存与记录,进行记录不同版本之间的 机制的引进到将新提交的内容与现有语料 控制。 4.4 根据实际调研对系统业务和服务 库进行比较的自动重叠检测应用程序。同 时全球的 150 多名 arXiv 学科专家是 arXiv 进行完善 ArXiv 在技术改进、系统升级或者新 成功的关键原因,他们根据 arXiv 确定的 审核流程、审核政策和公认的学术交流标 增业务等方面,通过实际用户调研或者举 准,对提交的内容是否符合主题、是否符 行会议,根据用户调查结果或者科学顾问 合科学界兴趣、适当的时候对提交的内容 委员会和成员顾问委员会、学科专家审核 进行重新分类、删除、文本重叠度注释等 者的意见进行开展,如 arXiv-NG 改造计 一系列内容审核手段来进行严格的质量把 划主要参考 2016 年 6 月份所做的用户调 关,同时 arXiv 也制定了一些指标来对审 查结果开展。 ChinaXiv 刚刚起步,在保持自身已有 核者进行绩效考核。在保证基本质量的同 “最新活动” 时,根据收集到的用户需求改进和简化审 的特色业务“我的定制推送”、 核流程,使得审核者可以更加直接高效地 等基础上,在以后进行系统升级、新增业 与 arXiv 系统和管理者进行交互,更快地 务等方面可以借鉴 arXiv 的成功经验,根 据用户需求或者专家调研意见进行开展, 完成内容质量审核。 ChinaXiv 作为一个可靠、规范的自然 达到事半功倍的效果。 4.5 实现系统的互操作与融合 科学领域的中国科研论文开放仓储库,在 实现 arXiv 系统与机构知识库的内容 质量控制方面,要求用户使用邮箱注册, 提交的论文进入审核阶段,通过开放评论、 共享是 arXiv 自 2015 起开始特别关注的 同行评议等即时交互,促进交流与合作, 项目,将学长存缴到机构知识库的论文副 在这方面 ChinaXiv 起步做的很好。但是 本自动推送至 arXiv;同时 arXiv 开展新的 ChinaXiv 应借鉴 arXiv 系统制定合理的审 项目通过 SWORD 接口更好地整合计算机 核流程、审核政策等,定期修订,对审核 科学会议论文;通过使用诸如 ORCID、 Grant-ID 或机构 ID 之类的 ID 来整合标准 者资格制定合理的考核指标。 化的元数据,存缴和链接与论文相关的研 4.3 数字长期保存技术及时更新 在数据保存技术方面,ArXiv 将所有 究数据。可以说,实现系统之间、信息之 服务器迁移到虚拟机基础架构来增加存储 间的互操作与深度融合,为用户提供更好 容量;扩展 arXiv ID 范围为 yymm.nnnnn, 地服务是 arXiv 的更高目标。 ChinaXiv 在互操作方面,通过 OAI使得提交数量扩展至 1 万 / 月,除此之外, arXiv 系统支持将研究数据作为辅助文件 PMH 开放接口网站期刊和文章 DC 元数据 进行存缴。ArXiv 对存缴的每一条记录和 的挖掘,同时通过 ORCID 对接 IR 机构知 修改记录都必须保持永久的记录,是不允 识库、iAuthor 中国科学家在线、arXiv.org 许撤销的。因此长期保存既是保证作者作 平台等,在互操作方面目前发展水平可与 13 ArXiv 可持续发展计划的运营与管理机制剖析 arXiv 相媲美。ChinaXiv 收录的大多数以 15]. http://repositories.webometrics.info/en/world. [5] 刘银华 , 王瑰玮 . 基于 arXiv 平台的仓储论文实证分 物理学、天文学、能源科学等自然科学较 析 [J]. 现代情报 , 2013, 33(2):155-158. 多,这类科学一般以国家或者机构项目形 [6] DAVIS P M, FROMERTH M J. Does the arXiv lead to higher citation and reduced publi sher downloads for 式资助进行,所以在以后的发展中,可以 mathematics articles [J] .Scientometrics, 2007, 71(2):203借鉴 arXiv 系统通过 Grant-ID 进行数据与 215. [7] 刘银娣 . 电子印本仓储——arXiv 运营情况研究 [J]. 出 元数据融合。 版科学 , 2009, 17(3):78-82. [8] 王欣 , 董洪光 . 国内物理学期刊 arXiv 自存档论文的 5 结语 引用优势研究——以 Frontiers of Physics 期刊为例 [J]. 图 本文对 arXiv 可持续发展战略中的管 书情报工作 , 2011(11):144-147. 理与经营模式、执行路径进行了详细分析, [9] 中 国 科 技 论 文 预 发 布 平 台 [EB/OL]. [2017-01-15]. http://www.chinaxiv.org/user/mySubmit.htm. 希望可以为我国 2016 年启用的“中国科 [10] ArXiv @ 20: Collaboration Agenda for Research and 学院科技论文预发布平台(ChinaXiv)” Innovation [EB/OL]. [2017-01-15] https://confluence.cornell. edu/pages/viewpageattachments.action?pageId=340895275& 在管理运营方面提供借鉴。ArXiv 可持续 metadataLink=true. 发展计划强调建立长期规划和有效的管理 [11] ArXiv Governance Model [EB/OL]. [2017-0115]. https://confluence.cornell.edu/display/arxivpub/ 运营模式,协同成员管理模式分工明确, arXiv+Governance+Model. 运营模式以比较创新和透明的方式进行确 [ 1 2 ] N e x t G e n e r a t i o n a r X i v [ E B / O L ] . [ 2 0 1 7 - 0 3 18]. https://confluence.cornell.edu/display/arxivpub/ 保了合理的资金来源,严格质量审核标 Next+Generation+arXiv. 准、流程与政策,有效的数字保存机制,, [13] Alfred P. Sloan Foundation awards grant for arXiv upgrade [EB/OL]. [2017-03-18]. https://www.library.cornell. 根据实际全面开展系统发展、升级。并 edu/about/news/archive/alfred-p-sloan-foundation-awards且 arXiv 开始关注与其他机构知识库的互 grant-arxiv-upgrade. [14] ArXiv and Allen Institute for Artificial Intelligence (AI2) 操作性和期刊系统上传论文的同期存缴。 collaborate on Semantic Scholar pilot for Computer Science ChinaXiv 虽然处于萌芽阶段,但在质量审 papers [EB/OL]. [2017-03-18]. https://confluence.cornell. edu/display/arxivpub/2016/12/12/arXiv+and+Allen+Institute 核和互操作方面的做法还是比较成功的, +for+Artificial+Intelligence+%28AI2%29+collaborate+on+S 但是在资金来源方面、数字保存方面、系 emantic+Scholar+pilot+for+Computer+Science+papers. [15] New sponsorship model broadens arXiv membership [EB/ 统业务和服务方面可以借鉴 arXiv 的成功 OL]. [2017-03-18]. https://www.library.cornell.edu/about/ 做法,但是目前最主要做的是正式国内权 news/archive/new-sponsorship-model-broadens-arxivmembership. 威学者仍然更倾向于将其成果通过传统核 [16] Harish-Chandra Research Institute [EB/OL]. [2017-03心期刊发布这一事实,加强宣传力度,通 15]. http://www.hri.res.in/. [17] Physical Research Laboratory [EB/OL]. [2017-03-15]. 过不断呼吁权威专家投稿以加强存储质量 https://www.prl.res.in/prl-eng/#main-content. 和学术影响力,吸引更多学者加入到这个 [18] Tata Institute of Fundamental Research, Mumbai [EB/ OL]. [2017-03-15]. http://www.tifr.res.in/. 活动中来,确立系统的地位后再逐步扩大 [19] CERN [EB/OL]. [2017-03-15]. http://home.cern/about. [20] Helmholtz Association of German Research Centres [EB/ 范围。 参考文献 [1] ArXiv Sustainability Initiative [EB/OL]. [2016-12-5]. https://confluence.cornell.edu/display/culpublic/arXiv+Sustai nability+Initiative. [2] ArXiv Member Institutions (2017) [EB/OL]. [201701-15]. https://confluence.cornell.edu/pages/viewpage. action?pageId=340900096. [3] ArXiv submission rate statistics [EB/OL]. [2017-01-15]. https://arxiv.org/help/stats/2016_by_area/index. [4] World Ranking Web of Repositories [EB/OL]. [2017-01- OL]. [2017-03-15]. https://www.helmholtz.de/en/. [21] ArXiv@25 Review Strategy [EB/OL]. [2017-0315]. https://confluence.cornell.edu/display/arxivpub/ arXiv@25+Review+Strategy. [22] The Center for Direct Scientific Communication (CCSD) [EB/OL]. [2017-03-15]. https://www.ccsd.cnrs.fr/en/. [23] Big Ten Academic Alliance [EB/OL]. [2017-03-15]. http://www.btaa.org/home. (略) (责任编辑:白林林) 14 图书情报领域近十年国家级科研项目研究特征分析 图书情报领域近十年国家级科研项目研究特征分析 2016 级硕士 崔林蔚 摘要:[ 目的 / 意义 ] 对 2007-2016 年图书情报领域的国家哲学社会科学基金和国家自 然科学基金立项课题的形式特征以及自科基金的主题特征进行了剖析,揭示图书情报 学科当前的发展态势、研究热点。[ 方法 / 过程 ] 使用 SPSS 和 Excel 进行年度特征、机 构特征、核心人员特征的分析,以及国家自然科学基金的主题特征分析。另外,本文 提出了科研强度的概念,以优化核心机构和核心人员的分析。[ 结果 / 结论 ] 当前国家 自然科学基金科研项目中图情领域的研究重点在于数据挖掘,中坚力量为用户行为与 信息服务,而研究基础仍为信息组织和信息检索,新兴的网络技术发展给图书情报领 域提供了新的发展机会。 关键词:图书情报;科研项目;词频分析 15 1 引言 科研项目的选题是国家科研状况的主 要体现,具有一定的前瞻性和现实意义, 对国家科研活动具有一定的导向作用。对 图书情报领域科研项目立项课题的研究将 在一定程度上反映当前我国图书情报领域 的科研情况以及研究热点。我国科研项目 的支持主要依赖于政府的财政支出,其科 研输出主要表现为国家级科研项目:国家 局限于社会科学领域,一些技术性课题已 经逐渐向自然科学靠拢,获得国家自科基 金的资助。故本文将汇总近十年国家社科 基金和国家自科基金的科研项目作为数据 源,分析其形式特征和内容特征,以求尽 可能全面的表现图书情报领域科研项目的 当前研究态势。 2 数据来源与研究方法 以全国哲学社会科学规划办公室发布 哲学社会科学基金(以下简称“国家社科 基金”)和国家自然科学基金(以下简称 “国家自科基金”)。 [3] 我国于 1994 年将“图书馆、情报与 文献学”作为国家社科基金资助项目学 科,而利用图书情报领域的科研项目分析 学科发展的研究起步较晚,自 2003 年开 封市图书馆吴雁平 [1] 发表在《档案管理》 上的《历年国家哲学社会科学基金项目图 共计 990 条。以国家自然基金委员会的科 学基金共享服务网 [4] 为线索源,统计国家 自科基金“信息资源管理 G0314”20072016 年的资助项目数据,共计 210 条。 将二者进行汇总,共得到项目数据 1200 条。可以发现近十年图书情报领域国家自 书馆·情报与文献学学科对比研究》,利 用科研项目的立项课题和结项成果进行学 科态势分析的成果才开始大量涌现,多数 研究 [2] 的数据来源是国家社科基金。然而 当前图书情报领域的科研项目已经不仅仅 科基金数量已达到国家社科基金的近五分 之一,说明国家自科基金也逐渐发展成为 该领域科学项目研究的一个重要部分。 以这 1200 条数据作为本次分析数据 源,使用 SPSS 和 Excel 相结合的方式进 的年度项目和青年项目立项通知为线索 源,统计国家社科基金“图书馆·情报与 文献学”2007-2016 年的立项课题数据, 图书情报领域近十年国家级科研项目研究特征分析 行年度、核心机构、核心研究人员的形 式特征分析,其中,核心机构分析和核心 工作人员分析使用了经费作为辅助分析属 性,提出了科研强度的概念,创建了一种 更为科学的机构评价方式,同时使用主题 分析的方式进行国家自科基金项目的主题 特征分析,探索当前图书情报领域的研究 热点所在。 3 形式特征分析 3.1. 年度特征分析 使用 Excel 对项目数据进行统计后, 导入 SPSS 中进行折线图的绘制。 为了反映图书情报学科科研项目逐年 变化情况与国家级项目立项总数的关系, 收 集 了 2007-2015 年 的 国 家 自 科 项 目 和 国家社科项目所有学科的立项总数(2016 年数据不完整,故不予计算),绘制了图 2。 图 2 2007-2015 年图书情报领域科 研项目数与项目总数比较 图 1 2007-2016 年图书情报领域科 研项目年度分布 如图 1 所示,2007-2016 这十年中, 科研项目总数一直维持稳定增长,国家社 科基金项目也处于快速增长阶段,而国家 自科项目在 2013 年前持续增长,近几年 处于波动状态。 国家自科项目数量近年的波动说明我 国图书情报领域在技术方面的研究还不够 成熟和稳定,需要加大关注力度。由项目 总数的曲线斜率可以看出,2012 年之前 的数据保持快速增长,而 2012 年后曲线 呈直线,呈现稳定增长态势,说明图书情 报领域的发展正在稳定中逐步成长。 观察曲线可以发现,图书情报领域的 国家级科研项目数随年份变化情况与国家 社科项目一致度极高,与项目总数和自科 项目数的走向还是存在一定差异,但是总 体上随年份增长的情况也基本一致。有差 异的原因主要在于图书情报领域项目数在 国家自科项目总数中所占比太低,还需要 研究人员大力发展。 3.2. 核心机构分析 科研项目之间的价值是不一样的,传 统的单纯利用机构科研累计项目数进行核 心机构判断的方式,对拥有科研项目少、 但是项目价值高的机构来说,未免有点不 公平,而能够有效测度科研项目价值的一 个量化指标就是科研经费,故本文提出了 科研强度的概念来计算核心机构的评价方 式。 科研强度是指机构 / 人员通过科研 项目所表现出来的科研能力,计算指标 是 基 金 项 目 数 与 项 目 经 费 数。 假 设 某 16 图书情报领域近十年国家级科研项目研究特征分析 机构 / 人员 A 在指定年内立项了 n 个项 目,这 n 个项目的项目经费分别为 i1, i2,i3……in, 则 定 义 第 n 个 项 目 的 项 目 重 要 性 T=0.01in,A 的 科 研 强 度 值 S=T1+T2+T3+……+Tn。后续核心机构和 核心人员的评价都将运用这两个概念。 需要说明的是,2010 年及以前的国 家社科基金经费信息无法从其官网上获 取,故一并剔除同时间段的国家自科基金 经费数据,以 2011-2016 年共 6 年的 896 条数据作为数据源进行分析。 先利用传统的机构科研项目累计数 方式 [5] 计算出前 20 个核心机构如表 1, 作为后续机构科研强度分析方法的对比信 息。 表 1 2011-2016 年核心机构前 20 名 (传统方式) 排名 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 机构 武汉大学 南京大学 中国科学技术信息研究所 北京大学 上海大学 华中师范大学 中山大学 安徽大学 黑龙江大学 郑州大学 中国人民大学 南京农业大学 国家图书馆 河北大学 华东师范大学 吉林大学 南京理工大学 山西大学 湘潭大学 四川大学 项目数 60 32 26 25 21 18 18 16 16 16 16 14 12 12 12 12 11 11 11 10 运用科研强度方式计算核心机构, 步骤如下:运用 Excel 公式对“项目经费” 列作乘 0.01 处理,即为项目重要性。对 数据进行分类汇总,分类单位选择“机 构”,汇总方式选择“求和”,汇总项 选择“项目重要性”字段,所生成的汇 总项即为机构科研强度。按照机构科研 强度对机构进行降序处理,得到核心机 17 构排名如表 2。 表 2 2011-2016 年核心机构前 20 名 (科研强度方式) 排名 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 机构 武汉大学 南京大学 北京大学 中国人民大学 中国科学技术信息研究所 上海大学 华中师范大学 郑州大学 吉林大学 中山大学 大连理工大学 黑龙江大学 南京农业大学 安徽大学 南京理工大学 河北大学 国家图书馆 南开大学 华东师范大学 山西大学 机构科研强度 22.54 8.32 7.88 6.51 5.5 4.6 3.7 3.64 3.56 3.47 3.44 3.2 3.03 2.95 2.88 2.35 2.3 2.28 2.27 2.18 加入经费作为核心机构评价的辅助 属性后,可以发现,北京大学由第 4 位 上升为第 3 位,中国人民大学从第 11 位 上升到了第 4 位,吉林大学由第 16 位上 升到了第 9 位。 无论哪种方式的核心机构评价,前 一二名的机构都是维持不变的,说明武 汉大学和南京大学在图书情报领域不可 撼动的核心机构地位以及强劲的科研能 力。而武汉大学和南京大学的机构科研 强度指数相差近 3 倍,科研项目数是南 京大学的近 2 倍,体现了武汉大学当之 无愧的图书情报科研领军机构地位。 3.3. 核心人员分析 根据上述核心机构计算方式进行核 心研究人员的分析,先利用传统的计算 方法计算出项目数不少于 3 的核心研究 人员用作对比的表表 3。需要说明的是, 此处分析数据也为 2011-2016 年数据, 因为 2010 年及以前的经费数据无法获 取。 图书情报领域近十年国家级科研项目研究特征分析 两种方法所表现出来的核心研究人员 结果不尽相同,也无法判断哪种方法能够 排名 核心人员 项目数 所属机构 更好的体现核心人员,不过二者表现出来 1 谢新洲 5(5 自 ) 北京大学 2 陈亮 4(4 自 ) 中 国 科 技 出 版 传 一些共性的问题,值得思考。两种方式所 媒股份有限公司 评价的核心研究人员的项目都是国家自科 3 马费成 4(4 自 ) 武汉大学 4 叶鹰 4(4 自 ) 浙江大学 -> 南京 项目,没有一个是国家社科基金项目,这 大学 说明近六年或许更早,图书情报领域的研 5 查先进 3(3 自 ) 武汉大学 6 刘春年 3(3 自 ) 南昌大学 究重点已经逐渐向技术型倾斜,核心专家 7 陆伟 3(3 自 ) 武汉大学 的研究重点也向技术型靠拢。马费成、谢 值得一提的是,陈亮所担任的项目为 新洲、叶鹰、查先进、陆伟无疑已经成为 “国家自然科学基金应急项目系列丛书” 图书情报领域的领军研究人员,他们的研 系列项目,为自科项目的专项基金项目, 究方向可能成为日后该领域的发展方向。 4 个项目对应的资助金额分别为 23.3 万, 4 国家自科基金项目主题特征分析 28.9 万,19.2 万,33 万( 其 他 项 目 资 助 国家级项目的立项课题一般都是学科 金额未出现过小数点的情况,说明其项目 热点、难点、关注点,故关注近十年来立 有些特别),对于该种类的项目能否说明 项课题的主题内容对了解领域的发展现状 其学术能力还需斟酌。 和研究热点有很大作用。已有大量文献关 运用人员科研强度的方式进行核心人 注于近年来国家社科基金的主题分布 [6], 员的排名,运用 Excel 公式对“项目经费” 也亦有文献关注国家自科基金和国家社科 列作乘 0.01 处理,即为项目重要性。对 基金共同的主题分布 [7]。本文将利用通过 数据进行分类汇总,分类单位选择“核心 关键词统计方式对国家自科基金的立项课 人员”,汇总方式选择“求和”,汇总项 题进行分析,发现高频关键词,即图书情 选择“项目重要性”字段,所生成的汇总 报领域的国家自科基金立项课题的主题特 项即为人员科研强度。按照人员科研强度 点。 对机构进行降序处理,得到核心人员排名 将这 10 年的自科项目关键词进行格 如表 4。 式规范的处理后,使用 Excel 的数据透视 表 3 2011-2016 年项目数不少于 3 的核心研 究人员(传统方法) 表 4 2011-2016 年科研强度不小于 1 的核心研究人员(科研强度方法) 排名 核心人员 人员科 研强度 1 马费成 3.84 2 谢新洲 3.28 3 冯惠玲 2.27 4 王延章 2 5 陆伟 1.62 6 查先进 1.39 7 叶鹰 1.13 项目数 机构 4(4 自 ) 5(5 自 ) 2(2 自 ) 1(1 自 ) 3(3 自 ) 3(3 自 ) 4(4 自 ) 武汉大学 北京大学 中国人民大学 大连理工大学 武汉大学 武汉大学 浙 江 大 学 -> 南 京大学 武汉大学 中国科技出版传 媒股份有限公司 武汉大学 江苏科技大学 南昌大学 中国人民大学 8 9 吴江 陈亮 1.05 1.044 2(2 自 ) 4(4 自 ) 10 11 12 13 唐晓波 李保珍 刘春年 左美云 1.04 1.03 1.01 1 2(2 自 ) 2(2 自 ) 3(3 自 ) 2(2 自 ) 表计算关键词词频并排序,得到频次大于 等于 4 的关键词 20 个,如表 5。 表 5 2007-2016 年国家自科项目累计 高频关键词表 关键词 词 关键词 词 关键词 词 关键词 词 频 频 频 频 文本挖掘 9 知识组织 8 社会化媒 5 群体行为 4 体 大数据 8 知识服务 7 信息服务 5 信息检索 4 数据挖掘 8 电子政务 6 信息行为 5 形成机理 4 数字图书馆 8 知识管理 6 语义分析 5 影响因素 4 信息资源 8 本体 5 知识共享 5 知识挖掘 4 分析可知,数据挖掘是当前图情领域 自科基金的研究重点,如文本挖掘、大数 18 图书情报领域近十年国家级科研项目研究特征分析 据、数据挖掘、知识挖掘、语义分析等关 三年才开始出现的,说明近年社会化媒体 键词,说明知识发现的技术研究越来越重 这种新兴的服务模式引起了图书情报领域 要,图情领域的知识发现功能也将成为以 研究人员的关注,也加大了将其整合进图 后的服务重点,技术的实现是当前的难点 书馆用户服务的研究,而信息检索的研究 所在;用户行为与信息服务的研究仍然是 是该领域的基础核心所在,近几年的研究 课题主题的中坚力量,如知识服务、信息 则是围绕着新技术如知识图谱、语义分析 服务、信息行为、群体行为等,在高频词 等的产生,探索创新的方式。知识服务和 中占据了显要位置,说明用户行为与信息 知识挖掘的兴起说明,图书情报领域近年 服务作为图书情报领域的基本服务形态, 对知识的发现和应用更加重视,服务内容 是一个永恒不变的研究主题,“以用户为 已渐渐从信息服务向知识服务转化,越来 主”的服务观念已经深深渗透到图情人的 越强调服务智能化和个性化的特征。社会 思想中,日新月异的技术革新、社会发展 化媒体、信息检索、知识服务、知识挖掘 所引发的用户行为变化将是图情领域研究 等关键词在一定程度上说明了国家自科基 人员时刻关注的重中之重;高频词中的知 金未来几年的资助重点将在维持学科核心 识组织、知识管理、本体、信息检索等, 的基础上,逐渐创新原有服务方式,并且 说明图书馆学核心部分的研究在自科基金 拓展服务内容。 的项目课题中依然作为研究基础,在发展 5 结语 新技术的同时没有放弃学科基础的研究; 文章已近十年国家自科基金和社科 而一些新兴化的服务内容,如社会化媒体、 基金立项课题为数据,对其年度特征、机 电子政务等将图书馆服务与新兴的网络发 构特征、核心人员特征以及自科基金的主 展相关的主题内容也不容忽视,当前复杂 题内容进行分析。近年来,我国图书情报 的网络环境给予了学科发展的新机会,对 领域国家级项目总数的发展趋向在稳定中 新兴技术的涉及对学科研究内容的扩展起 逐步成长的发展特点,在机构上仍然以武 到推进作用。 汉大学和南京大学为核心力量,核心人员 为了发现最新几年的研究热点,发现 以马费成、谢新洲、叶鹰、查先进、陆伟 近年创新所在,笔者又列出了近三年,即 为学科建设骨干,向技术型倾斜。而在国 2014-2016 年的高频关键词如表 6。 家自然科学基金立项课题表现出的特点来 看,以数据挖掘为学科发展重点,用户行 表 6 2014-2016 年(近三年)国家自 科项目累计高频关键词表 为与信息服务作为中坚力量屹立在研究前 沿,信息组织与信息检索依然作为学科基 关键词 词 关键词 词 关键词 词 关键词 词 频 频 频 频 础存在,一些新兴的网络技术为图书情报 大数据 6 电子政务 4 信息检索 4 信息资源 3 领域的发展注入了新鲜的血液。而近三年 知识服务 6 社会化媒 4 知识组织 4 语义分析 3 体 兴起的关键词社会化媒体、信息检索、知 文本挖掘 5 数据挖掘 4 信息行为 3 知识挖掘 3 识服务、知识挖掘等也体现了国家自科基 通过表 5 和表 6 的对比可以发现,近 金图书情报领域未来几年的资助重点所 3 年研究开始增多的关键词主要有社会化 在。 媒体、信息检索、知识服务、知识挖掘、 (参考文献 略) 大数据、电子政务。其中社会化媒体和 (责任编辑:柳影) 信息检索是 2007-2013 年一直没有,近 19 基于学术合作关系的学科专家导航实现算法研究 基于学术合作关系的学科专家导航实现算 法研究 2016 级硕士研究生 卜玉敏 摘要:一个科学高效的学科专家导航系统对学科研究有极大的推动作用,然而目前我 国对此类系统的设计开发和利用程度仍有待提高。本文仅对该系统的专家检索和基于 合作关系的专家导航进行算法设计。文中介绍了该系统的五大模块,用向量空间模型、 相关性传播模型计算某一领域的专家专长得分,得到该领域的专家排名列表;基于专 家合作关系网络,设计了在非限定领域和限定领域检索中的专家合作强度算法。 关键词:专家检索;专家导航;合作网络 1 引言 2 实现算法 科研是推动学科发展的强大力量。 本章将对专家检索进行算法设计。几 我国对科研项目的投入不断增加,产生了 种检索方式分别是:基于学科领域的专家 一些优秀的科研成果。不可否认,我国科 导航,即用户输入学科领域词作为检索词, 研领域仍存在一些问题。据 2012 年山东 系统返回该领域的专家排名列表;另一种 省审计,在该省四所高等院校 2008 年立 是基于专家姓名的专家导航,即用户输入 项的纵向课题项目中,平均预算执行率为 专家姓名作为检索词,系统返回该专家的 27.66%,未按期结题率为 33.98%[1]。说明 工作单位、联系方式等基本信息和科研成 现阶段我国科研存在项目资金利用率低, 果,并以合作网络的可视化方式展示与其 结题率低的弊端。原因之一在于部分项目 他专家之间的合作关系。按类别分类便于 申报者自身科研能力不足,学术资源在空 用户按专家所在组织、文献的关键词、文 间上分配不均,因此寻找并沟通学科科研 献来源等对专家和文献进行分类查询或浏 人员之间的关系就尤为重要。 览。 学科专家导航系统的核心功能是把专 为便于后续设计,现将本文约束表述 家基于学术合作经历进行联系,并以可视 如下: 化的方式向用户展示。系统提供以下几种 第一,本文对专家关系界定为基于其 方式的查询:以专家姓名为检索词,查询 学术研究的论文合作关系和研究领域的相 某一专家的基本信息、科研作品和与其他 似关系; 专家之间的合作关系;以学科领域为检索 第二,对有关专家学术成果的算法设 词,查询该领域的专家排序列表。此外还 计仅围绕文字形式的成果信息(主要指学 对专家及作品进行分类:按组织、关键词、 术论文)进行。 会议等几大类进行整理,列出最前沿的前 2.1 学科领域检索的专家检索算法 20 类,供用户进行检索查找。主要包含 专家得分来源于两方面:一是从专家 专家信息录入、专家信息更新、用户操作、 参与所著论文中获得,包括论文与查询词 专家检索、管理与维护五个功能模块。 的相似度得分和论文的学术价值得分,此 20 基于学术合作关系的学科专家导航实现算法研究 为专家初始得分;二是基于专家在相关论 大于或等于阈值则视为相关,小于该阈值 文中的合作关系,运用信息检索中的相关 的视为不相关。 性传播模型,参照文献 [2],把初始得分根 语词加权方案为 据专家之间的相关度权值进行传播提升。 基本思路:①为每篇文献建立索引文 档,文档中包括关键词出现的位置(标题、 正文等),这一工作在系统建立后已经完 nj 表示含有标引词 kj 的文档数目; 成;②运用向量空间模型计算文献与查询 fi,j 表示语词 kj 结合其位置变形后的加权 词的相似度,并筛选出相似度大于阈值的 标准化频率。 文献;③根据文献与查询词的相似度、文 献期刊的影响因子计算②中筛选出的每篇 文献的得分;④把每篇文献的得分分配到 作者,计算每位相关作者基于所著文献的 总得分,作为每位相关作者的初始得分; 分子表示语词 kj 在文档 di 中的加权 ⑤根据②所得文献集,计算作者之间的相 频率;r1,r2,r3,r4 分别表示题目、摘要、 关度权值;⑥把作者的初始得分进行传播 关键词、正文中的语词权重;freqi,j, 提升,经过多轮迭代,得到每位相关专家 freqi,j,freqi,j,freqi,j 分别表示语词在题 的总得分;⑦按得分高低把专家姓名排序 目、摘要、关键词、正文中的初始频率; 输出。 freqi,l 表示语词 kl 在文档 di 中的加权频 2.1.1 基于文献的作者初始得分算法 率,最大值是通过计算文档 di 中出现的 文献得分依据两方面:一是依据文献 所有语词来获得的。 与搜索领域的相关度;二是依据文献在该 对查询词的权值,在 Salton 和 领域的学术价值。相关度和学术价值越高, Buckley 提出可以采用如下方法, 得分越高,反之则越低。利用向量空间模 型(VSM)稍加改变,进行相关度的计算; 用文献所在期刊的复合影响因子衡量其学 术价值。 至此,可得出文档 di 的相关度得分。 [3] 根据文献 ,文档 di 可表示为(wi,1, 把相关度小于阈值的文档剔除。 wi,2,…,wi,m),其中 wi,1,wi,2,…, Pi=β*Sim(di,q)+(1-β)*Vali(5) wi,m 分别代表文档 di 特征项 t1,t2,…, Pi 表示文献 di 的总得分;Vali 表示 t3 的特征项权重。类似地,查询也可以在 文档 di 的学术价值,即期刊影响因子; 同一空间里表示为一个查询向量。用夹角 β ∈(0,1)。至此已得文献 di 的综合得 θ 的余弦来衡量二者相关程度的大小, 分。把文献得分分配到作者,即 即 De,i=Pi / m(6) 将这个结果与设定的阈值比较,如果 De,i 表示文档 di 带给作者 e 的得分; m 表示文献 di 的作者人数。 21 基于学术合作关系的学科专家导航实现算法研究 De 表示专家 e 在当前查询下基于所 著文献的得分总值,为该专家的初始得分; t 表示专家 e 在该学科领域共参与合作的 论文篇数。 2.1.2 基于相关性传播的模型初始得 分传播提升算法 按照文档 - 专家关系数据计算专家之 间的相关度权值 vi,j(表示专家 i 到专家 j 的相关度权值),该权值不具有对称性, 即 vi,j ≠ vj,i。 表 3-1 文档 - 专家关系表 文档 A B C 专家 a,b a,c a,b,c 该模型基于以下假设: (1)如果一对专家在不同文档中合 作的次数越多,则其相关度权值越大; (2)一篇文档的合作者越多,则两 位专家之间的相关度权值越小。 基于以上假设,如果专家 i、j 都在 文档 dk 中,则 i、j 基于文档 dk 的逆向 频率为 gi,j,k=1 /(f(dk) - 1)(8) f(dk) 表示文档 dk 的专家数量。 对于文档集 D,专家 i 和 j 在所有文 档中的逆向频率为 ci,j= ∑ m k=1gi,j,k, 归一化后有 vi,j=ci,j /∑ n k=1ci,k m 表示专家 i、j 合著的文献总量,n 表示在相似度大于阈值的文献中与专家 i 有合作关系的专家总量 . 专家 e 的最终得分为: (9)式是一个迭代的过程,经多轮 迭代后,收敛,最终可得到专家的排序得 n +1 分。其中 Se 是指专家 e 的总得分,vi, j 指专家 i 到专家 j 的相关度权值; D 0 e 表示 专家 e 的初始得分; m j � D * v 表示专家 e nj e, j 经多轮迭代后得到的提升分值,表征专家 在查询领域的权威性,n 表示该领域与专 家 e 有合作关系的专家数量, ve, j 表示专家 e 到专家 j 的相关度权值; α 是衰减系数,且 α ∈(0,1)。 至此得到相关专家在当前查询下各自 得分总值,按分数由高到低排序输出记得 到专家列表。 2.2 专家姓名检索的合作网络专家检 索算法 合作网络以专家为节点,以节点之 间连线的长度表示合作关系的强度,且连 线长度与关系强度成负相关。此算法按涉 及的学科范围分为两种:一种是包含全部 学科,即某位专家和在其所有论文中与之 有合作关系的所有其他专家构成的合作网 络,称为非限定领域合作网络;另一种是 在用户指定查询领域,即某位专家和在其 发表的与该领域相关的论文中与之有合作 关系的所有其他专家构成的合作网络,称 为限定领域合作网络。 2.2.1 非限定领域合作网络的算法 基本思路:①为文献建立著者倒排文 档(通常在系统建立后已经完成);②根 据被查询著者(记为 e)找到其所有文献 的记录存取号,记为集合 A;③对专家— 论文表中的记录一一扫描,对包含集合 A 中文献的记录,计算出其对应著者(非 e) 与著者 e 之间基于该文献的合作强度;④ 根据著者是否相同把合作强度进行合并, 根据合作强度的大小返回合作网络。 22 图数据库系统与可视化研究综述 合作强度计算方法如下,基于一篇文 献两位专家之间的合作强度 [4] si 表示两位专家关于文献 di 的合作 强度;n 表示文献 di 的合作专家总人数; y 表示文章所在期刊的影响因子。 S 表示两位专家的非限定领域合作强 度;M 表示两位专家合作的论文总量。 2.2.2 限定领域合作网络的算法 基本思路:①为文献建立著者倒排文 档;②根据被查询著者(e)找到其所有 上。 3 总结及展望 一个方便高效的学科专家导航系统 对专家的科研活动有很大的帮助作用。本 文对该系统的专家检索算法进行了详细设 计。主要包括:联系关键词在文献中的位 置加权,运用向量空间模型和相关性传播 模型设计了某一检索领域的专家排名算 法,在非限定领域和限定领域检索中的专 家合作强度算法。 相比较专家库而言,不断更新的网络 信息中藏有更多的专家数据。相信随着大 数据处理技术研究进展,专家系统将会实 文献的记录存取号,记为集合 A;③计算 现网络中相关信息的有效抓取、处理和利 集合 A 中的文献与查询领域的相似度, 用,快速地为用户提供更丰富的有用信息。 保留相似度大于阈值的文献,记为集合 B; 参考文献 ④对专家—论文表中的记录一一扫描,对 包含集合 B 中文献的记录,计算出其对 应著者(非 e)与著者 e 之间基于该文献 的合作强度;⑤根据著者是否相同把合作 强度进行合并,根据合作强度的大小返回 合作网络。其文献与查询的相似度和专家 之间基于每篇论文的合作强度计算方法同 [1] 魏海政 . 山东审计显示部分高校科研项目进展迟缓结 题率低 [N]. 中国教育报 ,2012-07-31(1). [2] 郑义平,王勇等 . 基于查询词相关性传播的专家检索 方法 [J]. 计算机工设计 ,2014,35(6):2165-2169. [3] 王知津 . 信息存储与检索 [M]. 北京 : 机械工业出版 社 ,2009:31,33. [4] 王志亮 . 社会网络分析方法在科研协作网中的应用研 究 [D]. 大连理工大学 .2005. (责任编辑:彭媛媛) 图数据库系统与可视化研究综述 2016 级硕士研究生 陈莉玥 摘要:本文基于对知识图谱和图数据库的基础概念和应用现状,针对三个主要的图数 据库系统和几种基于 html 的图数据可视化方法进行分析和比较,分析各自特征和优势, 帮助学者在今后研究中更好的辨别使用图数据库和可视化途径。 关键词:图数据库;可视化;综述 23 图数据库系统与可视化研究综述 1 引言 2.2 图数据库类型 图是计算机科学中的重要数据结构。 根据图数据库对自身的数据类型在设 由于图的逻辑表现能力很强,图被广泛 计和实现方式上各不相同,笔者归纳出三 的应用于化学分子结构,生物网络,社 种图数据类型:基本类型 G=(V, E)、 会网络以及计算机辅助设计等领域中。 超点和超图类型。 计算机领域图数据的核心体现便是知识 图数据的基本类型是 G=(V, E)。V 图谱。目前存在的知识图谱包括 YAGO、 是图 G 的顶点集合,E 是图 G 的边集合。 DBpedia、NELL、Freebase、和谷歌知识 节点和边都可能包含属性。图的边可以有 图谱等。人们主要利用图数据库对图数据 方向,早期的图数据库模型都是基于 G= 进行管理。因此,近年来,图数据库呈井 (V, E)这个基本图数据类型。 喷式发展,不断有新的图数据库出现。虽 虽然图的表现能力很强,但是一些复 然可供选择的图数据库很多,但其特性各 杂的事物还是不能由图的基本类型表示, 不相同,适用的范围也有很大区别。 所以在原来的基础上对图的基本类型进行 本文在明确知识图谱与图数据库相关 了拓展,出现了超点和超图。超点就是对 的概念和关系的基础上,介绍图数据类型。 图的节点进行功能扩充,可以理解为一张 基于以上内容,列举三种常用的图数据库 图中的节点表示另一种图结构,其特点就 性能特征并进行比较。而后总结三种基于 是嵌套图结构,利用这结构可以更加简单 html 的可视化工具,便于今后对相关内容 的建模属性复杂事物。超图则是对图的边 的学习和掌握。 进行扩充。由于普通图中限定每条边的关 2 知识图谱与图数据库概述 联结点为两个,限制了图的表达能力。 2.1 知识图谱 3 常用的图数据库综述 我们知道目前的网络主体以“web of 3.1 查询关系类图数据库 Neo4j[1-2] document”形式主要向用户展示信息和数 大数据时代成为主流,半语义结构和 据,而这种模式早已不能满足用户希望通 面向网络的数据逐渐成为核心,以前的关 过计算机识别处理信息的需求。“web of 系模型静态、刚性和不灵活的特点已经很 data”应运而生,该网络中的每条链接的 难满足现在的业务需求。为了解决这些问 含义都被标签标识,使得用户和计算机都 题,图数据库 Neo4j 应运而生。 能对“数据”进行识别。 Neo4j 使用图相关的概念来描述数据 知识图谱就是将实体的形态和关系信 模型,把数据保存为图中的节点以及节点 息模型化。这种关系知识表达形式在逻辑 之间的关系。数据主要由三部分构成 : 与人工智能领域都具有较长的历史,例如 (1)节点。节点表示带有属性的对 语义网和语义框架中。最近,知识图谱被 象实例 , 每个节点有唯一的 ID 区别其它 应用于语义网集群,目的是构架机器可读 节点。 的“web of data”。关于语义网的这一观 (2)关系。就是图里面的边,连接 点正在慢慢实现,这其中的一部分已经完 两个节点 , 该关系关系是有向的并带有属 成。尤其是关联数据的概念得到突出,因 为它有利于使用 W3C 制定的 RDF 关系模 式实现数据在网络中的发布和连接。 性。 (3)属性。key-value 对,存在于节 点和关系中,如图 1 所示。 24 图数据库系统与可视化研究综述 图 1 节点、关系和属性三者的关系 Neo4j 使用遍历操作进行查询。为了 组合作为用户的数据模型。 加速查询,Neo4j 会建立索引,并根据索 (2)方便查询。该数据库支持 引找到遍历用的起始节点。默认情况下, AQL,或者通过 REST 实现,方便快捷。 相关的索引是由 Apache Lucene 提供的, (3)Ruby 和 JS 扩展。该数据库没 但也能使用其他索引实现来提供,用户可 有语言范围的限制,可以从前台到后台都 以创建任意数量的命名索引。每个索引 适用同一种预言实现。 控制节点或者关系,而每个索引都通过 (4)高性能兼低占用。该数据库具 key-value-object 三个参数来工作。其中 有高性能且低空间占用的优势,比其他 object 要么是一个节点,要么是一个关系, nosql 都要快,同时占用相对较少的空间。 取决于索引类型。另外,Neo4j 中有关于 (5)简单易用且开源免费。该数据 节点(关系)的索引,系统通过索引实现 库几秒钟内启动并且使用,同时可以通过 从属性到节点(关系)的映射。 徒刑界面来管理;遵守 Apache 协议。 依据内部建立的索引,Neo4j 通过遍 3.3 MongoDB 数据库 [5] 历 API 在图形中进行遍历,从而查找到对 MongoDB 是一个介于关系数据库和 应结果。系统通过设定访问条件比如,遍 非关系数据库之间的产品,是非关系数据 历的方向,使用深度优先或广度优先算法 库当中功能最丰富,最像关系数据库的。 等条件对图进行遍历,从一个节点沿着关 它支持的数据结构非常松散,是类似 json 系到其他节点。另外,Neo4j 可以快速的 的 bson 格式,因此可以存储比较复杂的 插入删除节点和关系,并更新节点和关系 中的属性。 Neo4j 提供了大规模可扩展性,在一 台机器上可以处理数十亿节点-关系-属 性的图,可以扩展到多台机器并行运行。 3.2 ArangoDB[3-4] ArangoDB 是一个开源数据库,具有 灵活的数据模型,如 document,graph 以 及 key-value。同时也是一个高性能数据 库,支持类似 SQL 的查询以及 JavaScript 活 Ruby 扩展。 ArangoDB 数据库具有一下主要特征: (1)多数据模型。该数据库使用 key-value、document、graph 或者他们的 25 数据类型。具体的逻辑结构如图 2 所示。 例如 {“greeting”:”hello,world”,”foo”:3}。 图 2 数据库逻辑结构关系 该图数据库具有如下特性: (1)面向集合存储,容易存储对象 图数据库系统与可视化研究综述 类型的数据; (2)支持完全索引,可以在任意属 性上建立索引,包含内部对象; (3)支持查询。MongoDB 支持丰富 的查询操作,MongoDB 几乎支持 SQL 中 的大部分查询; (4)强大的聚合工具。MongoDB 强 大的聚合工具,如 count、group 等,支持 使用 MapReduce 完成复杂的聚合任务; (5)支持复制和数据恢复; (6)使用高效的二进制数据存储, 包括大型对象(如视频); (7)支持 PHP、Java、C#、 JavaScript、C++ 等语言的驱动程序。文件 存储格式为 BSON(JSON 的一种扩展)。 3.4 三种图数据库的性能比较 基于斯坦福大学提供的某社交网络 对三种图数据库进行性能测试。该网络中 包含约 160 万个节点(代表个人资料)和 3000 多万条边(代表朋友关系)。 测试场景如下: (1)单次读:单文档(个人资料) 读取(10 万次); (2)单次写:单文档写入(10 万次); (3)聚合:计算社交网络的年龄分布, 即每个年龄出现多少次; (4)相邻顶点:为 500 个顶点查找 直接相邻顶点以及相邻顶点的相邻顶点; (5)最短路径:在一个高度连通的 社交图中查找 19 条最短路径。 通过不同数据库处理得到如下图 3 所 示的性能比较结果: 图 3 3 种图数据库的性能比较结果 由图 5 可以看出,Neo4j 数据库在相邻、单次读、单次写三种状态下具有绝对的优势, 而 MongoDB 在聚合的状态下性能最为优越;ArangoDB 数据库整体表现一般,在内存 使用方面具有一定优势。 4 基于 html 的可视化工具 本节笔者简单总结三种基于 html 的可视化工具。 4.1 Arbor.js[6] Arbor.js 是一个利用 Web Works 和 jQuery 创建的可视化图形库,它为图形组织和 26 图数据库系统与可视化研究综述 屏幕刷新处理提供了一个高效的、力导向 的布局算法。可视化生成如图 4 所示: 图 4 Arbor 可视化 4.2 jTopo[7] jTopo 是一款完全基于 HTML5 Canvas 的关系、拓扑图形化界面开发工具包,但 是没有对网络的显示因为优化,需要自定 义优化算法。可视化生成如图 5 所示: 图 5 jTopo 可视化 4.3 Sigma.js[8] sigma.js 是一个开源的轻量级 JS 库, 用来绘制各种图形,使用的是 HTML Canvas 元素。可视化生成如图 6 所示: 27 图 6 Sigma 可视化 5 结论 图数据库是针对图数据的存储系统 , 被业界广泛关注,各商家针对不同的需求 推出了许多图数据库。本文主要针对查询 类的图数据库进行总结,并对其特征和性 能进行列举和比较,并给出可视化的几种 方法。随着计算机技术的不断发展,我们 应该将更多的经历用于研究图数据库的构 建和分析研究中。 参考文献 [1]Eifrem, E.,Neo4j—the benefits of graph databases. no:sql(east),2009.[2]Developers,N.J.,Neo4J.Graph NoSQL Database[OL].2012. [3]http:// www. arangodb. org/ [4]http://blog.csdn.net/chszs/article/details/20369433 [5] 王光磊 . MongoDB 数据库的应用研究和方案优化 [J]. 中国科技信息 , 2011(20):93-94. [6]http://arborjs.org/ [7]http://www.jtopo.com [8] http://sigmajs.org [9]Nickel M, Murphy K, Tresp V, et al. A Review of Relational Machine Learning for Knowledge Graphs[J]. Proceedings of the IEEE, 2015, 104(1):11-33. [10] 胡泽文 , 孙建军 , 武夷山 . 国内知识图谱应用研究综 述 [J]. 图书情报工作 , 2013, 57(03):131-137. [11] 韩浩明 . 图数据库系统研究综述 [J]. 计算机光盘软 件与应用 , 2014(23):14-15. (责任编辑:陈莉玥) 温度生活 《 蝇 王 》 戈 尔 丁 : 非常糟糕的阅读 体验 2015 级硕士 王焱弘 一群十来岁的小孩儿流落到荒岛上,在艰难维生的压力和恐惧不安之下, 他们从勉力维持和平发展到剑拔弩张,最后走向自相残杀——这种大逃杀一般 的故事情节理应是很吸引人的,我也是冲着这个去看的。结果么,只能说这类 作家最好不要去尝试这种耸动的题材了,其结果很有种李安拍《绿巨人》的尴 尬感。本来可以极具紧张感和张力的主线,被大量晦涩繁复的细节、心理描写 和对话冲击得支离破碎。用近视眼镜镜片引火这种常识性错误,更是屡屡挑战 着我这个文傻所受过的、浅薄的物理学教育。当然,我并没有因此而有所不满, 反而有种他乡遇故知的亲切感。 这本小说充满琐屑的、重复的、缺乏逻辑和意义的对话或者自然自语,令 人难以忍受,极大地降低了阅读趣味。人物的内心活动也十分混乱,各类自相 矛盾的不确切的念头交替出现。我猜这些应该是戈尔丁有意为之,想借此表现 十来岁的少年在世界观遭受冲击时四分五裂的内心世界。然而这极大地损害了 小说的可读性。 是否有趣在我看来不应成为评价一本小说的重要标准,但这次的阅读体验 实在太糟糕了。况且,它除了不够有趣,还不够美(或许有译者的过错),对 主题的挖掘也谈不上深入,不免让我觉得盛名之下、其实难副。 《蝇王》有个显而易见的特点,即大量使用意象,或者说象征。 拉尔夫和猪崽子是在绝境下仍能保持人性和清醒的那一派,拉尔夫最初用 来召集孩子们的海螺,无疑是法律、规则和文明世界的象征。随着故事发展, 海螺的权威逐渐黯淡,最后在猪崽子被巨石碾死的同时化为齑粉,意味着以杰 克为代表的“野蛮派”对文明和人性的彻底背叛。 海螺之外,烟也是一个重要的意象。拉尔夫派一直强调点燃火堆、以烟吸 引过路的船只以期获救,从而回到文明世界。而杰克却对此不以为然,他们痴 迷于打猎,向往自由而野蛮的猎人生活。“维持火堆”还是“打猎”,经常成 为拉尔夫和杰克冲突的焦点,也正是“文明派”和“野蛮派”的短兵相接。 28 温度生活 -《 蝇 王 》 戈尔 丁:非 常 糟糕 的 阅 读 体 验 后来,杰克等人用颜料涂花自己的脸,遮掩自己的本来面貌,这成为重要的转折。 被隐藏的面孔意味着他们开始抛弃自己作为一个“英国人”、或者说“文明人”甚至 是“人”的身份认同,释放其动物性,从而便可毫无负罪感地杀戮曾经的同伴。 书中,“野兽”的阴云始终笼罩在这群孩子心上。后来我们得知所谓的野兽不过 是具挂着降落伞的腐尸,是他们在恐惧之下产生的幻影;当然,正如西蒙所说,也是 他们自己,是他们体内潜藏的动物性。 在故事的最终,杰克等人选择以烧山的方式捉住孤军奋战的拉尔夫。这是野蛮对 文明和理性最极端、最剧烈的镇压,然而颇为讽刺的是,正是烧山(野蛮的极致)产 生的巨大浓烟(代表着重回人类世界的希望),吸引了恰好路过的船只,在千钧一发 之际,海军救下了垂危的拉尔夫。 编者注: 《蝇王》是英国作家、诺贝尔文学奖获得 者威廉·戈尔丁的代表作,是一本重要的哲理 小说,借小孩的天真来探讨人性的恶这一严肃 主题。故事发生于想象中的第三次世界大战, 一群六岁至十二岁的儿童在撤退途中因飞机失 事被困在一座荒岛上,起先尚能和睦相处,后 来由于恶的本性的膨胀起来,便互相残杀,发 生悲剧性的结果。(摘自 360 百科) (责任编辑:侯雪婷) 宛若新生般大步奔走在成长之路上 ——致 2016 级特工组 2015 级硕士 徐涵 2017 年 5 月 20 日,在氤氲着毕业气息和少女们甜滋滋爱恋的雁栖湖 432-6 单人 间里,被透进房间的阳光叫醒的我,又是一个崭新的 24 小时。 自嘲式的说过好多次现在的自己形同“山里人”,地广人稀,任凭什么感情平均 到每平方米都会变得淡然无味。可临近这个时节又时常开始庆幸起来。庆幸在这个近 29 温度生活 - 宛若新生般大步奔走在成长之路上 山近水的“世外校园”里,没有大学城那般的纷杂感,也就更不会随时随地陷入去年 今日的毕业回忆杀。可刷着微博、微信朋友圈时,终于还是被打败了。学弟学妹、留 学党们无时无刻的毕业季直播,空中自由落体的学士帽,风中流动的流苏,一个个因 为毕业而欣喜的笑脸或是欢乐的泪水,仿佛全世界都在说:我们毕业啦! 这一刻,毕业,这个字眼之于我们这些“过来人”,是幸福而又苦涩的,是一种 能够唤醒听觉、视觉甚至是嗅觉记忆的奇妙能力。很欣喜,我们拥有了这份为之奋斗 十九个春夏秋冬,得来不易的技能。很不幸,我们这 34 位不同年龄段、来自天南海 北组成的特工组好像不得不“被毕业”一次,以此强化了“毕业”这份唤醒属性技能。 下周三 2016 级经济与管理学院全年级的“毕业照”,又多了一次站在图书馆阶 梯前合影的理由。不管你满心畅快,想着“终于他喵的要离开这山里了”,还是舍不 得这片清净,怕是以后也再不会有这样的雁栖时光了。世间万物,一旦被赋予“唯一” 或是“最后”,似乎都多了那么点不同寻常的意味。我都想好啦,如果那一天我跳出 来站在你面前说:我能跟你照张相吗?请你不要扭扭捏捏。因为毕竟成都、武汉、兰 州的根据地,对于我这类路痴又晕车的人来说,去一次也是挺不容易的。还有,如果 你觉得我的手机拍照美颜开的太厉害,咱们可以用原图。如果你觉得我的手机原图太 拿不出手,我们可以靠后期。实在不行,单反想有也还是可以有的。 在这条漫长的成长之路上,我们可能还不够自信。我们可能还需要花很长的时间 才能完全爱上自己。可我们还有好多事要想,还有好多事可以做;眼里还有向往,心 中还有担忧,每天必须做的事在推着我们向前。那这就是美好的一天,值得我们为之 大步奔走。无论这条路途中是否中转。 等六月过去,倦态和晦涩会随着江南梅雨季的结束而过去,迈进一本正经干燥雷 厉的夏季,一切都会明亮利落起来。像是又一次经历过“毕业季”蜕变的我们。明亮利落, 宛若新生地大步奔走起来。 致敬成长之路,韶华之光,和未来从不缺席的你们。 (责任编辑:雷佳丽) 30 温度生活 - 咫尺天涯 , 青藏高原最美的相遇 咫尺天涯 , 青藏高原最美的相遇 2016 中科院青藏所研究生 赵旺林 要么读书,要么旅行,身体和灵魂总有一个在路上。一直奉读万卷书,行万里 路为圭皋,向往着远方,向往着青藏高原上的白云蓝天,行进的旅途往往充满着期待。 追寻尽善尽美的天堂,遥远的西藏天边,有股力量不断牵引着我奋进,我怀着 无比厚重的梦想来到了美丽的青藏高原。在这里,有朋自远方来,君子和而不同, 我们在一起诉说着各自的梦想,我们在一起倾听青藏高原上的款款天籁,我们在一 起书写精彩人生的新华章。我们的足迹深深映在了美丽的青藏高原,美丽的青藏高 原深深地留在了我们心中。 过西海两眼尽是草原,到拉萨一心都在布宫。轻拨转经筒悠悠,任思绪缠绕, 手托相机,让着美好的时光定格在宗角禄康。夜幕降临,在夜色映衬下的布达拉, 更让我们沉醉,唯一能表达我们仰慕之心的就是不停地按着快门。八廓街的繁华是 我们抵挡不住的诱惑,牦牛肉干的美味,酥油茶的清香,使每一个人的时间凝固, 错过末班车的我们满载而归。大昭寺鲁布广场上的每一个 pose,都是我们最美好的 记忆。嫩柳垂绦,任微风吹拂,静听拉萨河的水声滔滔,诉说着未来,品味高原夜 色的深邃,颇具情趣,这个与众不同的地方给了我希望,让我留下了难舍的情结。 车行路止,风光静美,318 国道一路美景相伴。米拉山,我在山口,山在脚下, 景行行止,举目四顾,山岳参差浩浩然。寄情于怀,心存一隅,不负韶光,以聆天籁。 盘山公路尽蜿蜒,斜首窗外雪山巅。沉浸美景之中,忘乎所以,车途匆匆,渐行渐 远。身在车中心已飞,陶然天外有青山。站在色季拉山口,南迦巴瓦的风姿,加拉 白垒雪山的传说,我们终究是幸运的。离开此地,微含不舍,留在山口的不是脚印, 是足迹。 过鲁朗,经林海,一路一凝神,任思绪纷飞。林海之中夜未央,幽居此地梦寐 迟,把月一盏窗外星,梦醒天明欣启程。立于山巅谓之仙,屹于深谷谓之俗,攀登 的步子异常轻盈,高山仰止的召唤早已超越肉体的疲倦,忘记带着渴望而来。在这里, 相信所有人都被美景惊呆了,马、牛、羊、猪悠然自得的点缀着这一片绿意盎然的 31 温度生活 - 咫尺天涯 , 青藏高原最美的相遇 草场,旁边溪流潺潺,蓝天白云下的郁郁青山,在阳光的映衬下,显得更加和谐,陶 公世外桃源式的美景此刻就在眼前,大自然的美感染着来这里的每一个人。我们一起 去挖手掌参,采蘑菇,认识各种植物,在小溪边戏水,围在草原上唱歌,好像回到了 童年。如郁似黛之山水静幽幽,歇斯底里之欢笑声熙熙,唯念念不忘之藏东南。巍巍 青藏,灼灼其韵。诗一般的地方,画一样的境地,值我用青春年华慢慢品味。 去山南的路上被羊卓雍错的纯真与卡若拉的高冷深深折服。在岗巴拉山口,远眺 羊湖,一汪蔚蓝,感受高原圣湖的真真切切,冠绝藏南的湖光山色之美自然天成,就 算是诗人的想象也无法企及。卡若拉不动声色的屹立于斯米拉山,若有所思。艳阳高照, 水声潺潺不息,阵阵寒冷袭来,忍受着高原阳光的刺眼,仰望着峰顶冰雪,思忖其过 去与未来,其高冷的姿态,极具震撼。 山美水美人更美。青藏所的召唤将五湖四海的我们聚在了一起。在拉萨部,我们 第一次相遇在公寓大厅,彼此不太熟悉的两只手真诚的握在了一起,年少轻狂的我们 并不在乎高原反应有多强烈,不约而同的来到了球场,驰骋球场,挥洒汗水的酣畅淋 漓大概是我们在青藏高原的第一趣事。布宫脚下的酸奶坊是我们品尝西藏美食的第一 站,那个酸到你傻笑的味道,我相信每个人不会忘记。墙壁上的签名、留言、照片、 地图无不寄托着每一个旅游者的西藏情怀,我们细细寻觅着前行者的踪迹,啧啧称奇。 八角街的西藏特色饰品琳琅满目,我们好奇的问这问那,天真的声音不绝于耳。 美好的经历注定不能被忘却,如佳酿般回味无穷。短短的青藏所之行宛如一页薄 薄的书稿,时间的手指动了一下,便被翻了过去。美丽从来都是一面镜子,恍若神伤。 这是瞬间的幻觉,还是我从未醒过?在美景中前行,更多的是掠影,由其短暂,方得 永远。纵然青山绿水、雪山草原风光无限,也只好任其擦肩而过,只道是 : 那一世, 转山转水转佛塔,不为修来世,只为途中与你邂逅。 (责任编辑:雷佳丽) 32 诗情画意 夏,夜迷离 2016 级硕士 任晓亚 夏虫呢喃 夏季总是携带而来过分的热切 让人变得懒惰困倦 而热切又带来诸多的赏心悦目 是雁栖湖畔轻抚的丝丝微风 是周遭余晖晕染下的些许享受 是草地上灯光下音乐的狂欢 是声线从耳畔带来的心动 是太多太多…… 甘愿沉迷其间 倾心不已 每个失眠的夜里 都迷离于生命的歌 最终的最后 夜迷离,也迷离 (责任编辑:柳影) 33 诗情画意—无名鸟 无名鸟 2015 级硕士 王朔 我是属于 那座山下的鸟儿 没有姓名 没有巢 我只有一双深绿的翅膀 和浅红的心 我是属于 那座山下的鸟儿 没有姓名 摘下初开的花瓣作羽毛 拾起路边的石头作喙 然后走向小溪 让溪水 融化成滚烫的血液 是的,在碧蓝的天际的尽头 在山的那边的那边 在一个只有童话和诗的角落 蚂蚁和松鼠认识我 落叶和溪流认识我 在苍老的树根下 还有我去年埋下的浆果 我乘着风飞来了远方 却忘了风也有方向 只有当偶遇时他拿出一张照片 哈,原来风和我本是同乡 我是属于 那座山下的鸟儿 姓名早就被遗忘 我只在稚嫩的翅膀下 画下那棵树 那条河 那片路 并把这幅画命名为 家乡 我是属于 那座山下 漂泊远方 无名的鸟儿 (责任编辑:侯雪婷) 34 学子风采 “用脑减压,用心快乐” 专题心理辅导讲座成功举办 2015 级硕士 寇晶晶 为使文献情报中心学子能够在紧张激烈的竞争中保持健康心态,快乐学习,有效减压,2017 年 5 月 16 日(星期二)下午 13:30-15:00,在我中心研究生会及研究生教育办公室的共同努力下, “用脑减压,用心快乐”专题心理辅导讲座在中心一层多功能厅成功举办。 此次专题心理讲座邀请我国著名心理咨询师马春龙老师为同学们献上了一场丰盛的精神大 餐。马春龙老师是美国催眠师学会认证催眠师、授证导师 (NGH)、学会会员;美国催眠治疗师学 会认证催眠师(AAH)、学会会员;中国心理学会精神分析专业委员会终身会员;国家二级心理 咨询师;国际心理沙盘游戏治疗师;国家婚姻家庭指导师;中国萨提亚家庭治疗师。擅长从生活 实际出发,结合临床咨询案例进行心理分析,用心理实验、心理测试、角色扮演、模拟演练等方 法充分帮助学员理解及解决问题。 马春龙老师以一个有趣的心理实验为切入点,循序渐进,向同学们传授了疏导情绪、缓解压 力、克服焦虑的科学方法,引导学生与自己的心灵对话,用平和喜悦的心态面对压力,保持健康、 阳光和积极向上的心态,并不时与现场的学生进行有效地互动,引发了同学们的积极参与,现场 不时传来阵阵掌声。在讲座结束后,以寇晶晶、段美珍、王可慧等为代表的同学积极向马春龙老 师请教心理问题,又一次将讲座推向高潮。 最后,在同学们热烈的掌声中,此次心理讲座圆满结束,同学们纷纷表示受益匪浅。相信这 次有效的专题心理讲座之后,同学们将会以更加饱满的热情和更加平和的心态中投入到紧张有序 的学习中。文献情报中心研究生教育办公室的老师及中心研究生会祝所有研究生生活顺利,学业 进步,真正做到“用脑减压,用心快乐”! (责任编辑:寇晶晶) 35 活出精彩的一生——职业生涯规划”专题讲座成功举办 “ 活出精彩的一生——职业生涯规划” 专题讲座成功举办 2015 级硕士 寇晶晶 为使文献情报中心学子正确规划职业生涯,明确个人发展方向,合理就业,2017 年 5 月 16 日 (星期二)下午 15:00-16:30,在我中心研究生会及研究生教育办公室的共同努力下,“活出精彩 的一生——职业生涯规划”专题讲座在中心一层多功能厅成功举办。 此次职业生涯心理讲座邀请我国著名职业指导师李志会老师为同学们进行职业生涯规划辅导。 李志会老师是北京协和医学院心理教师,国家高级职业指导师,国家二级心理咨询师,国家社会 工作师,学习过医学、生物学、社会学、心理学等,擅长青少年心理健康教育、人际关系沟通、 情绪管理、婚姻与家庭的咨询等。 李志会老师以亲身经历和多个案例串联的方式向同学们传授了职业生涯规范的科学方法,引 导学生依据职业生涯规划的基本步骤,结合自身情况,以积极向上的心态,进行个人职业生涯规划。 同时李志会老师与现场的学生进行了有效地互动,现场不时传来阵阵掌声。 最后,在同学们热烈的掌声中,此次“职业生涯规划专题”讲座圆满结束。相信通过此次专 题讲座,同学们将会以更加有序和更加有规划的方式投入到紧张的学习中。文献情报中心研究生 教育办公室的老师及中心研究生会祝所有研究生生活顺利,学业进步,正确规划个人职业生涯! (责任编辑:寇晶晶) 36 文情学子参观焦庄户地道战遗址纪念馆 文情学子参观焦庄户地道战遗址纪念馆 2016 级硕士 邓洪波 彭媛媛 为深入“两学一做”学习教育,加强党员党性修养,弘扬爱国主义精神,中国科学院大学经 济与管理学院在 5 月 21 日组织党员、团员参观焦庄户地道战遗址,文情情报中心 2016 级硕士大 部分参与此次活动。 焦庄户地道战遗址纪念馆位于北京市顺义区龙湾屯镇燕山余脉歪坨山下,距市区 60 公里。纪 念馆始建于 1964 年秋,定名为“焦庄户民兵斗争史陈列室”;1979 年被北京市政府定为市级重 点文物保护单位,并改名为“北京焦庄户地道战遗址纪念馆”。焦庄户村在战争年代隶属于冀东 抗日根据地领导,是通往平西、平北根据地的必经之路。 地道战遗址纪念馆分为展馆参观区和地道参观区。展馆参观区有三个部分:分别是冀东抗 战燃烽火、人民战争建奇功、今日顺义更美好,同学们在展馆区学习到了这片土地上曾发生过的 抗日战争、人民战争的历史事件;感受到了当年斗争的艰苦卓绝和今日生活的来之不易;对老一 辈革命先烈的爱国行为肃然起敬,对如今的社会充满希望。同学们在看完展馆区的武器后表示, 当时的武器如此落后和简陋,但是最终还是越过重重难关与阻碍,取得了来之不易的胜利,这份 顽强的信念和高尚的精神值得一生学习。 参观完展馆,同学们一起亲身体验了焦庄户地道。该地道长 830 米,却较为狭窄,需要大家相继、 缓慢通过。参观中可看到曾经的水井、单人掩体、翻板、会议室等设施。这些生活和战斗的设施, 都是当年焦庄户人民用辛勤的劳动和智慧,在和敌人作斗争的实践中逐步完善起来的,最后地道 挖成户户相连,村村相通四通八达、上下呼应,形成了南到龙湾屯、唐洞、北到大北坞的长达 23 华里的地道网。 通过本次参观,同学们可谓进行了一次近距离、生动的爱国主义教育。大家纷纷表示,在此 过程中学习到了许多抗日战争、解放战争的历史事件,对革命先烈为国家殚精竭虑而不懈奋斗的 行为表达出极高的敬意。同时,两个支部的党员表示,将不断加强自身党性的修养,严于律己, 发挥共产党员的先锋模范作用;团员则表示要提高思想政治觉悟,积极向党组织靠拢,在各方面 发挥积极的作用。 37 (责任编辑:苏娜平) 文情学子参加 “五月的鲜花”文艺汇演 文情学子参加 “五月 的鲜花”文艺汇演 2016 级硕士 张鸿雁 为展现蓬勃发展的校园文化和当代青年人风貌,也为继承优秀的革命文化传统,弘扬爱国精 神和青年精神。2017 年 5 月 13 日下午一点,中国科学院大学一年一度的“五月的鲜花”文艺汇 演在东区礼堂举办。 为了在这次文艺汇演中呈现最好的表演,经济与管理学院学生会文体部的同学们早在一月份 就开始准备剧本,在三月份敲定演员后多次排练,汇演当天更是在早上 8 点前就来礼堂参与彩排, 文献情报中心的韩小龙、冯凌子和龙艺璇等同学全程参与。经过几个月的充分准备,演员们的台 词从陌生到熟悉,彼此间也更是默契,只等在舞台上奉献最完美的演出。 下午一点, “五月的鲜花”文艺汇演正式拉开帷幕。由文情情报中心的同学们参与表演的节目《金 色的鱼钩》第四个登场,节目讲述了红四军在过草地的长征路中发生的故事。由韩小龙同学饰演 的老班长在粮食都已经耗尽的情况下,为了照顾队伍中的年轻伤员,用缝衣针制成鱼钩每天给同 志们钓鱼补给营养。可是老班长自己却不舍得吃,最后牺牲在长征途中。 节目末尾加入了龙艺璇同学和黄靖凯同学动人的朗诵,全体演员们献上一曲《英雄赞歌》, 向那些立下赫赫战功、向为祖国为人民奉献一生的革命先烈表达了崇高的敬意。正如朗诵中提到的; “人民军队是一座永远镌刻在亿万人民心中的丰碑”,挥舞的军旗和嘹亮的歌声为这场舞台剧刻 上了完美的句点。 此后各个学院献上了精彩的表演,既有纪念为祖国科研事业倾尽一生、做出重大贡献的爱国 科学家们如郭永怀先生、邓稼先先生等的舞台剧节目;也有或纪念革命先辈,或展现青年人昂扬 斗志的声情并茂的诗朗诵;更有或优美动人、或精彩震撼的舞蹈。多样形式的舞台表演,无不承 载了同学们的蓬勃朝气,以及当代青年人对历史的思考,对未来的展望。 最终,经济与管理学院表演的节目《金色的鱼钩》荣获二等奖。本次“五月的鲜花”文艺汇 演展现了革命先辈的光荣事迹,书写了当代青年人的意气担当。希望我们可以继续发扬这种青年 精神,秉承先辈传统,承担青年重任! (责任编辑:苏娜平) 38 文情学子参加“捐资赠物,齐献爱心”爱心捐赠活动 文情学子参加“捐资赠物,齐献爱心” 爱心捐赠活动 2016 级硕士 徐涵 2017 年 5 月 4 日至 5 月 11 日,中国科学院大学经济与管理学院组织的“捐资赠物,齐献爱心” 爱心捐赠活动在中国科学院大学中关村校区和雁栖湖东西校区顺利开展,文献情报中心 2016 级硕 士研究生大部分都参与了此次活动。此次活动旨在为新疆维吾尔自治区和田地区墨玉县萨依巴格 乡其格勒克村双语幼儿园的儿童捐资赠物,给幼儿园少数民族的贫困儿童带去来自科苑学子的温 暖。 活动正式开始不久,就吸引了很多同学的关注,有的同学将自己的零用钱捐赠出来以表爱心; 还有一些同学捐赠了文具、地球仪、手工艺品、台灯等物资;此外,还有一些同学还亲手写下了 对小朋友们的祝福和鼓励。募捐活动从五四青年之日开始,持续了整整一周的时间,对于筹集捐 款后期专人管理、统一转交负责人进行登记等事宜,工作人员以最高的效率完成,确保募捐的任 何物资毫无折扣的送到可爱的小朋友手中,最终,“捐资赠物,齐献爱心”活动圆满结束。 (责任编辑:苏娜平) 39 师兄师姐去哪儿了 胡卉 2014 级硕士 工作单位:中国科学院文献情报中心,院史馆与文化交流中心, 数字院史馆建设岗位 工作职责:科学交流与文化传播、院史资源建设、院史展陈与院 史资料管理、数字院史馆建设、院友联络、参观者到馆服务等。 研究生感悟:毕业这一刻回想过去的三年研究生生涯,我想对自 己说一声感谢,感谢这三年来“你”的认真踏实、“你” 的坚 持不懈、“你”的乐观积极,让“我”在今日乃至今后的每一天 中,回首我的硕士研究生求学生涯时,能够问心无愧地说出“这 三年,我很充实;这光阴,我没有虚度 !” 给师弟师妹的一句话:不忘初心,砥砺奋进。 工作单位:百度时代网络技术(北京)有限公司 工作职责:数据分析师 研究生感悟:硕士的科研就是你想到一个问题(往往一 个就够了),然后用你所学专业的方法去解决它。 给师弟师妹的一句话:花半个下午去了解你不知道的事 情,比如写几行代码,比如用一个软件,虽然多的是你 不知道的事,但你可能会爱上这样的下午。 王文娟 2014 级硕士 工作单位:中国科学院文献情报中心 工作职责:情报分析师 研究生感悟:关于时间分配,研究生三年花了多半的时间用来实 习,真正静下心来做课题和毕业论文的时间寥寥无几,如果上天 再给我一次机会,我会爱科研多一点;关于学习效率,时间无论 多充裕也抵不过拖延症晚期,想想当时做毕业论文的紧张感,现 在还心有余悸;关于同学朋友,很幸运这三年有一票的“志同道 王燕鹏 2014 级硕士 合”且“趣味相投”的同学,能够一起玩耍、相互鼓劲! 给师弟师妹的一句话:明确目标、做好规划、高效率执行,很遗 憾没有做好这几点,与各位师弟师妹共勉! 工作单位:北京大学图书馆 工作内容:系统开发 给师弟师妹的一句话:梦想还是要有的,万一实现了呢。 孙超 2014 级硕士 40 中国科学院文献情报中心

《研究生通讯》2017年第3期(Vol 58).pdf 




