《研究生通讯》2018年第2期(Vol 61).pdf
研究生通讯 中国科学院文献情报中心研究生管理办公室 主 办 中国科学院文献情报中心研究生会 编 辑 本期导读 扬兴趣之帆,用计量勾勒图情世界 中文分词技术的研究 走近雪城大学信息学院 2018 年第二期 总第 61 期 启明星 ——纪念“五四运动”九十九周年 刘英捷 我是一颗启明星, 照亮了黎明前的黑暗, 穿透了呐喊前的寂静, 我要打破这凄风苦雨的惨淡。 我是一颗启明星, 看见无数的人用青春献祭于我, 只为让我发出更大的、 更大的光和热。 我是一颗启明星, 年轻人澎湃的热血, 让我在历史的天空里、 发出刺眼的、照亮一切角落的光亮! 我是一颗启明星, 照亮过一潭绝望的死水, 看它从涟漪不起, 逐渐波涛汹涌。 我是一颗启明星, 带来了天空中第一丝光亮, 更将许多的光芒洒向这片大地, 它们的名字是: 独立之精神、自由之思想、科学之火种。 我是一颗启明星, 如果你要问我, “五四”是我的名字, 科学是我留下的火种, 我照耀了历史的天空, 而科学照亮了这片大地! 2018 02 名师访谈 01 扬兴趣之帆,用计量勾勒图情世界 ——访文献情报中心袁军鹏老师 图林论剑 04 01 04 科技文本中的术语细粒度共现关系抽取与可视化分析 ——以武器装备领域为例 11 东三省“十二五”期间图书馆事业发展的差异与趋势分析 17 基于文献计量的 VSM 与 PTM 研究比较分析 21 中文分词技术的研究 温度生活 27 风赴曲(连载) 29 解开藤蔓? 30 枉入红尘——红楼宝玉篇 27 学子风采 32 32 研究生党支部组织参观中国人民抗日战争纪念馆和卢沟桥 33 认真勉励 砥砺奋进 ——学术与就业经验分享会顺利举行 34 我和春天有个约会 34 文情中心夺冠“经管杯”羽毛球挑战赛 走近雪城大学信息学院 35 ——“信息研究领域的发展趋势和就业机会”讲座成功举行 37 不一样的手工剪纸 师兄师姐去哪儿 中国科学院文献情报中心 研究生会公众号 北四环西路 33 号 38 名师访谈 扬兴趣之帆,用计量勾勒图情世界 ——访文献情报中心袁军鹏老师 2017 级硕士 韩晔 侯欢欢 【编者按】袁军鹏,博士研究员,硕士生导师,主要研究领域为科学学、科学计量学、 科技政策、数据挖掘等,现任中国科学院文献情报中心——知识技术研发中心主任, 兼任科学学与科技政策研究会科学计量学与信息计量学专业委员会委员,清华大学中 国科学技术政策研究中心兼职研究员,清华大学科技 - 教育发展战略研究中心兼职研 究员。袁老师目前在中国科学院大学担任研究生课程“科学计量学”的授课工作,深 受好评,此次我们有幸邀请到袁老师作为我们本期的访谈嘉宾,畅谈科学计量学与科 研方面的问题,为同学们答疑解惑。 1. 袁老师您好!非常感谢您能在百 的限制。比如像数据分析、统计,以前这 忙之中抽出时间接受我们的采访。您的研 些专业不太被大家关注,但是现在大数据 究领域是科学计量学,请问您当初是如何 时代,这些专业就非常热门。而且大学专 选择这个领域的?是兴趣使然吗?中科院 业的设计很宽泛,以后从事的工作可能与 学术氛围较强,学习及科研压力比较大, 所学专业并无直接联系,但这些专业基础 作为硕士新生要如何尽快适应这种学习环 的思想以及研究的理念,是相通的。就像 境?又该如何规划我们的研究生学习及生 我上课说的,无论做什么数据分析,都是 活呢? 用引文分析之类的方法来做,其他学科也 计量学是我上博士期间研究的方向, 是如此。所以说,上大学并不能仅局限于 我最初是学机械的,后来学经济管理,博 自己的专业,要拓宽视野。 士导师的研究方向是科学计量。当时我们 2. 课堂上您提到欧洲科学计量学研 的研究虽然是技术预测、技术机会分析、 究的是评价指标,美国是科学图谱,那我 技术监测。但其实主要还是科学计量学和 们文献情报中心关于科学计量学方面的研 数据挖掘。在博士后出站工作后,我到了 究主要集中在哪些方面? 中国科学技术信息研究所,主要做期刊评 我来文献情报中心时间的较短,在 价、计量学教学以及一些基于计量学的应 我看来我们中心是以评价、指标为主,科 用等,从那时起,基本上彻底转向计量学 学图谱一般是基于应用的角度。科学图谱 这个方向。 现在发展较快,有各种各样的模型,对于 至于专业的选择,对于现今社会并 大多数人来说,主要是如何利用这个图谱 不是最重要的,如果与个人兴趣有关最好。 进行数据分析。美国较早开始做科学图谱, 即使是与兴趣无关,也还是要把它学好。 其中很多人是学计算机的,他们可以发挥 专业不能用好坏来衡量,可能一开始你会 计算机的专长来做图谱的开发软件、应用 觉得这个专业不太好,但社会发展很快, 及研究。对于我们大部分人来说,可能暂 过两年说不定就很好,所以不要太受专业 时做不到开发计算机软件,所以重点可以 01 扬兴趣之帆,用计量勾勒图情世界 放在怎么使用图谱,在写论文、作报告的 大家在用这些方法做评价、报告、研究以 过程中,可以利用 CiteSpace 等软件进行 及实际工作时,一定要注意使用方法存在 一些知识图谱的可视化研究。我们中心的 哪些问题和限制,适用范围是什么,还需 杨立英老师团队、刘筱敏老师团队,主要 标注出采用的方法存在哪些问题和不足。 研究学科、专家、期刊等的评价,归结设 这点很重要。 计出各类型科学的指标进行应用。成都分 4. 很多同学表示看论文尤其是英文 馆也成立了一个科学计量的中心,重点也 文献,很枯燥而且很难懂,您有什么建议 是在做评价,同时比较重视专利,专利计 吗? 量分析也是一个值得关注的领域。 我第一节课给大家布置的论文,没有 3. 老师您是怎么看待科学计量学的 英文论文,全部都是中文论文。我的想法 评价指标和体系的?依靠这些指标评价学 是,对于一门学科,尤其是刚进入这门学 者的学术地位会不会有疏漏或者偏差? 科时,可以先看中文论文,明白学者主要 这个肯定会有偏差的。我们做评价 在研究什么。这对于了解一门学科的基本 和应用时,必须注意一点,计量学是基于 情况是有帮助的。中国与世界的研究基本 统计学的,结论建立在概率论的基础上, 上是同步的,没有太大的差距,尤其是我 只是针对大部分人、大部分情况适用,所 们这门学科。例如上次我参加 ISI 会议时, 以肯定会有不适用的个体。如果要把所有 发现外国人研究的内容和我们相差不大, 个体都分析出来,这个不太可能实现。 他们研究的内容我们也有涉及。但他们主 目前没有一个指标体系可以做到这点。评 要有两点优势,一是英文;二是研究方法。 价目前在各个方面都是非常重要的。无论 另外外文文献的书写可能是我们的一大难 哪个行业都在进行评价,都会进行量化对 关。当我们了解足够的中文文献时,可以 比。无论是定性还是定量,都是宏观的。 搜集外文的相关文献。了解外文写作的必 无论多么精细复杂的指标,都会存在一些 要技巧,从而逐渐提高英语阅读能力。不 对个体评价不科学、不准确的情况。比如, 少学生大学是信管专业的,或者偏计算机 爱因斯坦获得诺贝尔奖,并不是因为相对 方向的,对情报学这门学科可能不是很了 论,而是因为光电效应,由一位眼科医生 解,所以可以先从中文文献入手,看一些 评出,很多同行或者计量学指标,都无法 经典的文献,大概了解之后再去看外文文 对爱因斯坦的成果进行客观评价,只是后 献。就目前来说,英文文献可以利用自动 来人们才发现相对论的价值。所以无论是 翻译工具来辅助阅读。但还要先有学科的 引用还是定性分析,对于爱因斯坦这样的 基本知识。(有的时候中文文献也看不太 科学家都无法直接作出评价。这个其实也 懂)中文文献也存在理解较为困难的文献, 是一个矛盾,一方面我们希望可以尽量评 科学计量学这门学科是定量的,一些数学 价出潜在的科学家和优秀人才,但另一方 模型、公式,可能不容易理解。要解决这 面又很难做出一个指标把一个人的潜力描 个问题,一个方式是静下心来跟着作者的 述出来,目前都在试探和摸索。从我的经 思路一起推导。论文可能只写出了关键步 验来说,评价时必须注意,每个指标和模 骤,省略了具体的推导和演算过程,这就 型都有前提、限制和不足。计量学中的一 可以自己补充,便于理解。另外,了解作 些经典指标和模型,必然有很多优势,但 者设计这个公式的目的,它的输入输出是 02 扬兴趣之帆,用计量勾勒图情世界 什么,弄明白这些,就大概了解这篇文章 以往数据分析的方向发展,例如数据分析 了。文章中的有些模型可能借鉴于其他学 师、数据科学家。我们比计算机专业的优 科,这就需要查找资料了解这个模型,思 势在于对数据分析的能力训练要多一些。 考如何把这个模型套用到我们的学科里, 基于统计分析来进行数据分析,有很多现 如何把这些输入输出定义量化到对应的论 成的模型,这些模型和方法的应用以后会 文、专利中。 越来越多。例如 PageRank 算法(谷歌排 5. 现在很多同学在就业和读博之间 名运算法则),做网页的推荐、筛选很成 面临两难选择,老师您是怎么看待这个问 功,究其根源是借鉴于我们这个学科。基 题的? 于数据科学我给大家推荐了四五篇文章, 这个是一个比较大的问题。就我自 可以阅读一下,在信息技术背景下,以后 己来说,我建议我的学生如果硕士毕业能 计算机、数据会融合在一起,我们尽可能 找到满意的工作,就不建议读博,除非你 地往这个方向发展会是一个突破。一定要 就是想做研究、喜欢做研究、适合做研究, 掌握一门计算机语言,如 Python。另外 那就选择读博。对于部分学生来说,可能 英语一定要学好,我们要加强听说读写能 其兴趣不在研究上,那可能不太适合读博。 力的训练,能够很流利、熟练地使用这门 所以可以去找工作,年轻人出去打拼一下, 语言对自己的发展是有好处的。英语和计 个人收获会更大一些。毕竟读博后还是要 算机这两门学科是需要花费一定的时间才 找工作,越早踏入这个社会,会越有利。 能掌握的,不是说短时间内就可以很熟练 工作三年和上学三年,收获是不太一样的。 的。还有一部分知识是可以现学现用的, 可能上学时学到的知识,真正到工作中是 可以充分发挥自己的学习能力。就现在来 用不上的,也不需要这么复杂的推理,很 说,数学、统计、编程以及英语,这四部 多时候还是经验更重要一些。对于喜欢做 分一定要花时间学好,基础才能算牢。再 研究的人来说,如果想去高校当老师,或 者,可以跟踪一下前沿问题,例如现在大 者想留在研究所,那就可以选择读博,最 家关注较多的区块链。还有思维方面的训 好是直博或者硕博连读,节省时间。读博 练也很重要。通过大学、研究生的科学训 士与否还是要看自己。有句话很有道理, 练,做事情会有一定的规范。你会知道如 即“性格决定命运”,人们会依据性格去 何解决这个事情,怎么去处理。例如加菲 做选择,如果不太适合做某一行业,选择 尔德这个例子,一定不少人想到过引文索 该行业可能会很累,而且不一定能干好。 引,但是加菲尔德自己办公司作做出了成 三百六十行,行行出状元,不管在哪个行 果。有想法很重要,如何把想法实现更重 业,只要努力都可以很优秀,不管是生活 要。而一个人把所有的事情都实现,可能 还是事业,都可以很有成就感,所以要选 会越来越难,因为一个人不可能熟练掌握 择适合自己的行业,然后努力走到这个行 所有学科,但是基础都了解的话,知道如 业的前列,这样无论在哪个行业,都可以 何实现、关键点在哪里,代码设计、程序 很成功。 设计哪里是难点,哪里会有突破、会出现 6. 为了将来的发展,您觉得我们还 问题,必要时可以找专业的人员来做,这 需要掌握哪些方面的技能? 样才更容易成功。 目前我觉得情报学和图书馆学,可 (责任编辑 / 韩晔 侯欢欢) 03 图林论剑 科技文本中的术语细粒度共现关系 抽取与可视化分析 ——以武器装备领域为例 2017 级硕士研究生 周萌 摘要:传统共现分析方法应用于文本挖掘时,因关系粒度过粗导致难以有效利用文本 内容中的语义关系。本文以武器装备领域为例,提出基于文本内容的细粒度关系抽取 和可视化分析方法。首先,对原始简氏文本进行标题解析以提取武器装备名称,然后 进行共现句子的提取,再扫描这些共现句子中的高频动名词作为候选特征词;随后结 合领域专家给出的细粒度关系词并根据在线同义词典进行特征词归类和优化以确立武 器装备细粒度共现关系类型(包括替换、升级改造、配备安装、相似四种)和相应的 特征词,并构建具有多种类型边的武器装备细粒度共现网络。最后,对该网络进行可 视化分析,包括:按边类型划分子网络、以节点为中心的武器多维关联分析。细粒度 共现网络的构建和分析有助于更全面、具体地揭示该领域的整体、微观知识结构和知 识演化情况。 关键词:共现分析;细粒度;概念关联;文本挖掘;内容抽取 1. 引言 科技词语形成于科学知识成果交流过 程,由专门术语和具有专业特色的基础词 按照特定的认知方式和构词规则组成 [1]。 在科技信息组织和利用中,词汇是资源内 容的重要表征元素,不仅可作为直接分析 单元,还可作为特征项度量其他分析单元 (如文献、作者、机构)的内容关联。因 此,词汇语义的充分挖掘和利用,是有效 揭示科技领域知识结构的基础。 随着科技文献全文本可获得性的提高 和文本知识抽取技术的发展完善,从科技 文本内容中抽取术语细粒度关系,基于语 义明晰的术语关系类型来分析领域知识结 构,是一种可行且有必要的手段。基于这 一视角,本文以武器装备领域为例,提出 并验证一种新的领域知识分析方案,从科 技文献全文本中抽取武器装备术语细粒度 关联(包括替换、升级改造、配备安装、 相似等),并利用这些细粒度共现关系构 建共现网络,开展武器装备关联可视化分 析。 2. 相关研究 共现分析方法是由 M.Callon 等提出 [2] ,该方法具有灵活性和结果可视化的直 观性等特点,因而应用广泛,特别是在图 书情报领域中,得到了普遍的应用。但是 共现分析方法应用于文本内容挖掘时,还 存在一些弊端。例如:传统的共词分析研 究中,侧重于通过术语间是否共现揭示其 是否相关,而不能较全面地体现各节点之 间具体的语义关系 [3];在现有的共词分 析中,多是以一篇文献作为共现单元,粒 度较粗,即出现在同一篇文献中的关键词 有相同的共现频次,从而认为它们处于同 一共现强度 [4];不同的关系词在不同的 语境中可能存在不同的意义,而现有的共 现分析缺乏具体的语境支撑 [4];一些关 04 科技文本中的术语细粒度共现关系抽取与可视化分析——以武器装备领域为例 键词不仅存在着直接的频次共现,还存在 着间接的语义相关 [3]。综上,传统的共 现分析方法分析的层次较浅,粒度较粗, 没有考虑具体的语境,缺乏一定的科学性 和准确性。 针对上述问题,诸多学者开始探索细 粒度共现分析方法。王玉林 [4] 等人提出 了一种细粒度语义共词分析方法,一方面 将文献信息细粒度化,另一方面将共现词 对的语义信息融入到共词分析的过程中, 实现了共词分析方法的语义化;张晗 [5] 等人提出了一种基于细粒度语义分析的共 词知识网络构建和类团划分方法,克服了 目前共词网络缺乏细粒度关系的缺陷,更 有效地揭示了文本主题内容;冯佳,张云 秋 [6] 提出基于语义距离的共词分析方法, 计算概念间的语义距离,优化共词矩阵, 提高分析结果的准确性。 3. 细粒度共现关系抽取与网络构建 为了解决采用传统共现分析方法构建领域 共词网络的不足之处,本文以武器装备领 域为例,以简氏数据库中武器装备文本为 数据源,提出一套从文本中自动抽取术语 关系并构建细粒度共现关系网络的方案, 具体流程如图 1 所示。本文方案除了第 3 步中的“特征词人工归类”需要人工参与 外,其他流程都是由程序完成。因此整体 图 1 武器装备细粒度共现网络的构建流程 人工依赖性较低,同时也保障了方案的领 技术数据库,它包括陆海空军用装备技术 域通用性。 信息以及工业界参考信息、新闻、分析等, 3.1 数据预处理及术语提取 并滚动提供最近五年全球最新资料。实验 简氏数据是由英国简氏信息集团提供 中使用火炮、装甲车、坦克、导弹四种武 的可靠、准确的军事武器的信息情报等 [7]。 器的相关数据 [7]。 本文使用的是简氏数据库中的军事装备与 首先,从已积累的简氏数据文本集中 05 科技文本中的术语细粒度共现关系抽取与可视化分析——以武器装备领域为例 获取以 JAA(Jane's Armour and Artillery, 开头的 PDF 文档共 2060 份;然后基于开 源的 PDF 解析工具 Tabula,编写 Java 程 序,将文档的标题提取出来,文档标题由 文档类型(JAA 或者 JAAD)和武器名称 组成,因此去除文档类型后共得到 2876 个武器名称,将其存储到术语库中。 3.2 候选特征词提取 关系定义及特征词映射是识别细粒 度共现关系的基础,本文参考文献 [8] 中 的方法来建立细粒度关系词提取规则。首 先,需要从简氏文本中自动提取出能表征 武器装备细粒度共现关系的指示词(例 如 replace、integration)。 其基 本思路是 将至少出现两个武器装备的句子作为候选 句,统计其中动词、名词出现的次数,生 成候选特征词集。具体步骤为: 共现句子的提取。共现句子是指至少 包含两个武器名称的句子。本文采用上下 文窗口为共现窗口 [9],共现窗口又称术 语共现的语境单元,通常可以采用语用单 元粒度或语用距离,前者如篇章、段落、 整句、分句,后者常用“平移窗口”表示 [10]。 研究表明,较大的语境单元划分能产生更 高的召回率 [11]。本文基于提取出的武器 名称划分语境单元,考虑对每篇简氏文本 中每两个相继出现的武器名称之间的词及 第一个武器名称之前和第二个武器名称之 后的 10 个词作为一个共现句子进行扫描, 最终共提取出 3480 条共现句子。 动名词统计。考虑到表征关系的指示 词一般为动词、名词。我们对共现句中除 武器装备名外的动词、名词进行统计,采 用开源的 SVMTool 工具包进行词性标注, 截取其中的高频词作为候选特征词,剔除 其中武器装备名后,剩下的部分高频动词、 名词如表 1 所示。 3.3 特征词优化 在得到候选特征词集后,参照武器装 备领域专家给出的几种表示武器装备细粒 表 1 候选特征词集(部分) 高频动词 出现频次 use 254 develop 174 mount 137 upgrade 131 fitted 99 version 94 replace 80 based on 68 install 60 include 56 similar 44 modified 38 armed with 33 generation 29 associate; integrate 22 complement 20 application; copy; improvement 19 06 科技文本中的术语细粒度共现关系抽取与可视化分析——以武器装备领域为例 度关系的典型特征词作为种子词,对候 选特征词表中的词进行人工归类,并过 滤噪声词。然后利用在线同义词典 [12] 对 特征词进行扩展,最终得到 18 种细粒度 关系及其对应的 48 个英文特征词。为了 研究和展示的方便性,将 18 种细粒度关 系及其特征词概括为五大类:替换、升级 改造、配备安装、相似、其他。最终的特 征词表如表 2 所示。 表 2 最终特征词表 细粒度共现关系 对应中文关系词 扩展后英文关系词 替换 替代 replace;replacing;supplant;alternative; substitute;substitution;take the place of 升级换代 发展 先进 改造 基于 配备使用 安装接入 包括 集成 相当于 关联 比较 复制 upgrade;upgradation;generation;version develop advance modification;modified based on;basis fitted;equipped with;armed with ;apply; mount;install;interface include;covered;incorporate;incorporation integrate;integration equivalent;similar;indentical associate;association;relate;relation;link compare;comparable;comparison copy;duplicate;duplication 升级改造 配备安装 相似 3.4 细粒度共现关系网络构建 基于以上细粒度特征词表,对全部 3480 条共现句子进行分类。首先,利用 Java 程序扫描共现句中的武器装备术语 和细粒度特征词,将特征词对应的类别赋 给术语对;随后,统计术语对的类别次数, 当同一对术语出现多类关系时,保留其频 次最高的关系类型。部分结果如表 3 所示。 细粒度共现关系词对以 Gephi 边格 式文件存储,以便后续利用 Gephi 软件 表 3 四种主要细粒度类型提取结果举例 细粒度关 关系数 系类型 量统计 对应武器名称 替换 105 The towed 122 mm howitzer D-30 entered service with the former Soviet Army in the early 1960s as the replacement for the towed 122 mm howitzer M1938. 122mmhowitzer D-30; 122mm howitzer 升级 141 The Sayad-2 is yet another further development/upgrade to the old Sayad-1 and Sayad-1A. Sayad-1;Sayad-1A 225 Utilising the IL-A94 launcher, the Romanian Army mounted the CA-94/CA-94M missile on the Gepard self-propelled airdefence system with four missiles either side of the main turret. 138 Given its similar appearance to the Chinese QW-2 (itself reportedly a copy of the Russian Igla family of missiles) and according to reports that the Misagh-1 is based on the Chinese QW-1, This would indicate that the Misagh-2 is probably in the same class of weapon as the Chinese QW-2 (Russian Igla). 配备 相似 07 共现句子来源举例 CA-94/CA-94M ; Gepard self-propelled air-defence system Misagh-2;QW-2 科技文本中的术语细粒度共现关系抽取与可视化分析——以武器装备领域为例 表 4 gephi 可识别的边格式文件(部分) Source Target Weight Modularity class A3 Yug 17 2 A3 Tor 15 3 A3 T-72 MBT 11 2 A3 ZSU-23-4 13 2 A3 Igla-1 3 4 进 行细 粒 度关 系 网络 构 建 和 可 视化 分 析,具体例子如表 4 所示。其中边的权 重(Weight)表示两个武器名称之间的 共 现 次 数, 所 有 边 的 类 型 为 无 向 边; Modularity class 代表边的关系类型, 即前文所确定的替换、升级、配备、相似、 其他五类关系分别对应数字 0-4。将以 上边格式文件导入到 Gephi 中,即可开 展可视化分析。鉴于数据量大,图形密集, 本文筛选、过滤掉分析价值不大的点, 并剔除语义关系不明确的“其他”类型, 最终可视化效果如图 2 所示。该图中, 边的颜色代表了边对应的细粒度关系类 型,边的粗细代表了其权重,即两个武 器名称之间的该类关系的共现次数。 4. 武器装备细粒度共现网络的可视 化分析 传统共词网络中,由于词语关系缺乏 细粒度语义标注,因而边类型单一,相应 的可视化分析方法较为单调,多局限于基 于网络指标划分类簇。在引入术语语义关 系类型后,相应的细粒度共现网络可视化 分析可从多个层次和维度展开,可以更深 入地揭示领域知识结构、梳理领域知识发 展脉络。图 2 是对武器装备细粒度共现网 络的整体展示,下面将分别以边和节点为 角度,从微观层面对该图进行解读,以展 示细粒度共现网络的可视化分析特点。 图 2 武器装备细粒度的复杂网络可视化效果 08 科技文本中的术语细粒度共现关系抽取与可视化分析——以武器装备领域为例 4.1 按边类型划分的子网络分析 在细粒度共词网络中,除了可以利用 分簇的思路识别子网络,还可以根据边类 型对整体网络进行“分面”划分,得到包 含某一特定类型关系的子网络。这种类似 于分面检索的子网络划分思路,可以帮助 用户有针对性地分析网络中节点的关联情 况。根据武器细粒度共现关系网络中边的 类型,可将图 3 中整体网络拆分为如图 3图 6 四个子网络,基于此可以可视化地获 知每种细粒度关系下对应的武器装备的发 09 展脉络。 图 3- 图 6 分别为武器替换、升级改造、 配备安装和相似关系子网络。武器装备在 发展过程中,会不断地更替;而且随着一 些新型武器研制费用的不断提高,同一种 武器在发展过程中会不断地升级改造;同 时一种武器会接入或者配备安装另外一种 武器;在介绍一种武器时,经常引入另一 种武器进行类比以说明它们功能相似,来 揭示它们之间存在的某些共性特点和关系 [13] 。 图 3 替换关系子网络展示 图 4 升级关系子网络展示 图 5 配备关系子网络展示 图 6 相似关系子网络展示 4.2 特定节点的多维关联分析 以特定节点为中心,获取与其存 在多维细粒度关联的其他节点,可组成 相应武器的多维关联子网络,由此系统 性地了解该武器装备的发展脉络。以 RBS 70 节点为例,从图 2 整体网络中提取与 该节点相关的所有节点,组成的子网络结 果如图 7 所示。 科技文本中的术语细粒度共现关系抽取与可视化分析——以武器装备领域为例 图 7 以 RBS70 为中心的多维关联子网络 从 图 7 中 可 以 系 统 地 定 位 与 RBS70 具有替换、升级、配备、相似关系的武 器。如替换关系的有 Bolide;升级关系 的有 RBS90,配备安装关系的有 ASRAD、 ASRAD-R、Rapier 等等,相似的有 L/70。 据资料显示,RBS70 是一种瑞典防空导弹 系统,于 1978 年装备瑞典陆军;1983 年 博福斯公司进一步研制了 RBS70 夜间作 战的改进型 RBS90;目前,该公司在研究 RBS70 的转型 Bolide,它改用激光驾束制 导代替瞄准线指令制导;此外,RBS70 和 Bolide 导 弹均配备了 ASRAD-R 发射装置 [14] 。 通过集中多种关系可视化展示,可以 知道与某个武器节点具有以上多维细粒度 关系的武器分别有哪些,了解它们之间的 相互影响和作用,从而系统性地揭示特定 武器装备的发展情况,从横向角度对该领 域的发展脉络有了更清晰的认识,为预测 武器装备领域的发展趋势提供了可靠的依 据。 5. 结语 传统共词分析方法在应用到文本挖 掘过程时,存在着挖掘粒度粗、不能揭示 节点之间具体的语义关系的问题。本文采 用了一种细粒度共现关系抽取方法,并将 其应用到武器装备文献的挖掘中,利用抽 取出的细粒度共现关系构建细粒度共现网 络,并进行可视化分析。这种方法通过实 体关键词的提取、共现句子的抽取、细粒 度特征词集的构建等过程将武器装备之间 的语义关联细粒度化,充分利用了该领域 的科技术语关系。通过对可视化网络结果 分别以边和节点的维度进行分析,能从不 同的层面更多地挖掘出武器装备领域隐含 的发展规律,为今后相关领域的深入研究 提供了有力的依据。在后续的研究中,可 继续深化挖掘的角度,如科技术语细粒度 关系随时间的变化情况。这些内容将帮助 我们更深入地跟踪领域内知识生成的形 态,并对后续知识增长进行有效的预测 [15] 。 10 东三省“十二五”期间图书馆事业发展的差异与趋势分析 参考文献 [1] 陈少波 . 试论汉语科技词汇 [J]. 浙江师范大学学 报 ( 社会科学版 ), 1998(2):62-65. [2]Callon M,Courtial J P,Turner W A,et al. From translations to problematic Net-works: An introduction to co-word analysis[J]. Social Science Information,1983, 22(2) :191-235. [3] 李 纲 , 巴 志 超 . 词 分 析 过 程 中 的 若 干 问 题 研 究 [J/OL]. 中 国 图 书 馆 学 报 [2017-01-13]. ht tp:// www.cnki.net/kcms/detail /1 1. 2746. G2.20170113.1545.001.html. [4] 王玉林 , 王忠义 . 细粒度语义共词分析方法研究 [J]. 图书情报工作 , 2014, 58(21):73-80. [5] 张晗 , 赵玉虹 . 医学文献语义共词知识网的构建 : 方法与实证 [J]. 图书情报工作 , 2016, 60(11):135142. [6] 冯佳 , 张云秋 . 基于语义距离的共词方法改进研 究 [J]. 图书馆杂志 ,2017, 36(07):66-73. [7] HIS. 简 氏信 息 集团 网 站 [EB/OL]. www.janes. com. [8] 胡昌平 , 林鑫 , 陈果 . 科技文献副主题词抽取及其 在分面检索中的应用 [J]. 情报学报 ,2014, 33(8): 837-845. [9] 秦兵 , 刘安安 , 刘挺 . 无指导的中文开放式实体关 系抽取 [J]. 计算机研究与发展 ,2015, 52(05):1029- 1035. [10] 陆伟 , 程齐凯 . 一种基于加权网络和句子窗口方 案的信息检索模型 [J]. 情报学报 ,2013, (8):797-804. [11] Ding J, Berleant D, Nettleton D, et al. Minin g MEDLINE: a bstracts, senten ces, o r phrases?[J]. Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing, 2002:326-337. [ 12 ] T h es a u r u s . c o m [ E B / O L ] . h t t p : / / w w w . thesaurus.com/. [13] 陈萱 , 张瑞萍 , 李浩悦 . 外军导弹武器装备升级 改造管理模式研究 [J]. 中国航天 , 2009(11):42-44. [14] 王俊 , 凌丽 . 国外兵组架射导弹武器系统的现状 及发展趋势 [J]. 现代防御技术 ,2016, 2(44), 10-16. [15] 胡昌平 , 陈果 . 领域知识网络的层次结构与微观 形态探证:基于 k-core 层次划分的共词分析方法 [J]. 情报学报 , 2014, 33(2):130-139. (责任编辑 / 解贺嘉) 东三省“十二五”期间图书馆事业发展的 差异与趋势分析 2017 级硕士研究生 刘敬仪 摘要:本文通过查阅统计年鉴及网络调研的方式了解东三省图书馆事业发展的现状, 分析我国东三省“十二五”期间图书馆事业发展的差异与趋势,利用统计数据表格分 析并总结其中存在的问题,探究适合我国东三省图书馆事业发展的路线,提出适合我 国东三省图书馆事业发展的合理化建议。 关键词:“十二五”规划;图书馆事业;图书馆服务;东三省 1. 引言 “十二五”时期是全面建设小康社 会的关键时期,是深化改革开放、加快 转变经济发展方式的攻坚时期,也是推 动社会主义文化大发展大繁荣、增强国 家文化软实力、进一步推进公共文化服 务体系建设的重要战略机遇期 [1]。以服 务大众作为目标的图书馆为推动中国特 11 色社会主义事业建设起着十分重要的作 用。“十二五”期间,东三省图书馆服务 事业能力基本保持明显提升的状态,呈现 继续快速良好发展的态势,但依然存在不 足之处。“十三五”发展期间,东三省图 书馆事业发展面临着诸多未知的挑战,各 馆应总结过去五年的经验以及缺陷,抓住 适应本馆发展的要点以及预达到的目标, 东三省“十二五”期间图书馆事业发展的差异与趋势分析 着重提高落实的能力,保证图书馆服务事 业稳定发展。 2. 服务 “十二五”期间,东三省图书馆服 务能力明显提升,保持快速发展的态势。 在党和政府的高度重视下以及大力支持 下,东三省地区图书馆的服务事业日益繁 荣,突破了传统的服务理念,加强了服务 手段,服务人员的素质素养显著提高,继 续加大了社会服务效益,图书馆在公共文 化服务体系建设中发挥举足轻重的作用。 图书馆服务可细致分为流通服务、读者服 务、延伸服务。 2.1 流通服务 流通服务是图书馆服务的重要窗口, 是广大用户了解图书馆的途径之一,为用 户提供直接服务,“十二五”期间东三省 各个图书馆的流通服务在总流通人次、外 借册次、有效借书证数等方面均有所发展。 根据“十二五”期间东三省公共图书馆流 通服务情况表(表 1)可分析出, “十二五” 以来,东三省各类型图书馆的流通服务情 表 1 “十二五”期间东三省公共图书馆流通服务情况表 省份 辽宁省 吉林省 黑龙江省 总流通人次 (万人次) 1553.23 1939.33 1939.38 1891.78 2068.18 610.53 691.41 540.18 599.11 732.49 693.91 835.68 821.98 893.07 967.78 外借人次 (万人次) 648.79 732.79 772.61 723.53 751.45 234.37 256.41 241.47 323.09 352.50 251.43 369.42 303.26 311.30 330.19 外借册次 (万册次) 1426.05 1615.85 1749.88 1622.80 1708.39 403.26 476.07 462.26 608.39 747.90 483.01 636.74 575.42 631.13 688.03 有效借书证数 (万个) 10.18 9.18 10.21 11.00 12.62 1.92 2.54 2.77 7.23 8.84 7.12 7.73 9.00 5.47 6.14 年份 2011 2012 2013 2014 2015 2011 2012 2013 2014 2015 2011 2012 2013 2014 2015 况成效上呈现波动增长的趋势。其中,公 各地区公共图书馆外借册次方面在 共图书馆的总流通人次总体上呈现上涨的 总体上呈现上涨的趋势,辽宁省由 2011 趋势,辽宁省由 2011 年的 1553.23 万人次, 年的 1426.05 万册次,增长到 2015 年的 增长到 2015 年的 2068.18 万人次,增长 1708.39 万 册 次, 增 长 至 1.2 倍; 吉 林 至 1.33 倍;吉林省由 2011 年的 610.53 省 由 2011 年 的 403.26 万 册 次, 增 长 到 万人次,增长到 2015 年的 732.49 万人次, 2015 年的 747.90 万册次,增长至 1.85 增 长 至 1.2 倍; 黑 龙 江 省 由 2011 年 的 倍;黑龙江省由 2011 年的 483.01 万册次, 693.91 万人次,增长到 2015 年的 967.78 增长到 2015 年的 688.03 万册次,增长至 万人次,增长了 1.4 倍;相比较而言, 1.4 倍;相比较而言,吉林省的外借册次 辽宁省的总流通人次是最多的,吉林省的 增量是最多的,辽宁省的外借册次增加相 总流通人次增加相对最少,黑龙江省的总 对最少。 流通人次增加倍数为三个省中最多。 12 东三省“十二五”期间图书馆事业发展的差异与趋势分析 有效借书证数方面三个省份存在差 异, 其 中 辽 宁 省 在 2012 年 出 现 了 一 次 有效借书证数的低谷,呈现了一定的波 动。吉林省的有效借书证数呈现出上升 的趋势,其中 2014 年是上升最为突出的 一年,有效借书证数达到 7.23 万个,相 比 2011 年 1.92 万个 而 言 有 了 明 显的 提 升,此后一年保持较为稳定的上升趋势, 截至 2015 年上升至 8.84 万个;黑龙江省 的有效借书证数是呈现波动下降趋势,虽 然 2013 年达到 9.00 万个,但是 2014 年 的有效借书证数下降到 5.47 万个,虽在 2015 年又有提升至 6.14 万个的现象,但 相比于 2011 年的有效借书证数基数下落 幅度仍属较大,仍然和辽宁省、吉林省存 在一定的差距。 2.2 读者服务 根据“十二五”期间东三省公共图 书馆读者服务情况表(表 2)可分析出, “十二五”以来,东三省各类型图书馆的 读者服务情况呈现波动趋势,辽宁省、黑 龙江总体呈现上涨趋势,吉林省则是总体 上呈现下降的趋势。其中,关于公共图书 馆的组织各类讲座次数,辽宁省由 2011 年的 1188 次,增长到 2015 年的 2321 次, 增长至 1.95 倍;吉林省由 2011 年的 837 次,上升到 2015 年的 897 次,增加至 1.07 倍;黑龙江省由 2011 年的 750 次,增长 到 2015 年的 886 次,增长至 1.18 倍;相 比较而言,辽宁省的举办讲座次数是最多 的,增长量也是最多的,吉林省的举办讲 座次数增量较少。 各地区公共图书馆举办展览方面呈现 出波动增长的趋势,辽宁省由 2011 年的 503 次, 增 长 到 2015 年 的 774 次, 增 长 了 1.54 倍;吉林省由 2011 年的 250 次, 降 低 到 2015 年 的 240 次, 总 体 上 降 低 10 次,基本保持平衡状态;黑龙江省由 2011 年的 287 次,增长到 2015 年的 484 次, 增长至 1.69 倍;相比较而言,黑龙江省 的公共图书馆举办展览的增量是最多的, 吉林省的公共图书馆举办展览个数的增加 表 2 “十二五”期间东三省公共图书馆读者服务情况表 组织各类讲座次数 参加人次 举办展览 参加人次 举办培训班 培训人次 (次) (万人次) (个) (万人次) (个) (万人次) 1188 21.85 503 93.04 1008 5.39 1820 38.09 519 145.96 1710 9.67 2099 34.60 635 178.20 1374 6.97 辽宁省 2343 35.36 732 226.69 1786 7.36 2321 26.42 774 181.07 1784 7.76 837 22.35 250 21.46 211 3.14 937 20.17 163 33.24 296 4.03 973 20.41 259 45.10 279 2.52 吉林省 757 13.43 204 83.99 319 2.71 897 15.60 240 89.17 438 3.77 750 16.46 287 41.10 453 3.29 806 18.75 387 58.22 395 5.52 918 17.68 421 60.10 403 3.08 黑龙江省 934 15.35 464 70.60 650 5.28 886 12.58 484 70.19 780 4.06 省份 13 年份 2011 2012 2013 2014 2015 2011 2012 2013 2014 2015 2011 2012 2013 2014 2015 东三省“十二五”期间图书馆事业发展的差异与趋势分析 林省由 2011 年的 39.47 万人次,增长到 相对最少。 举办培训班次数方面三个省份存在差 2015 年的 132.10 万人次,增长至 3.35 倍; 异,总体上呈现上涨的趋势,其中辽宁省 黑龙江省由 2011 年的 68.95 万人次,增 在 2012 年出现了一次举办培训班次数的 长到 2015 年的 128.41 万册,增长至 1.86 高潮,后总体呈现了一定的波动上涨态势。 倍;相比较而言,吉林省的流动服务书刊 吉林省的举办培训班次数呈现出上升的趋 借阅人次量增加相对较多,黑龙江省的流 势,其中 2012 年是上升最为明显的一年, 动服务书刊借阅人次增量是最少的。 各地区公共图书馆流动图书馆车书 比 2011 年上升 85 个举办培训班数量;黑 龙江省的举办培训班次数是呈现波动上升 刊借阅册次方面呈现出增长的趋势,辽 的趋势,在 2012 年出现回落,2013 年至 宁省由 2011 年的 131.96 万册次,增长到 2015 年的 515.18 万册次,增长至 3.9 倍; 2015 年又保持上涨,最终达到 780 次。 吉林省由 2011 年的 57.47 万册次,增长 2.3 延伸服务 图书馆延伸服务主要包括流动服务书 到 2015 年的 206.18 万册次,增长至 3.79 刊,流动图书馆车书刊,分馆数量。根据 倍;黑龙江省由 2011 年的 97.44 万册次, “十二五”期间东三省公共图书馆延伸服 增长到 2015 年的 194.32 万册次,增长至 务情况表(表 3)可分析出,“十二五” 2.03 倍;相比较而言,辽宁省的流动图 以来,东三省各类型图书馆的藏书量均 书馆车书刊借阅册次增量是最多的,黑龙 在逐年增加。其中,公共图书馆的流动 江省的流动图书馆车书刊借阅册次增加相 服务书刊借阅人次在逐年增加,辽宁省 对最少。 分馆数量方面三个省份存在差异, 由 2011 年的 78.64 万人次,增长到 2015 年的 242.81 万人次,增长至 3.1 倍;吉 其 中 辽 宁 省 在 2012 年 分 馆 数 量 达 到 表 3 “十二五”期间东三省公共图书馆延伸服务情况表 流动服务书刊借阅人次 (万人次) 78.64 95.55 127.92 辽宁省 169.83 242.81 39.47 66.33 71.72 吉林省 135.39 132.10 68.95 92.16 118.70 黑龙江省 173.73 128.41 省份 流动图书馆车书刊借阅册次 (万册次) 131.96 242.94 291.00 380.14 515.18 57.47 80.26 98.31 220.75 206.18 97.44 140.81 175.31 283.54 194.32 分馆数量(个) 年份 1083 1226 662 676 1029 493 667 210 311 321 283 287 277 327 384 2011 2012 2013 2014 2015 2011 2012 2013 2014 2015 2011 2012 2013 2014 2015 14 东三省“十二五”期间图书馆事业发展的差异与趋势分析 “十二五”的高潮,呈现了一定的波动。 这一现象表明,许多用户到图书馆并未外 吉林省分馆数量呈现出波动回升趋势,其 借图书,或是并未查询到与自己需求所匹 中 2013 年是下降最为严重的一年,分馆 配的图书,更多的是查阅电子文献资源, 数量仅 210 个,相比 2011 年 493 个而言 而对于高校馆而言,更多的学生用户选择 有了不小差距;黑龙江省的分馆数是呈现 在图书馆上自习进行考试内容的复习,而 较为平缓的上升趋势,由 2011 年的基本 并非因对馆藏内容的兴趣,被外借的图书 基数为 283 个,至 2015 年的 384 个,相 多数属于非专业书籍,且中、外文数据库 对辽宁省、吉林省,波动幅度不大,且呈 的利用率的最高值多数集中在期末复习阶 段。由此,图书馆应在馆藏内容的及时性、 现总体上升趋势。 针对性、实用性等方面有所加强,可采取 3. 存在问题 发放调查问卷,面对面访谈的形式了解用 3.1 服务内容单一 相比于公共馆较为全面的关于图书馆 户对馆藏的需求,强调图书馆真实存在的 服务方面的数据,高校馆以及其他类型图 必要性与重要性。 3.3 图书馆服务事业发展不平衡 书馆关于服务方面的数据并不能在年鉴上 纵观东三省各类型图书馆在“十二五” 面有完整的体现,且部分现有数据显示, 高校馆在流通、读者、延伸这三个方面的 期间服务事业的变化,相比于黑龙江省、 服务质量不及公共馆,由此看来,高校馆 吉林省,辽宁省各馆在很多方面有过之而 以及其他类型图书馆应在服务方面以公共 无不及,无论是用户流通服务,为用户举 馆作为典范,加强服务性能,加强馆员的 办活动次数以及用户参与度,还是在延伸 服务技巧以及素养建设,以便提高图书馆 服务质量方面皆领先于其他两个省份,但 自身的服务质量。而由公共图书馆关于服 是在统计数据增量时,不难发现,辽宁省 务各方面的数据来看,在“十二五”期间, 并不能保持增长率一直领先的状态。而黑 服务整体水平有明显提高,但是分析具体 龙江省各馆的服务指标多数情况下皆处于 服务内容,读者的参与度并未达到理想状 基础薄弱的状态。如通过对延伸服务情况 态,就辽宁省而言,组织各类讲座的次数 的统计分析,流动服务书刊的借阅人次、 是本省举办展览个数的二至三倍,但前者 流动图书馆车书刊的借阅册次,辽宁省与 的参与人数却是后者的五分之一至六分之 吉林省处于翻倍增长的状态,黑龙江省的 一,另举办培训班的个数与各类讲座的次 增量呈现落后于其他两省的态势。从中可 数基本保持在 700 次以内,但参加人数前 以分析,图书馆服务事业发展的不平衡与 者却是后者的四分之一至六分之一之间。 政府的投入支持、图书馆自身服务体系建 究其原因,许多公共图书馆为用户开展的 设、管理机制定制、用户认可程度、馆员 活动形式较为单一且举办次数较少,品牌 的综合素质、当地图书馆教育普及程度等 方面有紧密的联系,应从根本问题出发, 服务活动欠缺。 尽量缩小发展上的不平衡。 3.2 馆藏更新滞后 4. 发展建议 根据统计数据,不难看出,多数图书 4.1 加强品牌服务 馆的外借人次尚未达到图书馆的总流通人 服务是图书馆事业发展的根本立足 次的二分之一,但人均外借册次辽宁省、 吉林省、黑龙江省皆维持在 2 册次 / 人, 点,为用户开展服务时,应着重强调以人 15 东三省“十二五”期间图书馆事业发展的差异与趋势分析 为本的服务原则。通过数据得出,各省的 增大本馆的访问权限,与出版社沟通协商, 图书馆举办讲座的次数整体上呈现上升的 以提高知识获取以及服务能力,防止馆藏 状态,“十二五”期间有明显的提升,而 更新与用户获取不同步的现象发生。 4.3 缩小地区差距 在参加人次方面,除辽宁省以外,其余两 通过对东三省各图书馆与服务事业 个省份呈现总体下降的状态,对此,可以 采取提前做好相应调研工作的方式,了解 相关的数据收集、整理,不难发现,辽宁 用户的服务需求。此外,举办展览的个数 省各馆的基本数据皆高于其他两省。而在 少于组织各类讲座次数以及举办培训班的 “十二五”发展期间,辽宁省的图书馆服 个数,且举办培训班的个数即使与其他两 务事业相关数据的增量却不是保持着最高 类活动次数持平,通过比例换算,参加的 的状态,黑龙江省多数也处于基础数据与 人数也无法与其他两类活动的参加人数持 增量同时落后的状态。在“十三五”发展 平,未来,可根据调研结果进一步开展图 中,应注重地区资金投入不平衡这一问题, 书馆展览活动,同时举办讲座以及培训班 应根据各地区的发展实际状况,投入相应 应考虑按需提供面向不同对象的服务。馆 的资金,,实现均衡共同发展,使各地区 员自身也要注重数据素养的提升,提高数 用户享受公平同等服务。也可以加强馆际 据服务的水平。流动服务方面应有所加强 之间的协作交流,借鉴他馆精华之处,弥 丰富流动书刊的种类,拓展读者流通服务, 补自身不足,加快本馆的进步。 5. “十三五”展望 要做到结合本馆实际,为用户提供优质的 “十二五”期间,我国东三省地区各 个性化服务,全方面打造适合本馆的品牌 图书馆在服务事业上取得了较为显著的成 服务。 绩,基本保持了稳定的向前发展状态,但 4.2 提高开放获取效率 在当今大数据时代,图书馆转型是 是仍有诸多方面存在不足,展望即将迎来 学术界研究的热点问题,开放获取的及 的“十三五”,东三省图书馆事业发展面 时性更代表着图书馆的综合实力,这就要 临着更多的机遇与挑战,这就要求,政府 求各馆进一步做好开放获取工作。据统 及图书馆有关部门应认清图书馆的服务事 计数据显示,辽宁省各图书馆的外借率在 业是动态的、连续性的建设过程这一观点, “十二五”期间由 42% 降至 36%,吉林省 继续完善服务体系的构建,加强服务内容 各图书馆的外借率由 38% 上升至 48%,而 的个性化、创新性,提高服务人员的整体 黑龙江省由 36% 降至 34%,由此,辽宁省 素质素养水平,注重馆藏内容的更新,加 的外借率下降百分比最大,吉林省的上升 大资金投入,缩小地区之间的发展不平衡, 幅度较大,而三个省份的人均外借册次均 保持图书馆服务事业在飞速运转的大数据 保持在 2 册次 / 人。相比于国外的开放获 时代中的有机蓬勃发展。 取工作,我国关于开放获取方面的理论研 究以及实际方面的应用尚属于落后状态。 无论是纸质资源还是电子资源,各图书馆 应重视其馆藏的更新进度,定期收集用户 意见,剔除陈旧且不实用的馆藏,购置学 术前沿资源,同时提高开放获取的效率, (参考文献 略) (责任编辑 / 段力萌) 16 基于文献计量的 VSM 与 PTM 研究比较分析 基于文献计量的 VSM 与 PTM 研究比较分析 武汉大学 2017 级硕士研究生 邢欣 摘要:本文以向量空间模型(VSM)和概率主题模型(PTM)为对象,采用定量与定 性分析相结合的分析方法在 CNKI 数据库进行关键词检索,并对检索得出的文献从年 度分布、作者分布、学科分布、研究机构分布以及基金分布五个方面,展开纵向和横 向的综合比较分析以得出结论。 关键词:文献计量法;向量空间模型;概率主题模型 1. 数据来源与方法 对一个研究领域的期刊论文进行分 析是总结学科发展状况的最常用方法。 CNKI 数据库涵盖了主要的中文期刊,为 了保证数据的代表性与权威性,本文选用 CNKI 数据库进行检索,关于向量空间模 型的检索条件设定为:关键词 =“向量空 间模型”或者“VSM”;关于概率主题 模型的检索条件设定为:关键词 =“概率 主 题 模 型” 或 者“PTM” 或 者“LDA” 或者“pLSA”,通过人工筛选、去重、 删除与主题无关的文献,最后得出关于向 量空间模型的文献 4839 篇,关于概率主 题模型的文献 2548 篇,构成本文分析比 较的核心样本群(检索时间为 2017 年 12 月 6 日)。采用文献计量法对上述所得文 献进行比较分析,对文献的相关数据进行 整合,并统计向量空间模型和概率主题模 型研究文献的年度分布、作者分布、学科 分布、研究机构分布以及基金分布分析, 最后通过比较总结出向量空间模型与概率 主题模型研究发展的特点。 2. 研究文献的时间分布分析 2.1 文献数量年度分布分析 文献按年代分布分析在一定程度上 反映了该学科的研究发展速度和研究水 平、规模。统计 VSM 与 PTM 的年度文献 数量,利用 EXCEL 绘制二者研究论文的 年度发文量趋势图,如下图 1。由图 1 可 知,VSM 与 PTM 的年度发文量趋势图可 图 1 VSM 与 PTM 研究论文年度发文量趋势图 17 基于文献计量的 VSM 与 PTM 研究比较分析 划分为 3 个阶段:第一阶段,1971 年 -1998 以 15 篇的发文量排名第一。二者相较而 年,VSM 与 PTM 的研究都处于探索阶段, 言,VSM 研究领域内 10 篇以上发文量的 发文量为个位数且比较稳定。第二阶段, 1999 年至 2004 年,VSM 与 PTM 的研究 处于缓慢发展阶段,发文数量由个位数突 破到两位数。第三阶段则是 VSM 与 PTM 的迅速发展阶段,VSM 发文量在 2000 年 至 2008 之间呈指数式上升,其发文量达 到最高值 447 篇,2009 年至 2016 年 VSM 作者数量更多,VSM 核心作者群体已经 初步形成,且研究人员的研究能力较强, 这在一定程度上也说明 VSM 研究领域引 起更多学者的关注度。 2.3 学科分布分析 通过 对 VSM 和 PTM 研究 论文 进行 学科分布的统计分析,可以了解二者研 究内容的广度与深度,整体上把握 VSM 和 PTM 研究同其他学科合作的情况。按 照 CNKI 的学科分类发现,VSM 与 PTM 发文量呈现回归趋势,发文量回归到 271 篇。相较之下,PTM 发文量呈现为稳定 且缓慢的上升趋势,2016 年 PTM 发文量 达到 287 篇。两条趋势线 2017 年的下滑 相关论文共分布在 40 多个学科,其中, 现象,不可忽视的原因则是由于 CNKI 数 VSM 发文量排名前十的学科如下图 2 所 据库 2017 年度的论文尚未收集齐全。 示,PTM 发文量排名前十的学科如下图 3 2.2 作者分布分析 所示。VSM 排名前 10 的研究论文发文量 研究论文作者群体的状况与该领域发 在 35 篇及其以上,由图 2 可知,计算软 展紧密相联,通过对作者群的统计与分析。 件及计算机应用学科领域的发文量最多, 统计 VSM 与 PTM 研究论文发文量为 10 累计 3557 篇文献,占总发文量的 74%; 篇及其以上的作者群体如下表 1 所示。由 互联网技术领域发文量次之,累计 789 篇; 表 1 可知,在 VSM 研究领域内,黄名选、 图书情报与数字图书馆排名第三,发文量 林鸿飞两位学者分别 21 篇的发文量排名 为 215 篇。 第一;在 PTM 研究领域内,刘书亮学者 表 1 VSM 和 PTM 研究发文量 10 篇及其以上的作者统计表 研究领域 VSM PTM 作者 发文量(篇) 黄名选、林鸿飞 21 姚天顺 17 吴立德 14 何婷婷 13 刘培玉、刘海峰 12 林鸿飞、黄萱菁 11 郑诚、白硕 10 刘书亮 15 李湘东 13 杨静宇 12 许振忠 10 18 基于文献计量的 VSM 与 PTM 研究比较分析 图2 VSM 研究论文的学科分布图 PTM 排名前 10 的研究论文发文量在 自动化技术第三,共计 12 篇,而图书情 44 篇及其以上。由图 3 可知,计算机软 报与数字图书馆领域发文量为 66 篇,排 件及计算机应用发文量最多,共 1505 篇; 名第 7。 互联网技术领域发文量次之,共 170 篇; 图3 PTM 研究论文的学科分布图 2.4 研究机构分析 通过对 VSM 和 PTM 的研究文献进 行研究机构分布的数据统计分析,可以 了解各科研机构在两者研究领域的研究 实力,为科研机构的绩、效、能分析提 供一定的参考数据。统计关于 VSM 和 PTM 发文机构数量最多的前 10 个机构 如下表 2 所示。由表 2 可知,VSM 研究 论文发文量前 3 名的研究机构是:重庆 大学、大连理工大学以及哈尔滨工业大 19 学。PTM 研究论文发文量前 3 名的研究 机构是:天津大学、浙江大学以及南京理 工大学。其中,发文量最多的前 10 个研 究机构中有 3 个共同学校,分别是北京邮 电大学、武汉大学、西安电子科技大学。 这表明这 3 所学校对 PTM 与 VSM 的关 注程度都比较高。这几所研究机构发文量 体现了其研究现状、研究实力及在该领域 的影响力。 基于文献计量的 VSM 与 PTM 研究比较分析 表 2 VSM 和 PTM 研究论文 TOP10 发文量的机构统计表 VSM 主题的研究论文 PTM 主题的研究论文 研究机构 数量(篇) 研究机构 数量(篇) 重庆大学 109 天津大学 66 大连理工大学 99 浙江大学 54 哈尔滨工业大学 98 南京理工大学 53 上海交通大学 92 北京邮电大学 51 北京邮电大学 89 武汉大学 48 清华大学 75 吉林大学 42 华中科技大学 72 上海交通大学 38 华中师范大学 67 西安电子科技大学 37 武汉大学 63 中国科学技术大学 32 西安电子科技大学 60 电子科技大学 31 2.5 基金资助分布分析 通过对基金论文成果统计分析,能够 一定程度上反映出决策机关、主管部门、 研究机构以及其他社会组织对该领域的重 视程度,基金论文率的大小可以反映出一 个研究领域受资助受注的情况。统计得出, VSM 与 PTM 研究论文中获得基金项目的 前 6 名项目为:国家自然科学基金、国家 高技术研究发展计划、国家重点基础研究 发展计划、国家社会科学基金、国家科技支 撑计划以及高等学校博士学科点专项科研基 金。我国 VSM 领域研究篇论文 4839 篇,其 中获得前 6 名基金项目支持的论文共 1289 篇,占文献总量的 26.64%。我国 PTM 领域 研究篇论文 2548 篇,其中获得前 6 名基金 项目支持的论文共 956 篇,占文献总量 的 37.52%。可见,相较而言,PTM 研究论文 的国家级基金项目论文占比更高。 图 4 VSM 和 PTM 研究论文 TOP5 基金资助情况分布图 3. 结论 通 过 上 文 比 较 VSM 和 PTM 研 究 领 域 的特征,得出以下五点结论。第一,在文 献数量年度分布分析方面:一方面,从数量 上来看,VSM 研究领域的发文总量远高于 PTM 研究领域的发文量,且 VSM 研究关注 度比 PTM 的关注度更早;另一方面,从发 文趋势上来看,尽管 PTM 研究领域的论文 总数量低于 VSM,但 PTM 研究领域的发文 量 自 2016 年 起, 呈 现高 于 VSM 研 究 领 域 论文数量的趋势。第二,在研究论文作者群 体分布分析方面,VSM 研究领域 10 篇及其 20 中文分词技术的研究 以上的作者占总作者群体的 0.23%,PTM 研 究领域 10 篇及其以上的作者占总作者群体 的 0.16%,可见,两者核心作者群比例都比 较小。第三,在学科分布分析方面,总体来 看,VSM 与 PTM 研究领域的论文主要集中 在计算机类与图书情报类,相较之下,目前 图书情报与数字图书馆学科类对 VSM 研究 领域内的关注度高于 PTM。第四,在研究 机构分布分析方面,VSM 研究领域发文量 排名前十的研究机构占总比的 17.03%,PTM 研究领域发文量排名前十的研究机构占总比 的 17.74%,PTM 占比相对较高,但两者相 差不大。第五,在基金资助分布分析方面, 由于研究者的学术背景和学术水平情况是能 否获得基金资助的关键因素,这也从侧面上 反映了我国 VSM 与 PTM 研究领域的研究群 体整体学术水平较高。 参考文献 [1] 邱均平 . 文献计量学的理论、方法和应用 [J]. 图书情 报知识 , 1984(04):43-46,54. [2] 王曰芬 , 路菲 , 吴小雷 . 文献计量和内容分析的比较 与综合研究 [J]. 图书情报工作 , 2005(09):72-75. [3] 朱亮 , 孟宪学 . 文献计量法与内容分析法比较研究 [J]. 图书馆工作与研究 , 2013(06):64-66. [4] 邱均平 , 邹菲 . 关于内容分析法的研究 [J]. 中国图 书馆学报 , 2004(02):14-19. [5] 邱 均 平 , 苏 金 燕 , 熊 尊 妍 . 基 于 文 献 计 量 的 国 内 外 信息 资源 管理 研 究比 较 分 析 [J]. 中国 图 书 馆 学 报 , 2008(05):37-45. (责任编辑 / 周萌) 中文分词技术的研究 2017 级硕士研究生 段力萌 摘要:本文首先简单介绍了自然语言处理,然后对中文分词问题进行了说明,介绍了中文 分词存在的难点如词的定义标准、分词歧义、未登录词(新词)识别、分词粒度问题等。 接着,本文总结了调研文献中的主流分词方法,包括基于词典的最大匹配法、基于字标注 的分词方法、基于序列标注的分词方法、全切分路径选择方法以及基于转移的分词方法等, 对目前的主流方法进行性能的对比,同时也介绍了当前中文分词的研究进展和方向,一些 科研院校的中文分词系统。最后,本文对自然语言处理的分词技术提出了展望和今后的发 展趋势。 关键词:中文分词;研究现状;分词技术 1. 绪论 1.1 研究背景与意义 随着互联网信息科学技术的高速发展, 信息数据呈现出一种爆炸式增长的状态。以 大数据、深度学习、互联网、机器学习为标 志的海量信息时代正在对中文信息处理提出 许多新的要求和挑战 [1]。 中文信息处理是指自然语言处理的分 支,是指用计算机对中文进行处理。和大部 分西方语言不同,现代汉语中双字和多字词 占据了多数,由于汉语的词语之间没有明显 21 的空格标记,句子是以字串的形式出现 [2]。 由于人们认识水平存在着差异,所以很难区 分词和短语。因此对中文进行处理的第一步 就是进行自动分词,即将字串转变成词串。 自动分词首先要有一个标准,词作为独 立运用的语言的最小单位,对此定义又是抽 象并且不可计算的。所以不同的标准下的分 词结果必然是不同的,但是,由于没有一个 公认的标准,使得词的标准问题成了一个重 大的难题。但是,如果考虑在同一个标准下 进行分词,那么结果也是可比较的。因此, 中文分词技术的研究 只要保证了每个语料库内部的分词标准是一 串,而新词指日常生活中人们新创的一些词 致的,基于该语料库的分词技术便可一较高 (也可能是旧词新意)。未登录词种类多种 下 [3]。中文分词是中文信息的关键技术之一 多样,并且涵盖的范围很广,而且很多未登 [4] ,是中文应用进行文本分析的前提。中文 录词恰恰被经常使用,例如一些专业名词、 分词(或中文切词)是指将连续的字序列按 人名、地名、机构名、省略用语等。未登录 照一定的规范重新组合成词序列。以“我们 词(新词)识别错误对分词效果有着很大的 马上要放假了”为例,中文分词的过程就是 影响。一般的专有名词还有一定的构词规律, 如何将例句切分为“我们”“马上”“要”“放 如前缀后缀有迹可循。而新词则五花八门, 假”“了”五个词语单元。 如新术语、新缩略语、新商品名、绰号、笔 1.2 本文研究内容 名等。直到目前为止,未登录词识别,尤其 本文首先简单介绍了自然语言处理,然 是新词识别,仍然是分词研究面临的最大挑 后对中文分词问题进行了说明,介绍了中文 战。错别字、谐音字规范化:当处理不规范 分词存在的难点如词的定义标准、分词歧义、 文本(如网络文本和语音转录文本) 时, 未登录词(新词)识别、分词粒度问题等。 输入的句子中不可避免会存在一些错别字或 接着,本文总结了调研文献中的主流分词方 者刻意的谐音词(如“香菇” ->“想哭”; 法,包括基于词典的最大匹配法、基于字标 “蓝瘦” ->“难受”;“蓝菇” ->“难过” 注的分词方法、基于序列标注的分词方法、 等等)。这些错别字或谐音字对于分词系统 全切分路径选择方法以及基于转移的分词方 造成了很大的困扰 [1]。 法等,对目前的主流方法进行性能的对比, 分词粒度问题:分词粒度的选择长期以 同时也介绍了当前中文分词的研究进展和方 来一直是困扰分词研究的一个难题。选择什 向,一些科研院校的中文分词系统。最后, 么样的词语切分粒度,是和具体应用紧密相 本文对自然语言处理的分词技术提出了展望 关的。细粒度分词是指将原始语句切分成最 和今后的发展趋势。 基本的词语,而粗粒度分词是指将原始语句 1.3 中文分词面临的挑战 中的多个基本词组合起来切成一个词,进而 分词歧义:分词歧义是指在存在多种理 组成语义相对明确的实体。中文分词主要应 解方式的句子。也就是说在一个句子中,一 用于搜索引擎中,在搜索引擎建立索引时, 个字串可以有两种或两种以上的切分方法, 如果分词粒度过大,将导致只有输入特定关 分别将每个结果集的元素都能够组合结果相 键词才能搜索到相应结果;如果过小,则影 同,但每种结果集表达的句意却不相同 [5]。 响搜索的准确性 [6]。 例如,“乒乓球拍卖完了”,可以切分为“乒 1.4 研究思路 乓 / 球拍 / 卖 / 完 / 了”,也可以切分为“乒 本文的研究思路如下面的 Xmind 图所 乓球 / 拍卖 / 完 / 了”,类似的例子还有“门 示,首先通过大量的文献阅读对研究课题的 把手弄坏了”。虽然基于人工标注数据的统 背景和意义进行分析,然后确定本文的研究 计方法能够解决很大一部分分词歧义,然而 内容,以及研究内容面临的挑战、主要的研 当面临一些训练语料中没有出现过的句子 究方法以及研究进展,其次,分析了目前的 (或子句) 时,基于统计的方法可能会输 一种深度学习方法,将目前存在的研究方法 出很差的结果 [1]。 进行详尽的列举之后对各方法的性能进行了 未 登 录词( 新 词)识 别: 未 登 录词, 比较;最后,对本课题的研究方法进行总结 通常指的是不存在于分词词典中的汉字字符 和展望。 22 中文分词技术的研究 图 1 本文的研究思路 23 2. 中文分词研究方法及进展 2.1 典型方法 基于字符串匹配的分词方法: 这种分 词方法又被叫作机械分词方法、基于字典的 分词方法,它是按照一定的策略将待分析的 字符串与一个“充分大的”机器词典的词条 进行匹配,若在词典中找到某个字符串,则 匹配成功(识别出一个词)[7]。在该方法种 由于要素不同,其中分词词典、匹配原则和 文本扫描顺序存在着差异,可以分为最大匹 配法(MM)、逆向最大匹配法(RMM)、 逐词遍历法、设立切分标识法和最佳匹配 法(OM)。复杂最大 匹配算法 , 由 Chen 和 Liu 在《Word identification for Mandarin Chinese sentences》提出 [8]。从上面我们可 基于字标注的分词方法:2002 年,Xue 等 人 在《Combining Classifiers for Chinese Word Segmentation》 一 文 中 首 次 提 出 对 每 以看出来,根据方向不同,最大匹配方法又 可以分为前向 MM 和后向 RMM 最大匹配方 法两种。 全切分路径选择方法:这种方法就是将 全部可能的切分组合一一列举出来,然后从 众多切分过的路径中选择最优路径,有点类 似于运筹学中的最有问题。关于这条路径的 选择方式,常用的是 n 最短路径方法,基于 词的 n 元语法模型方法等 [9]。这种方法的目 标是从指数级搜索空间中求解出一条最优路 径。 图 2 字标注训练模型框架 个字进行标注,通过监督机器学习算法训 练出分 类器从而进行分词 [10]。而后,Xue 在《Chinese word segmentation as character tagging》一文中较为详细的阐述了基于字标 注的分词法 [11]。 基于序列标注的分词方法:针对基于词 典的机械切分所面对的问题,特别是未登录 词识别过程中遇到的问题,基于统计模型的 方法能够取得更好的分词效果。所谓的基于 统计模型的方法,换句话说就是序列标注问 题 [9]。 在一个段话中,我们按照字在句子中 所处的位置进行标注,最常用的就是四符 号 标 记 即以 下 四 个 label:B,Begin, 表 示 中文分词技术的研究 当前字是一个字的开始;M,Middle,表示 精度达到 1/625,基本满足了应用需要 。 这是 词 中 间的 字;E,End, 表 示 这是 一个 CDWS 分词系统是对中文自动分词的首次 词的 尾 字;S,Single,表 明 这 个 是独 立成 实践尝试,验证了中文文本自动分词的可行 词。使用这个方法进行分词的过程就是将一 性,对中文分词技术的研究具有极大的启迪 段字符输入模型,然后得到相对应的标记 作用。 SEG 和 SEGTAG 分词系统由清华大学 序列,再根据标记序列进行分词。举例来 说:“达观数据位是企业大数据服务商”, 开发,首次提出全切分的概念,采用带回溯 经 过 该 方 法 训 练 后 的 理 想 标 注 序 列 为: 的正向、反向、双向最大匹配法和全切分法。 “BMMMESBEBMEBME”, 最终还原的分 该分词系统的工作原理是穷举输入字串的所 词结果是“达观数据 / 是 / 企业 / 大数据 / 有可能性,取最佳的字串序列作为分词结果。 服务商”。目前基于序列标注的方法在学术 经过封闭试验证明,该系统在切分精度上确 界仍然是分词主流方法 [1]。 实有很大提高,但由于算法复杂度的增加, 基于转移的分词方法:这种方法借鉴了 切分速度明显减慢 [13]。 基于转移的依存句法分析的思路,对输入的 复旦大学研发的分词系统由四个模块构 句子从左到右进行处理,每次执行一个设定 成 [14],分别是预处理、歧义识别、歧义字 的转移动作 [12]。和基于序列标注的方法相 段处理和未登录词识别。该系统的设计思想 比,基于转移的方法可以更灵活的融入各种 是先分析中文分词技术中的主要难题,然后 特征,特别是基于词的特征,因此在学术界 根据问题逐个改进。通过四个模块的细节改 受到越来越多的关注 [1]。 进,系统的切分速度和精度都有一定的提高, 2.2 中文分词技术研究现状 尤其是对未登录词的识别效果尤其明显。 中文文本是以词作为最小的语言成分进 北京大学计算语言学研究所研制的分词 行独立活动,但词与词之间并没有像英文中 系统,采用了计算语言学的统计方法,通过 词与词之间存在空格这样明显的区分标记, 隐马尔科夫模型进行词性标注和歧义消解, 因此对中文分词的深入研究就十分必要。由 将分词和词性标注结合在一起,提高了切分 于中文词汇同义性、多义性等特征,相同的 准确性。基本处理流程为:自动切分和初始 词汇在不同的语境下或者不同的词汇在相同 词性标注、歧义识别、构词及标志预处理、 的语境下都可能存在多种可能,导致中文分 词性标记消歧、后处理过程 [13]。 词技术的研究存在许多的技术难点。因而, 中 科 院 开 发 的 ICTCIAS (Institute 目前针对中文分词的研究仍主要集中在自然 of Computing Technology,Chinese Lexical Analysis System)分词系统是一套获得广泛 语言的处理技术上。 目前,针对中文分词的深入研究主要集 好评的分词系统,系统由中文自动分词、词 中在科研院校,中科院、清华大学、北京大学、 性标注和未登录词识别三个模块构成。该分 复旦大学、东北大学、北京航空航天大学等 词系统是通过层叠型马尔科夫模型进行分 都有其自身的研究小组。本文简要介绍几个 词,得出概率最大的切分结果,然后利用角 影响较大且具代表性的中文分词系统,如下: 色标注方法识别未登录词,计算其概率并将 北京航空航天大学在 1983 年设计实现 未登录词加入到切分词图中,之后视它为普 了我国第一个中文分词系统——CDWS 分词 通词处理,最终进行动态规划优先选出最大 系统,该分词系统采用基于字符串的最大匹 概率切分标准结果 [15]。 配算法,同时借助词尾字构词纠错技术进行 综上所述,我国关于中文分词技术的研 歧义字段处理,在人工干预的前提下,分词 究已经步入相对成熟的阶段,处理技术的不 24 中文分词技术的研究 断发展和分词算法的不断优化,使中文分词 就可以很好的预测当前字的标记或下一个动 处理技术在切分精度和切分速度上都有了很 作。传统方法的特征表示主要采用人工定义 大的提高。但科研院校的研究成果不能很快 原子特征和特征组合,而深度学习则把原子 的产品化,而技术的研究最终是服务于应用, 特征进行向量化,在利用多层神经元网络提 因此,中文分词技术还有很长的路要走。 取特征。所谓向量化就是把词、词性等用低 3. 基于深度学习的分词方法 维、连续实数空间上的向量来表示,从而便 近几年,深度学习方法为分词技术带来 于寻找特征组合与表示,同时容易进行计算。 了新的思路,直接以最基本的向量化原子特 特征向量表示如图 3。 征作为输入,经过多层非线性变换,输出层 在深度学习的框架下,仍然可以采用基 图 3 特征向量表示 于子序列标注的方式,或基于转移的方式, 以及半马尔科夫条件随机场 [1]。深度学习 主要有两点优势:1) 深度学习可以通过优 化最终目标,有效学习原子特征和上下文的 表 示;2) 基于 深 层 网 络如 CNN、 RNN、 LSTM 等,深度学习可以更有效的刻画长距 离句子信息。 《Neural Architectures for Named Entity Recognition》一文中提出了一种深度学习框 架,如下图所示,利用该框架可以进行中文 分词。具体地,首先对语料的字进行嵌入, 得到字嵌入后,将字嵌入特征输入给双向 LSTM,输出层输出深度学习所学习到的特 征,并输入给 CRF 层,得到最终模型 [16]。 图 4 深度学习框架 4. 中文分词方法性能比较 到目前为止,上文中提到的中文分词算 法大致可以归类为三大类:1)基于字符串 匹配的分词;2)基于理解的分词;3)基于 25 统计的分词。到目前为止,还无法证明 哪一种方法更准确,每种方法都有自己的利 弊,有强项也有致命弱点,简单的对比见下 表 1 所示: 中文分词技术的研究 表 1 各种分词方法的优劣对比 分词方法 歧义识别 新词识别 需要词典 需要语料库 需要规则库 算法复杂性 技术成熟度 实施难度 分词准确性 分词速度 基于字符串匹配方法 差 差 需要 否 否 容易 成熟 容易 一般 快 基于理解的分词 强 强 不需要 否 是 很难 不成熟 很难 准确 慢 基于统计的分词 强 强 不需要 是 否 一般 成熟 一般 较准 一般 5. 结论与展望 参考文献 5.1 总结 [1] 张 敏, 韩先培,张 家 俊等, 中 文 信 息处 理 发 展报 告 本文在深度学习的大背景下,对中文分 (2016). 中国中文信息学会 . 2016 [2] 百度百科:中文分词 https://baike.baidu.com/item/%E4% 词方法进行了研究。中文分词是汉语自然语 B8%AD%E6%96%87%E5%88%86%E8%AF%8D 言处理中一个最基本的问题,在信息检索、 [3] 黄昌宁,赵海 . 中文分词十年回顾 . 中文信息学报 . 2007 机器翻译、文本校对等很多方面有着重要意 [4] 张启宇,朱玲,张雅萍,中文分词算法研究综述 [J], 义。现有的中文分词方法有很多,它们以字 情报探索,2008(11):53-56 符串匹配、统计、理解、路径和语义为基础, [5] 魏光泽 . 中文分词技术在搜索引擎中的研究与应用 [D]. 青岛科技大学 ,2016. 取得了很好的切分效果,但由于汉语的博大 [6] KTDictSeg 分 词 组 件 1.3 版 本 部 分 算 法 讨 论 — 精深,仍然有很多难题不可能完全解决,即 分 词 粒 度 [EB/OL].[2018-4-3].http://www.xuebuyuan. com/110035.html 歧义词和未登录词的识别等,还需要在今后 [7] 龙树全 , 赵正文 , 唐华 . 中文分词算法概述 [J]. 电 脑知识与技术 , 2009,5(10):2605-2607. 的中文分词技术 / 算法研究中多多深入。 [8] Chen, K. J. and Liu S.H. Word identification for Mandarin 5.2 展望 Chinese sentences. Proceedings of the 14th International 纵观词法和句法分析研究发展的态势和 Conference on Computational Linguistics. 1992. 技术现状,以下研究方向或问题将可能成为 [9] 陈圳,深度学习将会变革 NLP 中的中文分词 . [10]Nianwen Xue and Susan P. Converse. Combining 未来研究必须攻克的堡垒: Classifiers for Chinese Word Segmentation, First SIGHAN 深度学习和传统方法相结合的问题:目 Workshop attached with the 19th COLING, Taipei, 2002 . [11]Nianwen Xue. Chinese word segmentation as character 前深度学习相关的研究工作主要是在特征表 tagging. Computational Linguistics and Chinese Language 示上。然而对于传统的学习方法而言,中文 Processing. 2003 . 分词方面在很长的一段时间里都没有取得较 [12] 郭振 , 张玉洁 , 苏晨 , 徐金安 . 基于字符的中文分 词、词性标注和依存句法分析联合模型 [J]. 中文信息学 好的发展。所以,我们需要将传统的学习方 报 , 2014, 28(06):1-8+17. 法与深度学习方法进行有效结合来实现更好 [13] 魏光泽 . 中文分词技术在搜索引擎中的研究与应用 [D]. 青岛科技大学 ,2016. 的分词效果,这也将是一个有趣的研究课题。 [14]Mikio Yamamoto, Kenneth Church, Using suffix arrays 多粒度分词:从目前研究来看,采用单 to compute term frequency anddocument frequency for all substrings in a corpus[J], Association for Linguistics, 2000, 一粒度分词存在两个问题。第一,采用单一 27(1). 粒度分词规范时,标注人员对于分词规范的 [15] 陈建英 . 面向中文地址的分析引擎设计及实现 [D]. 理解存在差异,因此会影响人工标注数据的 北京:中国科学院大学,2015. [16]Guillaume Lample, Miguel Ballesteros, Sandeep 质量。第二,不同的上层应用对于分词粒度 Subramanian, Kazuya Kawakami, Chris Dyer. Neural 的需求不同,有些应用甚至需要不同粒度的 architectures for named entity recognition. arXiv preprint arXiv:1603.01360. 2016. 分词结果,从而从不同的角度对句子进行分 析和理解;故而,作为汉语处理的第一步, 采用单一粒度的分词规范也无法充分满足上 层应用的需要 [1]。这就要求我们用多粒度分 (责任编辑 / 欧桂燕) 词来实现更佳的效果,得到理想的模型。 26 温度生活 风赴曲(连载) 2017 级硕士 左雨萌 壹·眸底宫阙 好吧,好吧,我不会讲故事,但是如果一定要讲一个,那我就讲一个。 这不能算是故事,应该算是事件吧。它可能没有结局,我只能从时间的小 孔窥视到这一系列事件。如果你们一定让我讲,我就讲出来。 大明宫里最常见的柳树开始冒出嫩得恼人的新绿。左掖的梨花亦不甘示 弱,抛出片片烂漫的白,扰乱了朝臣们的眼,含元殿是大明宫南端第一大殿。 大明宫本就建在地势高的龙首原上,含元殿又建在几十米高的台基上,前 无遮挡,视野极好,站在殿前可以俯瞰整个长安城。只见坊市纵横,如同 菜畦,大慈恩寺的佛塔清晰可见。再往远看,终南山也尽收眼底。当朝的 玄宗皇帝,用沉香建了一个亭子,身旁站立着长安城“王家富窟”的主人 王元宝,皇宫里传言他用金银来建房,在墙壁涂上流行的红泥,宅中还置 有礼贤堂 [1],用名贵的沉檀木为轩槛,用碔砆 [2] 铺地面——要知道皇宫无 非也就用刻了花纹的地砖而已,以锦文石为柱础。这还不够,他还将铜钱 穿起来铺在后院的花径中,用来防滑。而后,他在寝帐床前雕了两名矮童, 手捧七宝博山炉,整夜焚香不停,娇贵得不得了。 27 温度生活—风赴曲(连载) 玄宗笑问道:“你到底有多少钱啊?” 王元宝憨直地说:“这个嘛,臣要求用一缣来系陛下南山的一棵树。南山的树系 完了,臣的缣还没用完。” 玄宗轻轻叹道,“我是贵人,你是富人。纵然拥有天下,却富不及你。真是伤心。” 倒见皇帝如此说,身边的昭容彩嫔,宫女侍从都蚩蚩地笑了,没有人注意到亭台 角落里的李世鸢正若有所思,她本不是嫡朱直系宗亲,仅仅是因为母亲和李氏的小旁 支有些亲故,便从从小被收养在宫中长大,女官们虽然也恭敬地称她一声郡主,但在 这衣香鬓影的皇宫之中,她本来就是不该被关注的。 然而此时此刻,她脑海里所思的是,宇文恺刚刚相赠了明阳郡主李世好一朵亲手 采摘的及第花。 注释 [1] 堂,是唐代住宅中最重要的建筑,四周由回廊环绕,形成院落。 [2] 一种像玉的石头。 (责任编辑 / 苑亚坤) 28 温度生活—解开藤蔓 解开藤蔓? 2016 级硕士 雷佳丽 现实不想面对 幻想从未停止,也从未停留 生活分成两半 一半的我在留恋、对你的幻想 现实总不愿接受 幻想是如此的虚拟却真实 另一半的我在画地为牢 而你在看墙有多高、有多厚? 锁在心里以为不会有发芽的时候 但它却在不知不觉中生根发芽 越过这一片荒芜的牢墙 看到新世界、真实的现实 发现墙里的自己早已被藤蔓包裹 只留下一只看墙外的眼 却未注意到 门和窗在背后 看到的仍是那一面墙 我是否该记起还有双手、双脚 可以解开这藤蔓转身? (责任编辑 / 陈超) 29 温度生活—枉入红尘 读书之时,总是把自己找一个角色填补起来,不论主角还是配角,任 自己在另一个光怪陆离的世界游离。 可以去选一个主角,任自己荡气回肠,睥睨天外。也可以去找一个无 闻的配角,看天上云卷云舒,观杨柳岸晓风残月。 可是宝玉,我未曾在你的生命中出现过。 曾试图去找一具躯壳,将自己空荡、飘渺的灵魂去填具。却发现偌大 的大观园,竟无一株令蝶转身可依的花。 宝钗,生得肌骨莹润,举止娴雅。唇不点而红,眉不画而翠,脸若银盆, 眼如水杏,品格端方,容貌丰美。又心思缜密,颇具城府。 黛玉,绝代姿容,闲静时如姣花照水,行动处似弱柳扶风。生就一颗 玲珑心,凄美善良,婉约孤独。 袭人,柔美娇俏,尽职尽责,死心塌地爱着你。 晴雯,眉眼恰似黛玉。其为质,则金玉不足喻其贵;其为性,则冰雪 不足喻其洁;其为神,则星日不足喻其精;其为貌,则花月不足喻其色。 你的爱情,似无数朵花般绚烂。美到极致的群花,盛放在同一须臾, 眼到之处,尽是喧嚣。 而我,单单是夏末。花到我处,已是谢了。 看着你的爱情盛放,寂寞的流泪。 爱你的清朗孤独,似皓月漫过苏堤,看水做的春晓,清辉,一地; 爱你的绿肥红瘦,画船渡来青莲,在碧波潋滟的一泓里,蛾眉,婉转; 爱你的红尘万丈,梁间双燕,反复吟唱,与子,成悦; 爱你的吹香情怀,极致浓艳,却又觉,雅致,清宁; …… 我自觉爱你,远比别人爱的深,抛却躯壳,付出了整个灵魂。 可是…… 30 温度生活—枉入红尘 我看到大红色的喜房的另一旁,枯黄的油 灯照着惨败的绝色容颜。破败,身如飘絮坠地 之际,口中叫着你的名字,“宝玉,宝玉,你 好……”就没继续说下去。她定不是恨你的, 因为香魂一缕随风散前,绽放了些许笑,我看 到了,真的看到了,她说的,明明就是“无悔 仲子逾我墙”。 我看到宝钗劝你“要当凌云须举翼”,看 到宝钗曾为你可能给他的那不完美却良缘的婚 姻,把自己放得很低很低,低到尘埃,却未见 花开。 晴雯…… 我突然意识到,我竟未真真正正的去爱你, 或者说,爱情对于整个华丽的悲剧是同一梦的 陪衬。 爱情,就这样被芹溪无限渲染夸大,因此平淡成了盛大,平凡成了绝丽,去阐释生命 的狂欢与意义。于是,女主角配角纷纷化成飞蛾,为了飘渺的目的,生死不顾,投向叫 爱情的幽幽烛火,焚须断翼,在所不惜。 我曾仰望你的眼睛,那明亮的少年光彩,正是我想要的。 然后。三春去后诸芳尽,我又亲眼看着它一点一点消失。 原来,唯有你才是主角,真正的主角,而你身边的蝴蝶越多,越足见你的芬芳艳丽。 而女性只能做你的配角。然后用芹溪的智慧,去阐释最初和最终。 最终,陋室空堂,当年笏满床;衰草枯杨,当年歌舞场;蛛丝儿满雕梁,青苔蓬窗上; 当年脂正浓,粉正香,金满箱,银满箱,红绡帐底卧鸳鸯,甚荒唐,转眼流落烟花巷, 乞丐人皆谤,黄土陇头白骨藏。 道却:欲望本假象,生命原虚无。 你渡化为僧。 我曾读《红楼梦》而潸然泪下,不是黛玉葬花,也不是宝玉因爱而疯,而是开篇时“无 才可去补苍天,枉入红尘若许年”。 轻轻用手捂住脸。 一言尽,那是五陵少年、鲜衣打马走向零落破败空空梦一场的一生啊。 (责任编辑 / 苑亚坤) 31 学子风采 研究生党支部组织参观中国人民抗日战争纪念馆和卢沟桥 2016 级硕士 龙艺璇 2018 年 4 月 20 日上午,中科院文献情报中心研究生党支部组织青年党员参观了中国人 民抗日战争纪念馆和卢沟桥。通过回顾八年抗日战争,党员同志走近历史,了解抗战历程, 体会胜利来之不易,提升了民族自豪感和爱国热情,以及切实感受到老一辈共产党为此付 出的决心与卓绝努力。 上午九时左右,青年党员们乘车来到宛平城。宛平城是我国华北地区唯一保存完整的 两开门卫城,明王朝为防御李自成进京,命御马监太监武俊于公元 1638 年——公元 1640 年主持修建此城,称“拱极城”。1928 年 12 月,宛平县衙迁入城内,改称“宛平城”。 1937 年 7 月,“七七事变”爆发,至今宛平城城墙上还保留着当年日军炮击宛平城的弹痕。 这些弹痕向世人诉说着当年中国屈辱的历史,各位党员纷纷表达了自己心中的感慨。 穿过宛平城,各位青年党员来到了中国人民抗日战争纪念馆,展览以 " 伟大胜利 " 为 主题,全面再现了中国人民 14 年浴血抗战的历史画卷,共分八个部分。在讲解员声情并茂 的讲解下,结合一件件展品,一幅幅图画,历史仿佛在眼前重现,中国人民在逆境中坚忍 不拔,携手抵御外敌的精神让在场的每一位党员同志深受震撼。正是由于无数革命先辈们 舍生忘我,前赴后继,为了中华民族甘愿奉献一切的精神,才有了今天的幸福安定生活。 其后,党员同志们又一起参观了卢沟桥。卢沟桥巧夺天工的设计、形态各异的石狮, 让大家无不感叹古代劳动人民的智慧与伟大。就在这座美丽的桥上,曾经爆发了震惊中外 的“卢沟桥事变”,这也是中国抗日军队打响全面抗战的第一枪,是中国人民英勇抵御日 本帝国主义侵略者的见证。 参观结束后,党员们纷纷表示,如今的幸福生活来之不易,一定要铭记历史、珍爱和平。 中国如今取得了举世瞩目的成就,更需要我们勿忘国耻,时刻提醒自己要高举社会主义伟 大旗帜,砥砺前行,沐雨栉风,坚持中国特色社会主义道路不动摇,为实现中国民族的伟 大复兴做出更多更大的贡献。本次参观抗日战争纪念馆和卢沟桥活动取得圆满成功! (责任编辑 / 陈莉玥) 32 认真勤勉 砥砺奋进——学术与就业经验分享会顺利举行 认真勤勉 砥砺奋进 ——学术与就业经验分享会顺利举行 2017 级博士 刘自强 2018 年 3 月 23 日,由文献情报中心学生会学术部举办的“学术与就业经验分享会”活动顺 利举行。受邀参加此次经验交流会的是 2011 级硕士费大羽、2014 级硕士胡卉和 2015 级博士栾瑞英, 他们分别就学术研究、就业相关问题作了精彩报告。情报中心各级硕、博士研究生积极参加了本 次分享会。 会议伊始,2011 级硕士费大羽(目前就职于中国银行保险监督管理 委员会北京监管局)向大家分享了择业、就业有关经验,具体结合个人 经历与见闻从职业确定、简历准备、投递简历、准备与参加笔试面试和 多个 offer 择定等五个方面进行了充分说明。最后,建议大家要珍惜在 学校的时间,不断充电提高自己的学习能力。 2014 级硕士胡卉(目前就职于中科院文献情报中心院史馆与文化交流中 心)从 2014 级硕士就业类型统计情况出发,告诉大家“工作肯定会找到的, 早晚而已”。然后,胡卉也对大家较为关心的就业问题进行了经验分享,特 别是针对科研单位、事业单位的有关问题进行了讲述,具体从准备找工作、 找工作进行中和选择工作三个部分进行交流、建议。胡卉认为,择业、就业 过程中同学们需要注意四个 Tips:调整心态、找准目标、全力以赴和从心选择。 2015 级博士栾瑞英(在学)介绍了个人情况和已发表论文及参与 科研情况,然后从论文写作心得、应聘心得两方面进行了经验分享。 将论文写作过程抽象、归纳为输入、总结和输出三个部分,概括了科 研创新写作的基本特征与一般流程,同学们收获良多。关于应聘心得, 向同学们推荐了北京事业单位招聘网、高校人才网和应届生求职网三 个就业信息网站,并向大家分享了应聘中需要注意的一些事项。 本次分享会内容丰富,涉及到了研究生择业、就业与深造,科研论文的撰写方法等等方面,交流结 果获得了良好的反馈。交流会后,有同学表示,正如这些优秀的师兄师姐们所说,学习和成长的道路最 终还是需要自己去走,未来掌握在自己手中。设立好了目标,那就脚踏实地,力争上游,认真勤勉、砥 砺奋进! 学术与就业经验分享会活动的成功举办归功于分享者们的认真准备和现场的学生群体的热情参与, 这也激励情报中心学生会再接再厉,为同学们组织更多丰富多彩的活动! (责任编辑 / 陈莉玥) 33 我和春天有个约会 我和春天有个约会 2017 级硕士 李禹琦 2018 年 4 月 21 日 14:00,“我和春天有个约会”在教一成功举办。春雨绵绵,润物无声,由文献情报中 心学生等共 12 位男女嘉宾参加的春日之约就此拉开序幕。 在第一环节中,男嘉宾根据分组,找到女嘉宾后,在 NPC 的帮助下拍照,男女嘉宾默契配合。李嘉敏、 张继元组用时最短,赢得了本轮的第一名,获得了“时间静止 10s”的道具。第二环节则是考验男女嘉宾的 表达水准啦,抽到一句话并想办法让对方说出来,聪明的嘉宾通过巧妙地暗示让对方瞬间明了,心灵相通。 许玥、金禄旸组赢得了本轮的第一名,获得了“加一条命”的道具。第三环节则是万众期待的撕名牌,在此 之前,要和主办方的 NPC 做个小游戏集齐三张明信片才可以发动攻击。男嘉宾都十分尽心地保护着自己的小 仙女,赛况十分激烈,最后仅剩三女一男,女孩子巾帼不让须眉,主动出击,最后文献情报中心的解贺嘉组 赢得了胜利。 经历了两个小时的游戏,12 位嘉宾渐渐打开了心扉,围坐在心形蜡烛前,展示自我,畅谈人生,最后的 互选环节,彼此留下了自己心仪的号码和对爱情的期许。也许缘分就在那一刹那,多一分一秒也不会到来, 虽然现场没有配对成功,但佳人在此,无忧亦无惧。 这个舞台给了嘉宾们展现自己的机会,也给了台下的观众表达的勇气,一名观众勇敢地站了出来,向自 己心仪的女孩表达心中的感情,意外之喜,最为美妙。 (责任编辑 / 勇美菁) 文情中心夺冠“经管杯”羽毛球挑战赛 2017 级硕士 李昌萌 一拍既出,谁“羽”争锋!“经管杯”羽毛球挑战赛于 4 月 22 日在西区体育馆圆满落下帷幕。 此次比赛分为混合团体赛、男子单打、女子单打三个项目,吸引了三十余名优秀的运动员参与到比赛当中。 经过了一下午的激烈角逐,混合团体赛由文献情报中心代表队夺得桂冠;在男子单打比赛中,文献情报 中心蒋翔一路过关斩将夺得冠军,陈银超同学取得亚军;在女子单打比赛中,董品华小姐姐夺得冠军,姜青 言同学取得亚军。 本次比赛不仅为羽毛球爱好者提供了展示自我、相互切磋的平台,同时也提高了同学们之间团结协作与 交流沟通的能力,增强了同学们的身体素质,更展现了文献情报中心学子勇于拼搏的精神,进一步响应了“阳 光体育”的发展目标。 (责任编辑 / 勇美菁) 34 走近雪城大学信息学院 走近雪城大学信息学院 ——“信息研究领域发展趋势和职业机会”讲座成功举行 2016 级硕士 张颖 2018 年 3 月 28 日,美国雪城大学信息研究学院 Paul B.Gandel 教授来到文献情报中心,为同学 们做了有关 “信息研究领域的发展趋势和职业机会”的讲座。讲座由文献情报中心赵亚娟老师主持, 中心各级硕、博士研究生参加了本次讲座。 Paul B. Gandel 教授首先结合自身经历,以其本科专业历史学为切入点,讲述了信息研究领域的发 展历程。用“零售商通过消费者的购买行为挖掘销售者的自身情况”和“支付软件获取用户行为数据” 等生动例子让我们切实感受到信息科学在我们生活中无处不在。他还向同学们介绍了 iSchool,社会科 学、计算机科学与企业管理等都在 iSchool 的研究范围之中, iSchool 所倡导的理论是以一个跨学科的 角度来理解信息管理所带来的机遇与挑战。此外,Paul B. Gandel 教授还就雪城大学信息学院的基本 情况向大家作了介绍。雪城大学地理位置优越,环境优美,研究生专业多样(企业信息系统、应用数 据科学、图书馆学和信息管理等),博士研究方向丰富且前沿(计算社会学、数据科学和运筹学、信 息系统,以及以人为中心的计算与设计等)。Paul B. Gandel 教授还向大家简单说明了雪城大学信息学 院研究生良好的就业情况和不错的薪资水平。 同学们积极向 Paul B. Gandel 教授咨询了雪城大学信息学院博士申请方式、博士课程设置和博 士联合培养项目情况等。Paul B. Gandel 教授针对博士申请提出了 3 个 tips:1、攻读博士的理由应 该是,你对你所研究的项目有兴趣。你有在 3 年甚至更长时间里每天花 24 个小时来思考你的研究的 热情;在准备申请博士而联系导师时,尽可能多地表达你对导师正在进行的研究的理解和思考,阐述 35 走近雪城大学信息学院 自己独特的观点和见解;3、尽可能加入学生较少的课题组,能锻炼更多,学到更多。 此次讲座内容丰富,Paul B. Gandel 教授的讲授生动有趣,同学们不仅了解了信息研究领 域的发展趋势,还全方位了解了雪城大学信息学院,为继续深造做了功课,也为自身发展打开 了眼界。 Paul B. Gandel 教授简介 Gandel 博士是美国雪城大学信息研究学院的教授。他的教学和研究领域主要包括信息技术系统 的管理、信息管理、领导力、信息政策、信息可视化等。目前除了教研工作外,还负责学校在亚洲的 外联和招生工作。此前,他曾担任美国雪城大学副校长(主管信息技术与服务)和首席信息官(CIO)。 在担任首席信息官期间,他负责信息技术和信息服务的方方面面:计算机服务、语音和数据网络、教 学技术服务,业务流程的改进和远程教育技术等。在此期间,他致力于学校的技术基础设施现代化建 设和 IT 支持的服务,以确保雪城大学能够持续不断地为科研、教学和学生的学习提供高质量的信息 (责任编辑 / 陈莉玥) 36 不一样的手工剪纸 不一样的手工剪纸 2017 级硕士 段力萌 李灵 手工剪纸是中国民间美术形式之一,有着悠久的历史,它以浓郁的民俗风情和强烈的艺术 感染力深受人们喜爱。在表现形式上剪纸有着全面、美化、吉祥的特征,同时,它以自己特有的 表现语言,传达出传统文化的内涵和本质 2018 年 3 月 30 日下午,雁栖湖校区多名文情学子与工学院学生会组织志愿者前往敬老院 拜访老人献爱心,同时,两院在联建老年公寓筹办敬老院“手工剪纸”活动,此次活动,旨在锻 炼老年人的视觉与动手协调能力,促进我们年轻一代与老年人相互交流与学习,从而增进不同年 代人之间的感情,丰富老人们的晚年生活。 在活动开始之前,文情志愿者们和老人们进行亲切交流,关切地询问他们的身体状况和生 活情况。在准备剪纸材料期间,一些志愿者与老人们进行了一些活动手部的灵活类小游戏,现场 气氛十分活跃,随后,志愿者们将做手工的材料分发给每位老人,并进行细心的讲解,每位老人 都非常认真的开始制作自己喜欢的字画与图案,一些手部较灵活的老人家很快就剪出自己喜欢的 作品;一些因眼力不便的老人,在志愿者的协助下,陆续的也剪出了自己满意的字画图案。活动 中有位老人家对志愿者说:“这种活动好、以后要开多点,对我们老人有益处”。 志愿者的到来,为平日清静的敬老院带来了欢笑,到处都洋溢着一派温馨祥和的气氛。临 走时,老人们拉住志愿者们的手说:“谢谢你们给我们带来这么多的欢乐,欢迎你们再来。此次 志愿者活动,不仅给敬老院的老人们送去了温暖,使老人们感受到社会的关怀,同时,也弘扬了 中华民族敬老爱老的传统美德。 (责任编辑 / 勇美菁) 37 师兄师姐去哪儿了 工作单位: 北京大学医学图书馆 工作职责: 流通部 馆藏管理 研究生感悟: 一天过完,不会再来。要充分玩,要充分学习。 史双青 2012 级硕士 给师弟师妹们的一句话: 没有足够努力之前,不要说“我不行”。 工作单位: 复旦大学图书馆 工作职责: 情报研究部 研究生感悟: 认真做好手头的每一件事情,在此基础上,不要给自己的 人生设限,想做什么就去做,自控力和执行力会助你成功。 侯鑫鑫 2015 级硕士 给师弟师妹一句话: 提前做好职业规划,找不到方向时多尝试。 工作单位: 百度 工作职责: 数据分析 研究生感悟: 人终有一死,迟早而已,追求的事,慢几拍又何妨? 田鹏伟 2015 级硕士 给师弟师妹的一句话: 人终有一死,迟早而已,追求的事,慢几拍又何妨? 但一定要赶上。 38 封面封底图片作者:秘密花园 11 图片来源:http://www.zcool.com 中国科学院文献情报中心

《研究生通讯》2018年第2期(Vol 61).pdf 




