基于BIBFRAME的科技报告语义服务研究

作者简介:夏立新(1968- ),男,华中师范大学信息管理学院教授,主要研究方向为信息组织与检索,数字图书馆;白阳(1990- ),男,华中师范大学信息管理学院博士研究生,主要研究方向为信息组织与检索,E-mail:baiy@mails.ccnu.edu.cn;康雨培(1992- ),女,华中师范大学信息管理学院硕士研究生,主要研究方向为数字图书馆;李重阳(1991- ),女,华中师范大学信息管理学院硕士研究生,主要研究方向为信息组织与检索;李成龙(1988- ),男,华中师范大学信息管理学院博士研究生,主要研究方向为信息组织与检索。武汉 430079

内容提要:科技报告是国家科技创新战略的重要支撑资源,但目前存在开放程度不高、数据管理冗余和关联不深入的问题。由此,本文提出应用BIBFRAME书目框架构建科技报告的关联数据化服务的方案。该方案构建了基于BIBFRAME的科技报告语义关联与服务框架,通过语义描述、语义组织和语义服务来实现科技报告的关联数据化并支持其展开丰富的语义服务。最后,本文对该方案的实证研究表明,该方案对于解决科技报告建设现存问题具有一定的可行性和有效性。

关 键 词:科技报告 BIBFRAME 关联数据 语义服务

标题注释:国家社会科学基金重大项目“基于多维度聚合的网络资源知识发现研究”(13&ZD183)。

1 引言

科技报告是科技人员在科研活动中撰写的能够完整而真实地反映其所从事活动的过程、方法、技术、经验和结果的特种文献[1],也是驱动和支撑科技创新发展的重要组成部分。所以,很多国家非常重视科技报告工作,美国、日本、欧盟等很早就建立了相对完善的收藏和管理制度[2-3],希望通过科技报告制度体系来累积科技知识,支撑科技的发展和创新。而我国科技报告制度在近几年的建设中也取得重要进展,形成了较为完善的管理模式。2014年,4个科技报告国家标准规范公开发布,同年,国家科技报告服务系统上线。截至2017年1月,国家科技报告服务系统已累积和公开8万余份科技报告数据[4]。科技报告的体制发展目的是对科技报告进行有效的管理,更是通过累积的科技报告文献来支持科技创新的发展需要。2016年5月,国务院发布了《国家创新驱动发展战略纲要》,指出科技创新必须摆在国家战略发展层面,使创新成为引领发展的第一动力[5]。因此,科技报告作为科技工作的产出成果,蕴含丰富的科技知识,有必要对其进展再组织和再利用,以支持国家科技创新战略。

然而,科技报告制度的建立目前只能在一定程度上解决科技报告的呈缴和收藏的问题,并在保密机制下允许部分科技报告公开,但其中存在很多问题。一方面,虽然目前各科技报告管理系统都在保密机制下对描述数据进行了公开,但却只局限于封闭的系统中,外部网络尚未能对这些数据引用和检索利用,削弱了已开放科技报告数据的应用价值的实现;另一方面,除了国家科技报告管理系统外,还有一些机构和地方也存在科技报告管理系统,它们之间存在诸多冗余数据,不利于科技报告的高效管理;此外,对科技报告管理的目的主要对其进行有效利用,但科技报告管理系统中孤立的文献单元只能展现有限的科技知识,科技报告数据集也仅是对不同科技知识碎片的聚集,所以无法向使用者提供紧密关联的科技报告及科技知识。对科技报告的呈缴不仅仅是为国家和社会存储科技知识财富,还要从科技报告量的累积中探索更有益于科技报告价值发挥的服务模式,促使科技报告成为科技创新的新动力。所以,对科技报告的开发利用迫切需要一种方式来同时解决其目前开放、管理及关联的问题,而实现数据的语义关联能较好地解决这类问题。2016年国际灰色文献会议也指出,在号召科学信息开放的同时,也要密切关注通过语义分析进行灰色文献数据的收集和整理工作[6]。科技报告作为灰色文献之一,也面临着这样的发展需要。因此,本研究选取应用语义关联构建思想的BIBFRAME(Bibliographic Framework,简称BIBFRAME)书目框架,对科技报告进行关联数据化以尝试解决上述问题,并且通过语义服务来支持科技创新。

2 研究现状

从科技报告的诞生至今,学术界一直在跟踪其发展变化,国内外研究人员对其管理和应用进行了广泛的探讨。

国外文献对科技报告的研究主要集中在两个方面,一是对科技报告的规范制定,如对科技报告的编写和组织进行统一规定,二是在科技报告的获取和服务上进行研究。在标准规范方面,早在1982年,国际标准《文献工作:科技报告的介绍》(ISO 5966-1982)就对科技报告的格式做出了详细的规定[7]。1987年,美国国家信息标准协会(NISO)及美国国家标准协会(ANSI)联合推出ANSI Z39.18-1987,经过2005年的更新和修订,该标准主要对科技报告元素、组织及设计进行了统一描述[8]。科技报告的编号有助于科技报告的统一管理,美国在1974年制定了科技报告编号标准,此后又经过5次修订及完善,形成ANSI/NISO Z39.23-1997(R2015)[9]。科技报告的获取研究主要集中在科技报告服务系统的设计与建设层面,例如,对美国NASA科技报告网络服务及OAI协议的描述[10],对科技报告及图像数据库TRAIL的功能介绍[11],关于韩国科学技术信息研究院的国家科学领袖发现系统NDSL的讨论[12]等。2009年美国建成国家技术报告图书馆NTRL,收录了200多万篇科技报告,其中通过OSTI资源获取DOE研发成果的交易量迅速增加,2014年达到3.8亿次[13]。

国内关于科技报告的研究,除了对国外科技报告发展进行介绍外,主要集中在科技报告的体制建设和科技报告的质量监控两个方面。科技报告的体制建设主要是探讨科技报告的标准体系建设和运行机制。邹大挺等[14]研究了中国科技报告体系的发展策略、管理体系、法规制度体系和标准体系;周杰[15]研究了科技报告资源的形成机制,从5个维度诠释了科技报告资源的价值构成;贺德方等[16]提出了我国科技报告制度建设的政策依据,设计了我国科技报告体系和共享服务模式,并制定了我国科技报告工作的实践指南;刘西怀等[17]分析了科技报告制度中国家、项目承担单位及主要负责人三方权利义务及知识产权权属问题,对科技报告的质量监控主要是依据科技报告特征和要素来评价其质量,并提出一些对策与建议。裴雷等[18]提出了科技报告质量评价指标体系的设计原则、方法、描述框架、参考体系和发展完善的对策建议。朱丽波等[19]综合运用头脑风暴等多种方法分析了科技报告的质量影响因素,构建了基于加权的科技报告评价指标递阶层级结构。乔振等[20]从科技报告质量控制与评价标准、评价指标体系、控制与评价方法3个方面对山东省科技计划科技报告进行了评价和问题分析。此外,在科技报告的使用方面,夏立新等[21]提出基于关联数据的科技报告语义组织与共享框架以解决科技报告服务系统不能提供关联服务的问题,但此类研究极少。

纵观国内外对科技报告的研究和实践,整体上都一致认为科技报告是科技创新的财富和基石,相关研究和应用多集中在科技报告的编制、组织、存储、管理、共享和评价等方面,但如何让累积的科技报告通过语义关联进行组织和服务却仍是一个崭新的命题。而BIBFRAME书目框架能够对书目数据进行规范描述和关联数据化,有助于书目信息在互联网中进行更广泛的交流共享并实现其价值。所以,本文从构建科技报告语义关联的角度出发,在BIBFRAME框架的规范下构建科技报告关联数据,希望在科技报告的语义关联基础上探讨科技报告的价值实现和服务应用。

3 利用BIBFRAME实现科技报告的开放互联

孤立的科技报告在封闭的系统中只能提供碎片化的科技知识,难以支持科技创新的发展需要,只有基于大量科技报告的关联甚至与其他数据的开放关联,才能够为科技创新提供多维度的知识服务。为此,本文将在分析科技报告核心内涵及目前科技报告服务系统存在问题的基础上来阐述科技报告的开放互联的发展需要,并结合BIBFRAME的特点探讨如何通过BIBFRAME框架实现科技报告的开放互联。

3.1 科技报告的开放互联发展需要

科技报告是以积累、传播和交流为目的,并且按照规定格式编写而成,着重反映了科技项目的研制、设计、实验和生产过程中的进展,以及研究的主要内容和结果,对后续科研活动具有较高的参考价值[22]。因此,科技报告反映了科技知识的多样性,在科技创新中具有独特的地位。而常见的科技报告管理和服务系统主要向用户提供导航和检索服务,但这两类服务存在一些问题。以国家科技报告服务系统网站为例,该网站导航部分主要采用树状结构组织科技报告,为用户提供项目来源、学科、地域和科技报告类型几类导航形式。但这种方式不能突出报告主题,数据之间缺乏关联,用户很难在简单的列表结构中快速定位目标资源。而在检索上采用半开放式,需要登录账号后才能进行关于题名、作者和项目名称等选项的组合检索,而检索结果仅列出科技报告描述数据中出现该词的报告,无法反映与之关联的内容。

但是,单一的科技报告所能反映的知识很有限,所以,有必要对科技报告数据进行关联,以实现各类科技报告以及科技报告内元数据的关联和合理组织,支持其更好地开放利用。

因此,有必要对科技报告数据进行关联,以实现各类科技报告及科技报告内元数据的关联和合理组织,支持其更好地开放利用。对科技报告的组织不应该是孤立数据的汇集或者简单的罗列,也不是以项目类型、报告类型和不同地域而分割的数据集合,而应该从广度和深度上通过语义关联解决其描述和组织的问题。从深度上,通过规范化的语义形式描述科技报告的内容特征;从广度上,联结所有存在相关关系的科技报告个体。最后形成科技报告的语义关联网络,并在此基础上构建科技报告的开放应用服务,帮助用户更深入地获取相关联的科技报告及科技知识。

3.2 BIBFRAME实现科技报告开放互联的优势

BIBFRAME书目框架计划是由美国国会图书馆于2011年提出的面向网络书目数据交换与共享的框架[23]。BIBFRAME继承了FRBR的概念思想,通过抽象概念层级和关联数据模型构建书目数据的描述关系,用以解决书目信息在网络环境中的交流和共享问题,其数据格式比MARC等元数据标准适应开放的网络环境,同时比RDA简单实用[24]。上海图书馆曾将家谱数据库发布为BIBFRAME形式的关联数据,并在该基础上创建了家谱关联数据服务平台[25],帮助用户从家谱的历史关联中发现有趣的新知。所以,从BIBFRAME的设计理念和实践应用中可以看出,BIBFRAME书目框架对书目数据的组织管理及开放共享有一定优势,有助于实现对科技报告这一特殊馆藏的高效组织和利用。

首先,BIBFRAME帮助科技报告实现在全网中的开放。BIBFRAME通过为科技报告数据的实体赋予唯一URI(Uniform Resource Identifier),来实现科技报告描述信息在全球范围内的定位和公开访问,突破了封闭馆藏的局限,使科技报告数据能够与其他网络资源信息交互,实现数据和服务的开放共享,促进科技报告的价值发挥。

其次,BIBFRAME简化对科技报告的统一管理。一方面,BIBFRAME对科技报告数据各类实体的URI描述,使得数据录入的共享程度上升到细粒度级别,在呈缴阶段录入的信息可以通过共享而允许不同管理和收藏机构进行参引。另一方面,BIBFRAME对作品(Work)——实例(Instance)——单件(Item)的抽象概念设计,是一种从抽象到具体的层级关系,有助于构建不同类型和不同机构收藏下科技报告的相互关系及统一管理。

最后,BIBFRAME帮助科技报告实现语义关联。在互联网中,事物间的关联能够有效解决信息孤岛问题,同时还能对原有信息进行拓展延伸,触发新知。BIBFRAME框架面向未来的语义互联网,以关联数据为基础,能够将科技报告数据拆分为RDF三元组并通过URI标识,使之成为相互关联的细粒度语义单元,使科技报告数据具有语义表达、自关联及与其他网络资源关联的能力。

因此,鉴于科技报告自身需要向开放互联发展,以及BIBFRAME在资源的组织和管理、开放和关联方面的优势,本研究尝试通过借助BIBFRAME书目框架对科技报告进行语义关联构建和语义服务探究,以弥补当前科技报告服务中存在的问题。

4 基于BIBFRAME的科技报告语义关联与服务方案

通过BIBFRAME书目框架对科技报告数据进行组织,可以从底层帮助解决科技报告目前存在的开放、管理及关联方面的不足,帮助科技报告在顶层实现单一封闭系统的突破和开放,从冗余管理走向多层级的共享管理模式,以及以文献单元为中心的列表服务转向以知识主题为中心的多元关联服务。基于这些优势,本文将给出基于BIBFRAME的科技报告语义关联与服务框架,并详细描述科技报告的语义关联化实现过程及其语义服务内容。

4.1 基于BIBFRAME的科技报告语义关联与服务框架

基于BIBFRAME的科技报告语义关联与服务框架,旨在从实践设计角度规划和探究科技报告的关联构建与服务形式。如图1所示,主要由两大部分构成,一是通过BIBFRAME实现科技报告的关联数据化,通过BIBFRAME中关于数目数据描述的类、属性和类型等规则与科技报告元数据进行映射,以实现对科技报告的语义描述,然后通过关联数据创建方法和工具形成科技报告关联数据项实现科技报告的语义组织;二是在科技报告关联数据的基础上进行语义服务,借鉴BIBFRAME框架对书目数据组织和管理的先天优势上,实现科技报告的多源聚合、可视化浏览、语义检索和数据管理与共享等服务。

图1 基于BIBFRAME的科技报告语义关联与服务框架

4.2 应用BIBFRAME框架实现科技报告的关联数据化

根据图1基于BIBFRAME的科技报告语义关联与服务框架的规划,要实现科技报告的语义服务,首先需要在描述和组织层面解决科技报告的关联数据化问题。借助BIBFRAME框架实现科技报告元数据的语义映射,基于该映射关系可以将科技报告书目数据通过关联数据构建方法转换为RDF文档形式,实现书目数据的RDF化过程,从而为后续的语义化应用服务打好基础。

4.2.1 语义描述

对科技报告进行语义描述实质上是对其元数据进行规范化描述,使之在统一描述下能够与更广泛的数据集对接。BIBFRAME是一种国际认可的通用书目框架,通过BIBFRAME描述科技报告元数据,有助于将来在互联网中实现科技报告与其他数据的关联。国家标准《科技报告元数据规范(GB/T 30535-2014)》[26]中规定了科技报告元数据规范的元素集,并详细定义了元素及其修饰词。科技报告作为一种科学文献,其大部分元数据与书目元数据相似,如标题、作者、关键词、摘要等,可以通过BIBFRAME中的类和属性来描述,仅有极少数的元数据需要借用其他元数据标准,如科技报告对其保密级别进行了设置,用“科技报告密级”标识,而BIBFRAME中没有涉及保密性的类或属性,所以借用DC中的“获取权限”进行描述。本文将科技报告核心元数据与BIBFRAME书目框架词汇进行映射,具体如表1所示。

BIBFRAME书目框架模型命名空间是http://bibframe.org/vocab/,前缀为bf,内含丰富的语义词汇,能够较好地表述科技报告元数据的语义信息。表1中左边为科技报告核心元数据的标签和名称,右边为与技报告元数据对应的BIBFRAME2.0词汇中的类和属性。例如,科技报告元数据URI表示对科技报告存储位置的唯一定位,与bf:Identifier类形成映射关系;作者(author)与类bf:Person对应,具体和属性bf:contributor成映射关系。映射关系表中还对一些类型相同而语义不同的元数据进行了区分,如科技报告元数据中有提交日期和馆藏日期,提交日期是科技报告形成单位提交并经过审核的日期,而馆藏日期是科技报告收藏机构对该报告的收藏时间,所以选用bf:creationDate描述科技报告的提交日期,而用bf:copyrightDate用以描述科技报告的馆藏时间。此外,对于科技报告密级元数据,因BIBFRAME中无该描述项,故本文采用DC元数据标准中的dc:accessRights进行描述。

4.2.2 语义组织

科技报告元数据与BIBFRAME2.0词汇的语义映射使得科技报告元数据通过规范的BIBFRAME类和属性构建起了关联关系。本文在此基础上将科技报告元数据按照归属划分为科技报告、作者、科研项目、馆藏四个实体类型,通过这种细分使得科技报告元数据结构关系更加明确,增强了语义关系。采用BIBFRAME类构建起的各实体之间的关系如图2所示,科技报告实体包含题名、关键词和摘要等属性,通过类关系bf:Contribution、bf:Production和bf:Agent分别与作者、科研项目和馆藏相关联。实体关联和属性关联从底层构建起多层次与多类型的关联形式,为语义服务的实现提供坚实的支撑。

图2 科技报告实体类关系

在BIBFRAME书目框架的规范约束下,科技报告各类元数据之间构成的类关系和属性关系有助于更好地整合资源,实现科技报告在网络中的交流和共享。同时也为科技报告关联数据的创建做好了前期设计,使得科技报告能够从丰富的语义关系中进行关联和融合。本文以部分科技报告实际描述数据为例来说明科技报告关联数据的创建工作,具体步骤如下:

(1)抓取数据。通过网络爬虫工具火车采集器9.2抓取国家科技报告服务系统中的数据,将其以规范的形式保存在Mysql数据库中。

(2)部署D2R运行环境。安装Java-JDK1.7、Mysq15.6和D2R0.7工具,并将Mysql的jar文件放在D2R Server的lib目录下面,使D2R Server能够访问关系型数据库Mysql。

(3)生成和修改映射文件。在D2R所在路径下执行命令:

generate-Mapping-O techreport.n3-d com.mysql.jdbc.Driver-u root-p root

由此生成了techreport.n3映射文件,该文件采用D2RQ Mapping语言,D2R根据科技报告数据库中各个表的主外键关系,自动为其创建RDF关联。但若要与BIBFRAME的类和属性构建映射关系,需要对Mapping文件techreport.n3进行修改,图3以“author”为例进行了说明。

图3中,@prefix行表示互联网中的关联数据命名空间,所以有BIBFRAME和DC命名空间。类的映射中,以作者实体为例,主要添加“d2rq:class bf:Agent”,用以表明“author”和BIBFRAME中的“Agent”类进行映射;而在属性的映射中,“author-name”与BIBFRAME的“Agent”类中的“contributor”相对应,所以需要添加“d2rq:property bf:contributor”予以说明。其他类和属性的映射与此相似。

图3 映射文件修改示例

(4)启动关联映射服务。修改好映射文件后,执行命令:d2r-server techreport.n3,启动D2R Server。之后便可以在浏览器中查阅科技报告、作者、项目和馆藏等信息的关联数据,通过SPARQL语句进行关联查询,以及下载科技报告关联数据的RDF文档。某科技报告RDF文档的核心部分如图4所示。

图4中是以RDF/XML格式编码的一条科技报告记录,该记录中用BIBFRAME框架描述了科技报告的URI、题名(bf:title)、关键词(bf:subject)、摘要(bf:summary)、作者(bf:contributor)、馆藏编号(bf:shelfMark)和密级(dc:accessRights)等信息。形成的科技报告RDF/XML数据可以作为数据源应用于具体的科技报告应用服务的开发中。

图4 以BIBFRAME格式描述的科技报告RDF文档示例

基于上述对科技报告展开的语义描述和语义组织的关联数据化过程,构建了科技报告描述数据之间以及科技报告之间的关联关系。BIBFRAME对科技报告的关联数据化不仅可以增强科技报告自身的组织管理和语义服务,同时也有利于同外界资源构建关联而提供更广泛的服务。

4.3 基于BIBFRAME的科技报告语义服务

科技报告关联数据化的目的不仅仅是将科技报告描述信息改造为基于网络的关联数据,它还为进一步优化科技报告的管理与服务提供支撑。本文结合科技报告现存发展瓶颈与BIBFRAME框架的特点,并根据语义服务的层次和深度,认为通过BIBFRAME构建的科技报告关联数据主要在多源聚合、可视化浏览、语义检索和数据管理与共享四个方面提供服务。

4.3.1 多源聚合

科技研发中会产出不同形式的成果,如专著、论文和专利文档等多种类型的科技成果文献。不同类型的科技文献对科研过程描述的侧重点不同,比如,科技报告侧重于科研的全过程描述,专利文档主要介绍有关发明创造的详细技术说明,而期刊论文多从问题解决角度进行阐述。若通过BIBFRAME框架对各种类型的科技文献进行语义描述和组织,有助于所有科技文献经BIBFRAME而构建形成语义联系,使得科技报告及其他科技类资源进入一种“大图书馆”环境[27],帮助实现资源的“一站式”发现及知识结构的整合互补,打破封闭馆藏与外界的藩篱,以更加开放和共享的形式融入互联网。通过BIBFRAME统一描述框架,科技报告的价值体现将由文献单元转向知识单元,馆藏的服务被延伸至更广阔的虚拟知识空间。

4.3.2 可视化浏览

将科技报告资源等以可视化的形式展现,有助于将数据中的复杂信息一目了然地展示出来,并加强用户对具有相似语义的数据的理解。例如,通过BIBFRAME对科技报告语义化而形成的RDF结构关系的可视化,有助于揭示资源对象和内部知识单元之间的关系并发现隐含知识;借助SPARQL查询和结果可视化,可以帮助识别核心科研人员及相互之间的关系;在时空维度展现科技报告的分布情况,有助于发现区域科技发展态势。

4.3.3 语义检索

传统科技报告的管理模式下进行主题检索,得到的结果仅仅是包含主题词的孤立科技报告。而在科技报告通过BIBFRAME语义化后进行检索,能获取丰富且关联的科技报告数据,不仅有类型密切相关的科技报告,还有属性相关的结果呈现。此外,未来在合适的条件下实现科技报告关联数据的开放后,通过全网检索的实现可以打破用户只能通过导航浏览及在封闭式系统查找数据的局限。在获取的质量上,通过BIBFRAME框架对科技报告数据的规范描述,使机器能够理解科技报告的语义和关联,从而优化了检索结果。在获取内容的范围上,检索结果以多维度、多视角的形式展现在用户面前,有益于用户从广度和深度加强科技知识的理解。

4.3.4 数据管理与共享

书目框架BIBFRAME的核心数据模型“作品一实例—单件”之间的实体关系是1∶n∶n的关系,其中,作品反映书目数据抽象概念中的实质资源,实例可反映作品的物理载体表现个例,单件代表馆藏中的单一个体。此类编目结构有助于对同一资源的不同载体类型进行统一规范化管理,也有助于所有收藏机构通过链接引用已有科技报告的描述信息,以减少信息的冗余。同时,这种对科技报告数据的分层管理形式,也与用户对某类资源的不同需求和行为相一致。用户会根据自己的需要,在某一收藏机构选择所需类型的资源进行阅读。由此,通过BIBFRAME核心数据模型形成了一种对资源、机构和用户的统一管理和服务模式。本研究在BIBFRAME的核心数据模型指引下构建了科技报告层级书目结构模型,见图5。

图5 科技报告层级书目结构模型

某科技报告撰写完成后形成“作品”,包含科技报告的基本描述,如报告编号、题目、关键词等。而该科技报告对应不同载体形式,如电子版、纸质版等,可以看成是不同的“实例”,与作品描述的主要区别是版本与提交时间等的不同。所以构成了从“作品”到“实例”1∶n的关系。而科技报告有不同的收录机构,如国外科技报告收藏机构、国内不同级别、部门、地区的科技报告服务系统等,某具体的馆藏中某类“实例”的单一样本便是“单件”,附有该报告的入馆信息,如馆藏机构、馆藏编号等。因此构成了“作品—实例—单件”之间1∶n∶n的关系。现实中,科技报告的物理载体有多种形态,收藏机构也不止一个,还存在同一馆藏多个复本的情况,而用户可以根据自己的需求选择和使用合适的数据。因此,BIBFRAME框架通过对书目数据的分级控制,有利于科技报告描述信息的复用和交换,并简化和统一了对科技报告、机构和用户的管理与服务方式。

5 科技报告的语义化服务实例

本文在上述基于BIBFRAME框架的科技报告关联数据构建方案基础上,希望通过对实例数据的操作来说明科技报告关联数据的语义化服务优势。研究中,在国家科技报告服务系统总以“题名”检索方式检索“物联网”,得到82条科技报告描述数据,并通过爬虫软件抓取到本地;然后构建了科技报告关联数据并形成RDF/XML格式数据;最后通过科技报告之间的语义关系,以网页的形式展现可视化导航和检索效果。图6和图7分别是关于“物联网”的科技报告语义可视化导航及某篇科技报告的详情页。

图6 科技报告语义可视化导航

图6呈现的结果是建立在各科技报告描述数据关联的基础之上。借助BIBFRAME框架形成了科技报告之间的联结,同时也间接形成了与各描述元素之间的关联,通过这种语义关系可以形成更丰富的导航效果。一方面,每篇科技报告都有馆藏机构的创建时间,以及科技报告作者的单位属性,而作者单位唯一对应一个地理位置,所以抽取科技报告与其创建时间、作者单位属性三者之间的关联关系,可以构建出科技报告的时空关系,即从时间和空间两个维度组合定位科技报告,以此呈现科技报告的时空变化。另一方面,科技报告关键词之间的语义联系有助于精细化描述不同报告的主题特征及其关系。关键词的出现次数以及关键词之间的间接链接关系的强弱反映了不同主题之间的联系,抽取这种关系有助于揭示科技报告之间隐含的更为细化的主题联系。

对“物联网”的可视化导航具体如图6所示。网页左边是对该主题科技报告的时空可视化展示,可以通过时间轴和地图的操作动态反映科技报告的时空分布。从图中可以看到在所有时间范围内,与“物联网”主题相关的科技报告在全国地图分布情况。其中,绝大部研究分布在沿海地区及个别省会城市,而西部地区关于物联网的研究相对较少,这一结果在一定程度上表明物联网技术在沿海地区及大都市的研究应用比较广泛,而在西部地区应用较少。所以,对科技报告的时空可视化分布有助于公众和研究人员了解某项科学技术在全国的应用概况,从而了解具体区域的科技发展水平。

网页右半部分是关于“物联网”的主题关联关系栏及科技报告简要列表。主题关联关系反映了与“物联网”最相关的其他主题,连线的粗细代表两个主题通过链接关系共同出现的次数多少,所以,“物联网”与“网络体系结构”、“数据交换”和“碳平衡”等主题的关系比较密切,是研究者关注较多的领域。通过主题关系,用户可以了解“物联网”相关报告的核心主题全貌,还可以根据主题分布与主题关系对科技报告进行筛选,找到自己所需的报告。从右下方报告列表中的某一具体科技报告链接可以进入对该科技报告更详细的描述页面,如图7所示。

图7 科技报告详情页

与图6相似,图7呈现的结果建立于科技报告、科研项目、作者、作者单位等的关系之上,从科技报告关联数据中抽取这类关系有助于向用户呈现和推荐相关科技报告及资源。例如,通过某科技报告的项目、作者、馆藏可以向用户推荐同一项目、相同作者、相同作者机构、机构所在同一地区及同一馆藏的其他相同主题的科技报告。所以,通过科技报告关联数据中不同实体及实体属性的关联关系,有助于构建形成一个语义丰富的科技报告展示页面,甚至根据用户浏览偏好进行个性化资源推荐。

科技报告详情页右半部分是该科技报告的具体描述,内容与国家科技报告服务系统一致,但左边栏目是与该科技报告关联的其他科技报告的情况。例如,《物联网体系结构基础研究》同一项目中的其他报告,其作者“马华东”教授参与完成的其他报告,所属机构“北京邮电大学”关于“物联网”的其他研究报告,以及同一城市“北京”关于该主题的科技报告等,而用户也可进一步点击链接了解这些相关类型报告的具体信息。对科技报告的相关报告展示,丰富了科技报告的服务内容,有助于用户从不同角度对相关的科技报告进行主题阅读。由此可见,在BIBFRAME框架下构建的科技报告关联数据,能够从不同角度的关联中有效增强科技报告的展示效果和语义服务能力。

6 结语

科技报告是重要的科研产出成果,对科技报告的开发利用有利于为国家的科技创新发展战略提供智力支持。但科技报告建设目前面临的开放、管理及关联等问题会阻碍科技报告的价值利用。所以,本文尝试运用语义关联的思想探讨这些问题的解决方案。本研究借助BIBFRAME书目框架在开放共享、书目组织与管理、语义关联等方面的优势,构建了基于BIBFRAME的科技报告语义关联与服务框架。在语义描述上,构建了科技报告与BIBFRAME的映射关系;在语义组织上,描述了科技报告细分实体之间的BIBFRAME类关系,并探讨了科技报告关联数据的创建流程;在语义服务上,从多源聚合、可视化浏览、语义检索和数据管理与共享四个方面对科技报告的服务策略进行了探讨。最后,选取了部分科技报数据实例,从可视化导航和相关报告展示两个方面探讨了基于BIBFRAME框架的科技报告关联数据的应用效果。研究结果表明,通过BIBFRAME框架对科技报告的关联数据化,有利于从底层解决科技报告目前存在的三个问题,有益于科技报告实现由单一的文献单元服务向互联网环境下知识单元关联的多元服务拓展,最终服务于科技研究工作,促进科技的创新和发展。当然,科技报告的数据融合与语义服务是一个复杂的工程,本文虽然着重探讨了科技报告自身关联的语义服务,但对科技报告与其他开放数据的关联融合的语义服务研究将是本文继续努力的方向。

参考文献:

[1]何青芳,陆琪青.中外科技报告的检索方法与获取途径[J].现代情报,2005,25(9):116-118.

[2]王维亮.美国政府四大科技报告实用指南[M].北京:中国宇航出版社,2011:324-334.

[3]侯人华,刘春燕,杜薇薇.科技报告制度体系与形成模式研究[J].情报理论与实践,2014,37(1):51-54.

[4]中国科学技术信息研究所.国家科技报告服务系统[EB/OL].[207-01-10].http://www.nstrs.cn.

[5]国务院.国家创新驱动发展战略纲要[EB/OL].[2017-01-10].http://www.gov.cn/gon-gbao/content/2016/content_5076961.htm.

[6]Eighteenth International Conference on Grey Literature.Leveraging diversity in grey literature[EB/OL].[2017-01-10].http://www.textrelease.com/g118callforposters.html.

[7]ISO 5966-1982.Documentation-Presentation of scientific and technical reports[S/OL].[2017-01-10].

http://www.iso.org/iso/catalogue_detail.htm?csnumber=12160.

[8]ANSI/NISO Z39.18-2005.Scientific and technical reports-preparation,presentation and preservation[S/OL].[2017-01-10].

http://www.niso.org/standards/z39-18-2005/.

[9]ANSI/NISO Z39.23-1997(R2015).Standard technical report number format and creation[S/OL].[2017-01-10].http://www.niso.org/apps/group_public/project/details.php?project_id= 125.

[10]Nelson M L,Calhoun J A R,Mackey C E.The OAI-PMH NASA technical report server[C]//Proceedings of the 4th ACM/IEEECS Joint Conference on Digital Libraries.New York:ACM Press,2004:400.

[11]Oxnam M.A multi-institutional approach to technical report literature:development of the technical report archive & image library(TRAIL)[J].The Grey Journal,2010,6(1):5-8.

[12]Lee S H,Kim S Y,You B J,et al.Acquisition and distribution of technical reports and conference proceedings on science and technology in Korea[J].The Grey Journal,2012,8(3):173-179.

[13]OSTI.Accelerating Access[EB/OL].[2017-01-10].http://www.osti.gov/about/infoaccess.html.

[14]邹大挺,沈玉兰,张爱霞.关于建设中国科技报告体系的思考[J].情报学报,2005,24(2):131-135.

[15]周杰.科技报告资源的构成及产生机理研究[J].情报学报,2013,32(5):466-471.

[16]贺德方,曾建勋.科技报告体系构建研究[M].北京:科学技术文献出版社,2014.

[17]刘西怀,潘方方.国家科技报告制度中的知识产权权属分析[J].创新科技,2016(7):4-7.

[18]裴雷,孙建军.中国科技报告质量评价体系与推进策略[J].情报学报,2014,33(8):813-823.

[19]朱丽波,裴雷,孙建军.科技报告质量评价指标体系研究[J].图书情报工作,2015,59(23):80-84.

[20]乔振,高巍,吴艳艳.国内科技报告质量控制与评价研究——以山东省科技计划科技报告为例[J].现代情报,2016,36(4):124-127.

[21]夏立新,李成龙.基于关联数据的科技报告语义共享框架设计与实现[J].数字图书馆论坛,2015(9):2-9.

[22]贺德方.科技报告资源体系研究[J].信息资源管理学报,2013(1):4-9,31.

[23]Library of Congress.BIBFRAME AV Assessment:Technical,structural and preservation metadata[EB/OL].[2017-01-10].https://www.loc.gov/bibframe/docs/pdf/bf-avtechstudy-01-04-2016.pdf.

[24]傅西平,孙更新.RDA的普及难度及发展趋势——以斯坦福大学图书馆RDA测试为例[J].情报杂志,2013(8):132-135.

[25]夏翠娟,刘炜,陈涛,等.家谱关联数据服务平台的开发实践[J].中国图书馆学报,2016,42(3):27-38.

[26]GB/T 30535-2014科技报告元数据规范[S].北京:中国标准出版社,2014.

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();