服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

“王者”是如何诞生的?

日期: 来源:中科院高能所收集编辑:中科院高能所

如果你与高能物理研究沾点边,就一定知道INSPIRE——那个历史悠久、颇有名气的文献信息开放获取平台。它是一个文摘型的索引库,不仅集结并管理了海量的粒子物理等领域的论文及引用数据资源,还贴心地列出了论文作者的单位、参与实验的机构及合作组、相关实验、相关期刊、相关会议的信息,甚至包括了职位和博士后的招聘等,总之你想了解的应有尽有,令人更惊喜的是它还具备了分析与统计信息数据的强大功能。

为何INSPIRE能被高能物理领域研究者们高度认可和信赖?它是怎样建立的?在好奇心的驱使下仔细追溯了INSPIRE的发展历程,发现它竟然有那样不凡的身世( I. 原来它有那样不凡的身世),有那么多动人的故事。最初的探索来自好几条初始脉络,来自一些具有惊人奉献精神的有识之士,随着科技的发展引出了多个有趣的发明( II. 发明的灵感来自烦恼?),它的功能越来越强大,最终强手联袂成就了一个硬核的“王者”INSPIRE

(INSPIRE几十年发展历程中的故事分为三个部分介绍)

III. “王者”是如何诞生的?

除了SLAC与DESY共同运行的SPIRES-HEP数据库,别忘了从20世纪50年代中期最早开始进行预印本资料收集、分类收藏及交换服务的CERN,它在这方面一直有着出类拔萃的表现。

1993年末,CERN发挥自己的Web优势,在多年来积累资料的基础上正式启动了基于Web的预印本服务器,那里存储了CERN所有的预印本系列以及CERN图书馆从全世界收集到的与高能物理相关的研究论文扫描件。该预印本服务器1996年成为CERN的高能物理网络图书馆(Weblib),用户可通过网络访问Weblib中的期刊、书籍,以及CERN图书馆中保存的大部分资料。

20世纪90年代末,CERN将Weblib发展成为具有双重作用且性能更多更强的文档服务器CDS(CERN Document Server)。CDS作为机构的大型资料库,可存档和传播CERN在实验和理论物理、加速器和信息技术领域的相关资料及成果(包括论文、预印本、会议报告、会议记录、CERN的年报、公报、CERN图书馆的馆藏书籍、期刊及各类标准,还有相关的照片、海报、小册子、视频等多媒体文件甚至还包括了CERN各类行政文件)。另一方面,CDS可扩展成为能大范围提供高能物理领域信息的网关,索引该领域主要期刊的内容并从许多其它预印本服务器获取全文(大部分来自arXiv),CDS还为用户提供了采集、搜索资料以及使用辅助工具对文档进行管理的便利。

2002年,CERN又在CDS文档管理应用程序的基础上开发出一款新的应用程序CDSware,可帮助分布在世界各地的用户根据自己的需求来获取文件、进行分类,然后自动形成索引,构建出完全个性化的数字图书馆。2006年,该应用程序更名为CDS Invenio,管理的高能物理资料数量超过120万条。

CERN的文档服务器CDS(图片来自网络)

“巨头”间达成共识

CDS Invenio与SPIRES-HEP发展成为高能物理领域信息系统的两大“巨头”,他们之间一直有着多方面的合作。大型国际合作计划,由30多个国家两千多位物理学者所属大学与实验室所共同出资合作在CERN建设的世界上最大、能量最高的粒子加速器——大型强子对撞机LHC已接近完工。可以预见,高能物理研究即将迎来一个重要的发展里程碑,在这样的形势下,两大巨头都认识到他们面临了共同问题:未来应该如何发展

CERN与SLAC、DESY、FNAL(美国费米国家实验室21世纪初加入了SPIRES-HEP)开始共同分析高能物理领域信息系统的现状,为了更好地了解用户对已有信息系统的使用情况以及对未来的展望,他们决定通过网络对2万余名活跃的高能物理学者(包括主要实验的成员与合作者、主要实验室的用户以及本领域主要期刊的作者等)进行一项匿名在线调查。此项调查的内容较丰富,如:用户所属国家、专业范围、从业时间、使用搜索引擎的频率、使用最多的信息系统(范围包括了ADS(天文物理数据系统)、arXiv、CDS、SPIRES、Google及其它商业系统等)、搜索选取的重要特征、对现有功能的偏好、期望拥有的功能等等。该调查历时6周(2007年4月30日至6月11日),最终收集到2115份回复答卷,约占相关群体人数的10%,参与率相当高。

调查结果图例:用户检索论文最常用的信息系统的分布(图片来自网络)

调查结果图例:用户按期待的信息系统特性按重要性排序(图片来自网络)

调查结果说明:几十年来,CERN与SLAC、DESY、FNAL在开发、维护、普及信息系统方面的努力卓有成效,SPIRES-HEP与CDS Invenio都为高能物理学者们提供了高效的信息资源,获得了压倒性的用户忠诚度。该调查结果也使两大巨头认识到:现有的两大信息系统虽然各有优势,但并不能完全满足日益增长的高能物理研究发展的信息需求,急切需要通过更紧密的合作,建立一个功能更加强大并能由用户主导的新一代信息系统,使用户可通过先进的信息系统进一步发掘能力提高科学研究效率。为此,他们先进行了一些可行性研究,例如尝试在CDS Invenio中复制SPIRES-HEP的内容和功能等,初步的探索获得了成功。

2008年5月20-21日在德国汉堡举行的第二届粒子物理和天体物理信息专家年度峰会上,CERN与SLAC、DESY、FNAL四个实验室的代表共同宣布:他们将合作创建一个新一代的高能物理信息系统,为全世界的物理学者们提供一个功能更强的工具。“INSPIRE”的名称来自SPIRES-HEP中的“SPIRE”,并在前面加上了来自Invenio中的“IN”,强调了两者的合作。

基于SPIRES-HEP与CDS Invenio的INSPIRE(图片来自网络)

INSPIRE的目标是将SLAC、DESY、FNAL管理维护的SPIRES-HEP数据库内容及功能与CERN的CDS数据库内容及CERN开发的开源数字图书馆技术CDS Invenio融合在一起,并为高能物理领域的研究者提供相关文献的获取以及类似于Google搜索引擎的全文检索功能。预计INSPIRE也将为与其它相关学科和与相关出版商的合作带来全新的体验,创造更多的合作机会。参加此次峰会的一些长期紧密合作(相互引用链接)的信息提供机构(包括发布高能物理文章的中心网站arXiv、天体物理学数据系统ADS的代表以及一些主要的合作出版商等)均对INSPIRE这个项目表示了大力支持和期待。

硬核“王者”的诞生的

构建INSPIRE并非是SPIRES-HEP与CDS数据库的简单合并,而是一个需要先进技术支持的、内容繁杂且工作量极大的融合发展过程。INSPIRE合作组经过深入探讨后决定:要在保留用户已经熟悉的SPIRES-HEP特性、界面和语法的基础上确保原有SPIRES-HEP和CDS数据库内容的高质量输入,合作组的工作重点将放在“创新”上,要将CDS Invenio的软件技术用于能对所有内容进行搜索及显示,通过创建更多新的CDS Invenio模块赋予INSPIRE更多新的功能。以上这些艰巨的工作还必须要在不给原有用户造成任何干扰的情况下完成。

将SPIRES-HEP与CDS数据库的海量数据全部输入INSPIRE是一项极为艰巨的任务,所有数据在被接受之前都需要经过初步处理,包括对输入数据的清理、补充完善及规范化等,这个的处理过程需要通过人工处理或专用的数据处理工具进行。CDS Invenio的可扩展性在INSPIRE项目中充分发挥了作用。INSPIRE合作组开发出一套功能强大的后台数据处理工具,在提高原始数据质量的同时,尽可能多地利用数据处理工具以减轻人工处理的负担,并尽力构建更好的合作环境条件,使合作组成员的四个图书馆合理分担数据输入和验证的工作量,避免不必要的重复或无意义的步骤,便于更快、更准确地完成数据库内容的输入。

INSPIRE为用户提供了支持SPIRES-HEP和“类似Google”的搜索语法,大大增强了用户的接受度。专为快速访问而开发的索引功能可使用户在存储量超过100万条记录的大型存储库中进行的查询时绝大多数都可在毫秒时间之内获得结果。INSPIRE为用户提供的搜索界面简洁而功能强大,搜索的结果可根据用户的需求按不同标准排序,并可提供数种显示及输出的格式。同时,用户还可方便地对自己提交的论文随时进行补充、修改、更新。INSPIRE的通用界面可提供20种语言站点,大多数用户可选择到自己熟悉的语言系统。

在试运行数个测试版本之后,INSPIRE于2011年10月开始正式取代SPIRES-HEP,由CERN、SLAC、DESY、FNAL共同维护。INSPIRE不负众望,作为科研成果与数据分析交互的综合型学术资源平台,它涵盖了arXiv、NASA-ADS、PDG、HEPData等各重要数据库及相关出版商的优质资源,大型强子对撞机LHC的运行及实验记录也被收录在内。

INSPIRE为用户提供了多种检索途径和先进的数据分析功能,是国际高能物理领域极具影响力的学术信息交流平台。与其它世界著名的科技文献检索系统,如Google Scholar(Google学术搜索)、SCI(科学引文索引)、EI(工程索引)、ISTP(科技会议录索引)等相比,INSPIRE在高能物理领域更具有独特的优势,在该领域文献信息平台中已成为当之无愧的“王者”。

INSPIRE界面(图片来自网络)

猜到新成员是谁了么

探索微观世界最小构成单元及其相互作用规律的高能物理研究是国际上最前沿技术合作交流的一个重要窗口。近几十年来,中国的高能物理研究历经数次跨越式的发展已在国际高能物理领域有了重要的地位,中科院高能物理研究所(IHEP)成为世界领先的高能物理研究中心之一。INSPIRE文献信息平台也得到了中国高能物理学者的高度认可和信赖,成为研究工作中不可或缺的工具。

2014年5月,IHEP的代表应邀参加INSPIRE国际顾问委员会议,表达了IHEP参与INSPIRE合作的兴趣,介绍了近年来先期开展的一些富有成效的准备工作。INSPIRE国际顾问委员会成员讨论后一致同意吸收IHEP为合作伙伴。2014年6月11日,INSPIRE合作组正式宣布IHEP成为该项合作的第5个成员机构(也是首个亚洲成员),IHEP将与CERN、DESY、FNAL、SLAC共同致力于INSPIRE的建设,这成为INSPIRE发展历程中的又一个里程碑。

INSPIRE宣布IHEP成为该合作项目的第5个成员机构(图片来自网络)

IHEP加入INSPIRE合作后,承担具体运行维护及技术支持工作的是IHEP文献信息部团队(在为中国高能物理学者收集、管理和提供科学信息方面,他们多年来一直发挥着至关重要的作用)。

INSPIRE中存有大量与中国高能物理研究相关的信息,由于中国的论文作者姓名译为英文时会产生相当多的重名现象,造成中国作者与论文的对应时有混乱现象。为解决这个问题,IHEP文献信息部团队面临了很大挑战,他们要依据多年来积累的中国高能物理学者的资料,逐步对本研究所、中国区作者,乃至亚洲区以及全世界其它机构的华人物理学者的个人信息数据进行清理和更新,包括姓名的甄别、学术履历、学术贡献的确认、论文被引频次和下载量等(一些规模庞大的国际合作组论文列出的作者多达数百,其中凡是华人学者的姓名都需进行甄别)。这项复杂的工作绝大部分只能靠人工完成,更新后的资料还要逐个通知对应的华人学者审核认可。

在工作过程中IHEP文献信息部团队还陆续发现了一些新的更深层次的问题,例如一些华人学者的论文有未被INSPIRE收录或者被错误引用的现象,团队讨论、分析了问题产生的原因,总结出发现及解决此类问题的最佳方案,并及时将这类情况的统计分析结论向INSPIRE合作组进行了反馈。这些新发现的问题经修正后大大提高了INSPIRE中相关信息的准确性,也更好地反映了中国学者在INSPIRE的学术影响力。

IHEP加入INSPIRE合作后数次邀请INSPIRE成员机构专家到中国指导、培训。IHEP文献信息部团队还针对国内用户的需求开展了利用INSPIRE助力中国高能物理研究发展的研究,帮助中国用户充分利用INSPIRE功能建立有效信息间的关联,深入了解如何以更便捷的方式组织信息资源用于解决科研中的难点。IHEP文献信息部团队为INSPIRE在国内各相关研究机构及高校的应用与推广做了大量工作。

IHEP文献信息部团队成员参加INSPIRE国际顾问委员会视频会议(图片来自网络)

FNAL文献信息部Melissa Clegg女士访问IHEP作INSPIRE数据库使用专题报告(图片来自网络)

CERN科学信息中心Micha Moskovic博士访问IHEP并进行INSPIRE合作交流(图片来自网络)

IHEP文献信息部团队成员在中国物理学会高能物理分会介绍INSPIRE(图片来自网络)

* 法国国家核物理与粒子物理研究所(IN2P3)(法国国家科学研究中心(CNRS)的10个研究所之一,代表法国的20个实验室)从2016年起通过与CERN的双边合作协议参与了INSPIRE的活动。2019年7月,IN2P3正式签署了加入INSPIRE合作的协议,成为第6个成员机构。

全新改版升级

在几十年的发展历程中INSPIRE始终致力于履行以科研需求为核心的使命。为满足各类用户日益增长的需求,更好地体现用户个性化的特征以及促进、鼓励用户间的协作和信息共享,INSPIRE合作组决定在保留旧版本优点的基础上,以更先进、更稳定可靠且可扩展的技术框架结构进行全新升级。除原有的核心研究文献数据库之外,增设相互关联的多个数据库,包括:学术会议通知及会议内容、研究机构名称、研究者名单、相关实验装置及实验进展情况介绍(收录的形式包括了文字、照片、视频和演讲录音等)。

新版还引入了用户期待的一系列新功能,例如:为用户配置了先进的辅助服务工具,可帮助用户对论文的引用及被引用状况进行分析,自动生成论文的引文摘要(包括论文的作者、作者所在机构、论文发表年份等重要信息),新增了作者综述部分,列出作者工作、兼职的所有机构、论文的关键词、作者最密切的合作者、论文类型的分类(书籍、论文、会议报告、讲座等)、论文的引用及被引用状况等,综合展示用户个人的学术贡献、科研兴趣、学术成果及发展方向等信息。

升级后的测试版INSPIRE beta用一年时间进行各项功能的测试,陆续发布了文献、作者、研究内容及各类会议的检索模块,并根据用户反馈意见对各系统功能作了进一步完善和改进。2020年3月26日,新版INSPIRE用户界面取代旧版界面开始正式运行(此时用户仍可找到旧版界面进入,2021年6月28日旧版界面完全关闭)。

新版INSPIRE用户界面(图片来自网络)

结语

通过三个部分文稿的介绍,追溯了INSPIRE的发展历程,从20世纪中期起一些有识之士开始的初期探索,到SPIRES和HEP-Index联手创建SPIRES-HEP,再到与CDS Invenio联手发展为INSPIRE,成为世界上高能物理领域文献信息平台中当之无愧的“王者”

INSPIRE不凡的身世以及几十年中围绕它发生的那些使人憬然有悟的故事,不禁使人对那些为它的创建、发展作出重要贡献的人们油生敬佩,同时也想对那些为管理、维护此平台默默奉献多年心血的普通工作者致以崇高的敬意!世上本无天赐的“王者”,只是有人愿意为它负重前行。

衷心祝愿INSPIRE继续开拓创新,继续展现“王者”风范!!

参考资料:

1、The Story So Far

https://www.computerworld.com/article/2576978/the-story-so-far.html

2、View of First Monday Interviews: Louise Addis

https://firstmonday.org/ojs/index.php/fm/article/view/749/658

3、Communication Patterns in High-Energy Physics

http://eprints.rclis.org/4253/1/communication_patterns.pdf

4、Brief and Biased History of Preprint and Database Activities at the SLAC Library

https://www.slac.stanford.edu/spires/papers/history.html

5、Information Resources in High-Energy Physics: Surveying the Present Landscape and Charting the Future Course

https://onlinelibrary.wiley.com/doi/10.1002/asi.20944

6、Going global: the world the Web has wrought

https://physicsworld.com/a/going-global-the-world-the-web-has-wrought/

7、CERN Document Server Software: the integrated digital library

https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.121.2771&rep=rep1&type=pdf

8、Physicists Thriving with Paperless Publishing

https://core.ac.uk/download/pdf/11876491.pdf

9、INSPIRE: a new scientific information system for HEP

https://cdsweb.cern.ch/record/1181477/files/INSPIRE-a-new-scientific-information-system-for-HEP.pdf

10、IHEP joins INSPIRE

https://blog.inspirehep.net/2014/06/ihep-joins-inspire/

11、高能物理学术资源平台INSPIRE简介

http://www.ihep.cas.cn/xwdt/xshdyjl/2020/202003/P020200310319589068010.pdf

12、High-energy physics labs become INSPIREd

https://cerncourier.com/a/high-energy-physics-labs-become-inspired/

……

编辑:楚墨


相关阅读

  • 618思考:不是为了超越别人,而是满足用户

  • 文 | 无锈钵618,见证了中国消费升级的浪潮,也见证了无数品牌的辉煌与折戟。一个有趣的现象是,企业过分在意超越别人,反而效果不理想;而执着于实现用户价值的企业,却常常在无意中领
  • 必应为何能威胁百度?百度面临三大风险

  • 文/王新喜根据凤凰网报道,StatCounter的数据显示,在中国内地桌面搜索市场上,到2023年4月,微软必应的份额再次创出历史新高,达到了37.4%,取代百度成为中国第一大桌面搜索引擎。百度
  • GPT之于SaaS,不是奇点而是筛子

  • ChatGPT引发的生成式人工智能浪潮,正以惊人的速度席卷各个领域。传统软件行业,逐渐形成了一种共识,即GPT将给软件带来极大变化,甚至是一场革命。变化的影响初现端倪,尤其是在SaaS
  • 小程序微短剧,只是昙花一现?

  • 配图来自Canva可画近两年依靠互联网影视转型,慢慢趁势火出圈的当属微短剧项目了。据《经济日报》报道,2022年芒果TV单部微短剧播放量已超过6亿;快手的微短剧日活跃用户也增长到
  • 2023大湾区科学论坛

  • 2023年大湾区科学论坛定于5月20日—23日在广州南沙举行。本届论坛以“智汇湾区,湾和世界”为主题,将聚焦人工智能、纳米科技、高能物理、生物医药与健康、信息与通信、“一带
  • 几十块钱的Keep奖牌究竟值不值

  • 稳坐当代年轻人社交圈C位,还得是Keep奖牌。“Keep‘白雪公主’太美了,简直完美!冲冲冲!”“终于蹲到了Keep捕梦繁花,可太难了……”不知从何时起,当代年轻人在抖音、视频号、小红

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • “王者”是如何诞生的?

  • 如果你与高能物理研究沾点边,就一定知道INSPIRE——那个历史悠久、颇有名气的文献信息开放获取平台。它是一个文摘型的索引库,不仅集结并管理了海量的粒子物理等领域的论文及
  • “缘分天空”单身青年交友公益活动圆满举办

  • 2023年5月20日、21日,两场“缘分天空”单身青年交友公益活动在成都市妇女儿童中心圆满落幕,吸引了上百名来自各行各业的单身青年参加。第一场“以花为媒 好久玫见”的主题活动
  • 助人为乐,拾金不昧……唐嫦娥好事做了一箩筐

  • “每次经过店门口,她都会递上凳子让我坐,嘘寒问暖。得知我有哮喘,她还跑到楼下来接我,比亲闺女还贴心。”5月3日,在邵阳市大祥区太平巷临近中心路的嫦娥便利店门口,84岁的居民李德
  • 【龙城公安党旗红】柳州交警再次获奖了!

  • 近期,柳州市公安局交警支队在中共柳州市委组织部举办的柳州市党员教育“红耀龙城·聚力发展”优秀作品(课件)评选中,荣获“党课开讲啦”视频类优秀奖。为全面贯彻落实新时代党的
  • 永靖县:“八大支撑”精准发力谋发展

  • 日前,记者从永靖县获悉,自全省“三抓三促”行动开展以来,永靖县围绕主要发展目标,抓实抓细经济发展“八大支撑”,全力推动全县经济社会高质量发展。靶向发力推动营商环境“大优化