Scientific Data Management Based on a Data Life Cycle Perspective: Using the Institutional Repositories Base of 24 Universities in the United States as an Example

Keyi XIAO, Yingying CHEN

PDF(725 KB)
PDF(725 KB)
Journal of Library and Information Sciences in Agriculture ›› 2024, Vol. 36 ›› Issue (7) : 88-99. DOI: 10.13998/j.cnki.issn1002-1248.24-0443

Scientific Data Management Based on a Data Life Cycle Perspective: Using the Institutional Repositories Base of 24 Universities in the United States as an Example

Author information +
History +

Abstract

[Purpose/Significance] The research paradigm is gradually shifting towards a data-intensive model, where research data has become the cornerstone in the realm of academic endeavors. Effective research data management can enhance the research efficiency of scientific researchers, reduce redundant data collection, and reduce costs. As a central repository for the storage of scholarly research outputs, it is essential that university institutional repositories fulfill their role in research data management. [Method/Process] To gain a full understanding of the evolving landscape, we embarked on a meticulous network-based research investigation. We specifically selected the institutional repositories of 24 prestigious American universities as our research subjects, with the aim of exploring the diverse range of services they provide at different stages of the research lifecycle. Our research was firmly grounded in the data lifecycle framework, which enabled us to systematically examine a wide range of research data management (RDM) services. This included critical aspects such as developing comprehensive research data management plans, establishing robust data organization services and standardized protocols, providing reliable long-term data storage solutions to ensure continued accessibility, enhancing data sharing policies to foster collaboration, strengthening research data quality control measures to maintain integrity, and developing comprehensive research data management training programs to empower researchers. Furthermore, we conducted an in-depth analysis to summarize the characteristics and valuable experiences of American universities in building and maintaining the basic infrastructure of their institutional repositories. [Results/Conclusions] Given the unique circumstances of China's modernization process, this paper distills effective insights and strategies from the institutional repositories of domestic university libraries in the field of research data management services. Our findings highlight the importance of building a localized research data management platform tailored to the specific needs and contexts of Chinese academia. Enhancing the quality of research data management is critical to building a trusted institutional knowledge base and fostering an environment of credibility and reliability. By applying the FAIR (Findable, Accessible, Interoperable, Reusable) and TRUST (Transparent, Responsible, Usable, Sustainable, and Trustworthy) principles, we can facilitate the open and seamless sharing of research data, breaking down barriers to collaboration and innovation. Finally, building a professional scientific research data management team is essential to provide the human capital necessary to navigate the complexities of data management and to promote the development and adoption of best practices in scientific research data sharing. Taken together, these findings help to improve the abiity of the scientific community to harness the full potential of research data to drive the creation and dissemination of knowledge.

Key words

institutional repository / research data management / data management plan / university libraries / open science

Cite this article

Download Citations
Keyi XIAO , Yingying CHEN. Scientific Data Management Based on a Data Life Cycle Perspective: Using the Institutional Repositories Base of 24 Universities in the United States as an Example. Journal of Library and Information Science in Agriculture. 2024, 36(7): 88-99 https://doi.org/10.13998/j.cnki.issn1002-1248.24-0443

0 引言

随着开放科学的趋势日益全球化,科研数据作为科研活动的成果,成为一种战略性的资源,其开放共享对于科研活动的推进具有重要意义。科研数据管理(Research Data Management,简称RDM)是围绕数据生命周期对科研数据进行收集、整理、组织、分析、存储、重用等一系列相关管理活动,旨在促进数据开放共享,提高利用率避免研究资源重复浪费,并增进学术交流合作。机构知识库(Institutional Repository,简称IR)是收集并保存科学术成果与促进开放获取的平台,收录资源包括已发表的科研论文、学术专著、会议文献、学位论文等。随着学界对科研数据管理需求的增加,需加强对科研数据的收集和管理,借助机构知识库开放获取的功能促进科研数据的交流,从而促进机构知识库的可持续发展。
为加强科研数据的管理,国外较早开始提出针对性的政策法规,美国国家卫生研究院于2003年开始,要求超过50万美元拨款申请必须提供数据共享计划[1]。近年来中国出台了相关文件对科研数据管理进行指导,2018年,国务院办公厅出台《科学数据管理办法》[2],规范了科研数据生命周期内采集生产、加工整理、共享与利用等环节的管理,推动科学数据的开放交流。2019年,中科院印发《中国科学院科学数据管理与开放共享办法》[3],对于科学数据管理的适用范围、开放共享机制等作出了明确的指导。2021年,中国教育部发布《高等学校数字校园建设规范(试行)》[4],鼓励将机构知识库纳入高校数字化建设中,机构知识库与科研管理流程相结合,为高校机构知识库转型提供方向。2024年,十七部门关于印发《“数据要素×”三年行动计划(2024—2026年)》的通知[5],强调依托各类知识库来提供高质量科学数据服务,促进科研数据的互联互通,加速科研范式变革。高校机构知识库承载着丰富的知识和数据资源,通过数据模型深挖科研数据与文献,为数据增值开辟新路径。
高校图书馆是机构知识库建设的主体机构。在高校图书馆开展科研数据管理服务的研究上,不少学者已有了先行探索。在高校图书馆科研数据管理的服务模式方面,北京大学构建了流程端、服务端和支持端组成的服务模式,使调整后的服务模式更符合中国用户需求,为其他高校服务模式提供参考[6];在高校图书馆数据馆员方面,细分数据馆员核心角色,通过搭建数据交流和培训平台、培养数据认知和操作能力、完善管理流程等方面来培养馆员[7];在高校图书馆科研数据管理能力评估方面,可从形式、内容和效用3个维度来构建评价体系,推动高校图书馆科研数据管理的规范化发展[8]。在研究国外高校图书馆利用机构知识库开展科研数据管理方面,可围绕数据生命周期来参考各环节的服务开展情况[9]
高校科研人员有必要开展科学数据管理,传统机构知识库需进行技术的革新和服务的转型升级。鉴于美国机构知识库建设与科研数据管理实践起步较早,现阶段已处于较为成熟水平,本研究选取24所美国高校机构知识库作为调研对象,运用网络调研法分析其科研数据管理的服务经验,总结其管理特点,为中国式现代化国情下中国高校科研数据机构知识库的管理提供参考和借鉴。

1 美国高校机构知识库科研数据管理案例分析

OpenDOAR是全球开放获取存储库目录,为本调研提供主要数据源。美国在机构知识库的建设中处于世界领先地位,截至2024年2月,在OpenDOAR中收录数量已达818个。通过Sherpa API筛选含数据集的61所高校图书馆机构知识库,剔除37所未实质管理科研数据的,最终选取24所对象进行调研(表1)。本研究调查内容按照数据生命周期规律展开,主要内容包括数据系统平台、科研数据管理计划、科研数据组织服务、科研数据存储服务、科研数据共享及版权保护、科研数据质量控制、咨询与培训服务等。
Table 1 Statistics of IRs of university libraries in the U.S.

表1 美国高校机构知识库统计

学校名称 机构知识库名称 网址 软件平台
佛罗里达大西洋大学 FAU Digital Library Digital Collections https://library.fau.edu/digital-library/digital-collection-directory Digitool
俄勒冈州立大学 ScholarsArchive@OSU https://ir.library.oregonstate.edu/ Hyrax
华盛顿大学 Research Works at the University of Washington https://digital.lib.washington.edu/researchworks/ Dspace
密歇根大学 Deep Blue Repositories https://www.lib.umich.edu/collections/deep-blue-repositories Samvera
哥伦比亚大学 Columbia Academic Commons https://academiccommons.columbia.edu Fedora
加利福尼亚大学洛杉矶分校 UCLA Dataverse https://dataverse.ucla.edu/ Dataverse
罗格斯大学 Rutgers University Community Repository(RUCore) https://rucore.libraries.rutgers.edu/ Fedora
宾夕法尼亚州立大学 Scholar Sphere https://scholarsphere.psu.edu/ Fedora
北卡罗来纳大学教堂山分校 UNC Dataverse https://dataverse.unc.edu/ Dataverse
弗吉尼亚大学 Libra Data https://www.library.virginia.edu/libra Dataverse
哈佛大学 Harvard Dataverse https://dataverse.harvard.edu/ Dataverse
普林斯顿大学 Dataspace at Princeton University https://dataspace.princeton.edu/ Dspace
布朗大学 Brown Digital Repository https://repository.library.brown.edu/studio/ 未知
卡内基梅隆大学 Klithub https://kilthub.figshare.com/ Figshare
加利福尼亚州立大学 Scholar Works https://scholarworks.calstate.edu/ Samvera、Hyrax 3.6.0
芝加哥大学 Knowledge@UChicago https://knowledge.uchicago.edu/ 未知
西北大学范伯格医学院 Prism https://prism.northwestern.edu/ Samvera
迈阿密大学 Scholarly Commons https://sc.lib.miamioh.edu Dspace
加州理工学院 California Institute of Technology Research Data Repository https://data.caltech.edu invenio
亚利桑那大学 The University of Arizona Research Data Repository(ReDATA) https://arizona.figshare.com Figshare
肯特州立大学 Open Access Kent State(OAKS) https://oaks.kent.edu/ islandora
杜克大学 Duke Research Data Repository https://repository.duke.edu/ Samvera
加州大学圣地亚哥分校 UC San Diego Library Digital Collections https://library.ucsd.edu/research-and-collections/research-data/index.html 未知
普渡大学 The Purdue University Research Repository(PURR) https://purr.purdue.edu/ Hubzero

1.1 多样化数据平台支撑

高校图书馆主要通过两种方式构建科研数据存储平台,一种是自主研发,例如佛罗里达大西洋大学机构库和密歇根大学深蓝数据库等;另一种是与通用型数据知识库合作,比如多所高校与Dataverse合作、华盛顿大学与Dyrad合作等。
美国高校机构知识库的常用系统主要有以下几种软件:Dataverse、Figshare、Samvera、Fedora和Dspace等。Dataverse是一款开源的数据存储库软件,目前广泛用于机构研究数据存储库[10]。哈佛大学、加利福尼亚大学洛杉矶分校等四所高校使用Dataverse对科研数据进行共享、保存、引用、探索和分析。卡内基梅隆大学、亚利桑那大学等高校将科研数据库托管在Figshare平台。作为在线开放访问的知识库,该平台接受各种研究成果类型,包括图表、数据集、图像和视频等,并且分配DOI[11]。Samvera(基于Fedora)是一个由社区驱动的开源知识库软件,具有数据处理能力强、数据存储技术多元化等特点,例如密歇根大学的深蓝数据库。Dspace则是较为传统的机构知识库合作的软件,主要适合存储论文、专利等资料,存储的科学数据格式有限,具体详见表2
Table 2 Data storage management system and characteristics

表2 数据存储管理系统及其特点

系统名称 特点
Dataverse 元数据配置个性化操作程度高,对不同版本进行分阶段存储和备份,流程比较完备
Figshare 在线的数据共享云平台,接受各种研究文件类型、支持可视化
Fedora ①处理分布式数据功能强大;②完善的Rest API网络服务;③技术方面:版本控制精准、缓存速度快、数据存储技术多元化;④用户界面:和科研数据对接技术好、支持可视化功能
Dspace 不支持复合数据类型;可视化手段缺乏;更适合出版文献资料

1.2 全周期嵌入数据管理服务

美国各高校机构知识库围绕着数据生命周期的各个环节开展具体的数据管理服务,包括数据管理计划、数据描述与组织、存储与归档、数据共享和教育培训等,详见表3
Table 3 Research data management service projects of university libraries in the U.S.

表3 美国高校机构知识库开展的科研数据管理服务项目

高校机构 数据管理计划 数据组织 数据备份与存储 数据获取与共享 教育培训
佛罗里达大西洋大学
俄勒冈州立大学
华盛顿大学
密歇根大学
哥伦比亚大学
加利福尼亚大学洛杉矶分校
罗格斯大学
宾夕法尼亚州立大学
北卡罗来纳大学教堂山分校
弗吉尼亚大学
哈佛大学
普林斯顿大学
布朗大学
卡内基梅隆大学
加利福尼亚州立大学
芝加哥大学
西北大学范伯格医学院
迈阿密大学
加州理工学院
亚利桑那大学
肯特州立大学
杜克大学
加州大学圣地亚哥分校
普渡大学
*注:“√”表示提供此项服务

1.2.1 提供全面的科研数据管理计划指导

美国国家科学基金委员会和美国国立卫生研究院等许多资助机构要求研究人员在申请资助时提交正式的数据管理计划[12]。在启动科研项目时提交数据管理计划(Data Management Plan,简称DMP),用于定义从数据采集到整个项目生命周期中如何处理数据。调研的24所高校中有16所提供这项服务,主要由基本介绍、DMP编写工具、数据管理示例、计划清单、管理计划咨询等方面构成。
加州大学圣地亚哥分校整理了丰富的NSF 数据管理计划示例,为其他高校提供参考借鉴。佛罗里达大西洋大学从介绍数据生命周期、提供编写计划的工具DMPTool、列举数据管理计划示例、整理数据管理清单4个方面帮助科研工作者计划管理数据。普林斯顿大学、普渡大学定期更新资助机构最新发布的相关政策和要求清单。普林斯顿大学提供免费且保密的计划审查服务。此外,多所高校提供DMP的相关培训以及参考咨询,以帮助科研人员在研究启动前更好地开始项目计划的规划。

1.2.2 科研数据组织高度规范化

数据的描述与组织是管理科研数据的重要过程,具体包括数据文件命名、数据格式要求、元数据标准和版本控制这4个方面[13]
第一,规范文件命名。多数高校在科研数据管理指南中明确了文件命名的具体规定。华盛顿大学制定了文件命名与文件夹结构设置规则:文件命名依据日期、版本编号和扩展名确保版本识别和向后兼容性;合理的文件夹结构则依据数据类型、时间、特征和研究活动来标识文件[14]。第二,确保数据格式要求的可访问性。俄勒冈州立大学要求数据格式必须符合非专有性、可操作性、独立于平台3个要求。第三,采用元数据架构和标准,以通用语言描述数据。高校机构知识库多基于都柏林核心元数据集(DC)制定元数据标准,并针对特定数据增加字段以丰富描述。第四,规范版本控制。在宾夕法尼亚州立大学、加利福尼亚大学等不仅显示数据版本更迭,还以日志形式记录修改和上传详情,便于科研人员直观获取信息。

1.2.3 开展全方位的科研数据存储管理

数据的长期保存是科研数据管理的关键,需要明确存储要求和权限,包括选择容量、位置、备份方式、保留时间及访问限制。密歇根大学的深蓝机构库、罗格斯大学的RUcore系统以及华盛顿大学的数据存储服务颇具借鉴意义。
在存储规范方面,RUcore设立了完善的存储规范。一方面,规范存储数据集的原始格式和转码后的CSV格式,使数据易于检索;另一方面,数据集与数据管理系统应用程序同步存档、监控并且升级更新数据库来确保数据集的长期可用。在备份方式方面,采用分层存储系统使磁带库能维护、管理和同步每个主文件的多个副本。深蓝机构库备份频率高并远程存储长期数据。RUcore系统拥有多种备份和恢复方式,包括数据的在线、近线、离线存储和异地存储。华盛顿大学采用“3-2-1”备份法,即3个数据副本(一个原始数据,两个备份数据)。安全可靠的备份模式不仅确保文件免受损失或丢失,还能在研究人员需要访问时随时可用。在保留时间方面,机构知识库需定期评估存储数据。深蓝机构库的数据至少可访问10年,之后再进行评估以盘点是否继续保存。在访问限制方面,华盛顿大学实施角色访问控制,需经过身份授权及多重身份验证访问敏感数据。

1.2.4 积极部署科研数据共享版权政策

机构知识库的旨在实现开放获取,需要平衡数据提交者与用户权益。未公开发表的科研数据版权较为特殊。各高校机构知识库共享程度不一,通过许可政策了解开放程度及使用权限。
根据调研结果,其开放范围可划分为3类:第一类提倡最大程度地共享科研数据,默认采用CC0许可协议。明确放弃版权,显著降低数据重用的法律和技术壁垒。第二类对机构知识库的科研数据设置权限,仅限本校师生访问使用。旨在促进本校内部数据的深度二次开发和价值增值。第三类则赋予数据提交者自由选择知识共享许可协议(CCL)的权利。该协议允许他人在特定条件下分发作品,授予部分数据使用权利给用户,提供包括CC1.0(完全放弃版权)、CCBY4.0(署名-允许商业性使用)、CC BY-NC4.0(署名-非商用性使用)在内的多种许可证选项,可有效平衡作者与用户的权益。以上开放范围具体详见表4
Table 4 Licensing policy of university libraries in the U.S.

表4 美国高校机构知识库许可证政策

许可证范围 高校机构知识库名称
放弃版权 加利福尼亚大学洛杉矶分校、北卡罗来纳大学教堂山分校、弗吉尼亚大学、哈佛大学、杜克大学
受版权保护 华盛顿大学、罗格斯大学、普林斯顿大学、加利福尼亚州立大学
作者自行选择版权保护程度 俄勒冈州立大学、密歇根大学、哥伦比亚大学、布朗大学、卡内基梅隆大学、芝加哥大学、西北大学范伯格医学院、迈阿密大学、加州理工学院、亚利桑那大学、圣地亚哥大学、普渡大学
科研数据与相关软件代码服务相结合的资源价值在开放科学中和开放出版中日益凸显。数据共享涉及到通过代码、算法和软件来访问、操作和重用科研数据,通过选择不同的开源许可证体现代码的共享程度。
提交者可通过选择开源许可证共享代码,授予他人复制,修改,分发,授权或销售该软件副本的权利。已有部分高校在数据可用性政策中部署代码共享信息,宾夕法尼亚州立大学图书馆要求提交特定类型论文时提供分析数据的任何计算机程序、配置文件或脚本。在用户上传代码过程中提供MIT、BSD-3、Apache2.0和GPLv3等开源许可证选项[15]。MIT和BSD的开放程度较高,APache协议适用于涉及专利授权的代码作品;GPL协议则拥有较强的版权自由要求。应用开源许可证可确保透明度、可访问性和可重复度,选择合适协议可共享代码并保护版权。

1.3 多维度分阶段控制科研数据质量

高校机构知识库不仅静态存储科研数据,还需实时动态监护对数据质量,确保数据准确性和精度。数据监护始于提交环节,贯穿后续的存储、审核、发布以及引用等各个阶段。
在提交科学数据管理计划阶段,考查管理计划的完整性、准确性及规范性,如普林斯顿大学提供计划审查服务。在提交数据阶段,需明确数据的提交类型和可访问性等要素。密歇根大学深蓝数据库在接收数据后首先初步审查数据和文档,保证其可获取性可操作性,后续则由馆员和专家介入进行全面的审查,保证数据的可用性和完整性。在存储和审核数据阶段,普渡大学拥有完整的数据审核流程,从数据可信度、及时性、完整性、准确性、一致性、重复数据的删除这6个维度进行评估。在数据引用阶段,通过标识技术追踪数据的变化。部分高校使用的Dataverse系统中采用数字指纹算法的加密技术,确保字母数字标识符会随着数据集变化。这不仅保证研究者可以使用多年前的期刊文章中引用的相同数据集,而且使数据集的所有者能够跟踪研究的每次迭代。

1.4 多元化专业化培训咨询服务

开展数据管理过程中除了提供技术服务的支持以外,也提供相关咨询服务,主要通过现场、FAQ、电话、邮件以及网络社交媒体的方式联系馆员。其中杜克大学定期为用户免费提供短期咨询,数据与可视化科学中心的工作人员通过电子邮件或面对面虚拟会议进行咨询。
大部分高校提供科学数据管理的培训服务,主要以研讨会、在线课程、讲座等形式呈现。华盛顿大学面向从事数据研究的成员定期举办研究数据管理的研讨会。其主题包括数据管理规划入门、资助者对数据共享的要求、保存数据的方法以及相关数据分析工具的使用方法。杜克大学不仅在秋春两季学期、中期提供一系列科研数据管理的研讨会,同时提供更多定制化的指导,包括在线课程、研究生班课和项目团队。北卡罗来纳大学举办研讨会、项目团队培训以及提供有关数据管理最佳实践和数据策略合规性的教育材料。

2 中国式现代化国情下高校机构知识库科研数据需求与现状

2023年中共中央、国务院印发的规划《数字中国建设整体布局规划》进一步指出,要“以数字化驱动生产生活和治理方式变革,为以中国式现代化全面推进中华民族伟大复兴注入强大动力”。规划指出动数字技术和实体经济深度融合,在农业、工业、金融、教育、医疗、交通、能源等重点领域,加快数字技术创新应用[16]。因此,加强科研数据管理在高校教育领域应用是推动数字技术创新重要举措。

2.1 明确科研数据管理的需求,激活数据价值潜能

中国式现代化背景下,数字教育领域的科研数据管理需要更加注重数据的共享性和开放性,以满足广泛的需求。科研发展态势使得机构知识库和研究人员对于科研数据长期的存储和管理形成了需求。一方面,高校作为科研数据的重要产出地,数据出版尚处于初步探索阶段。尽管已存在数据独立出版、数据作为论文附件出版以及数据论文出版多种模式[17],但尚未在国内广泛实施,因此依然存在许多科研数据无法从出版物中获取,一定程度上限制了学术交流与共享。另一方面,目前国内机构知识库主要收录已发表的学术成果,如期刊、学位论文、专利等,部分高校设置独立平台收录与共享科研数据,而将机构知识库和科研数据管理集成建设的实践较少。传统的机构知识库向提供科研数据增值服务方向转型较少,缺少宣传也尚未引起科研人员重视。且由于缺乏相应的激励机制,科研人员共享数据的意愿并不高,因此对于机构知识库的认可程度有限。机构知识库可通过开放利用数据,释放其价值潜能,促进学术资源共享。

2.2 机构知识库开展科研数据管理实践现状

中国式现代化强调可持续发展,要求数字教育科研数据管理在保障数据安全的前提下,实现数据的长期保存和有效利用。教育数字化转型促使高校图书馆科研数据管理向规范化、标准化和智能化发展,多所高校正利用数字化手段赋能科研数据管理,为数字校园建设注入新动能,积极响应教育现代化战略。近10年来,中国高校科学数据管理与服务实践取得一定成效,国内的科研数据管理服务主要以研究院所为主,图书馆为辅[18]。2014年,复旦大学图书馆、北京大学图书馆等9所高校图书馆成立了中国高校研究数据管理推进工作组,促进国内研究数据管理的工作开展[19]。机构知识库作为开放科学的重要基础,承载了大量的知识内容。随着下一代机构知识库的建设目标的提出,探索研究数据资源的建设,为机构知识库转型增值指明方向。
截至2024年2月,OpenDOAR收录的中国内陆高校机构知识库有11家,这些高校开展科研数据管理服务主要包括以下方面:第一,建立独立的科研数据管理平台。长期保存和开放获取科研数据的需求增加,越来越多的高校和研究中心通过建立专门的科研数据管理平台,开展综合学科或者人文社会学科数据管理的探索。例如复旦大学社会科学数据平台收集整理了中国社会经济发展数据,社会调查特色数据和学术研究成果等,目前已收录869个数据集[20]。北京大学开放研究数据平台汇聚了具有极高影响力的精品调查数据,免费向公众开放“中国家庭追踪调查”“北京社会经济发展年度调查”等[21]。华东师范大学人文社科大数据平台在数据浏览方面设置两类栏目,分别是特色数据和院系部门数据[22]。第二,构建本土化的数据系统平台。复旦大学与哈佛大学Dataverse Network系统合作,研发与推广汉化版本,致力于为中文用户提供服务。北京大学近年来也完成了元数据方案制定和改造,正式加入Datacite数据中心获取正式DOI,完善平台使用章程等工作。第三,提供专业的数据素养培训。复旦大学图书馆、武汉大学图书馆[23]开设相关的数据素养课程,重视人才培养,有助于提升研究人员对科学数据管理和共享的意识。华东师范大学通过举办开放数据竞赛,对数据集深入分析,提高公众的数据素养与意识。第四,科研数据管理融入机构知识库。目前国内将科研数据管理融入机构知识库的高校有香港城市大学的CityU Scholars[24],提供可搜索的公开门户网站,向世界展示本校的研究成果,不仅包括传统的学术成果,还收录数据集,并且以专栏形式展现使得数据集易于发现。
因此,尽管中国高校数据管理平台取得一定成效,但由于起步晚,许多具体的数据管理服务有待进一步加强。首先中国高校科学数据管理平台建设较为分散且数量较少,而传统的机构知识库数量多但开展科研数据的管理为少数。其次是通过访问高校科学数据平台,可发现界面较为简略,提供的功能有限,比如大部分平台未提供制定科研数据管理计划的指南,数据管理条款政策较为缺失。最后对于尚未开展科研数据服务或处于初步阶段的机构知识库来说,如何以数据资源赋能转型,满足FAIR原则要求,并提升机构知识库的数据管理能力和受信任程度,仍面临诸多挑战。

3 中国式现代化国情下开展科研数据管理服务启示

随着技术革命的快速发展,数字化已成为助推中国式教育现代化的重要手段。中国在开展科研数据服务的过程中,应依托本土化智能化的数据平台系统,贯穿数据生命周期全程监护数据质量,保证科研数据质量,并融入FAIR和TRUST原则,实现更大程度的开放共享。此外,需组建多元化、专业化团队提供技术和咨询服务,加强科研人员的培训指导,激发其提交数据的积极性。具体详见图1
Fig.1 Schematic diagram of the research data management process

图1 科研数据集管理流程示意图

Full size|PPT slide

3.1 搭建科研数据管理平台

为实现对科研数据的有效管理,图书馆机构知识库系统需独立设置科研数据管理模块。选择不同形式建立机构知识库管理数据:一是自建科研数据机构库。许多高校已经建设了机构知识库用于存储期刊、学位论文、专利等学术成果,因此可在原有机构知识库的基础上开发存储科研数据的功能。二是根据自身建设情况选择合适的开源系统。美国众多高校通过与成熟的开源系统合作,利用已有的框架进行二次建设。减少建设技术方面难度,节约自建库的成本和时间,便于数据的互通。三是与公共数据知识库合作。华盛顿大学与Dryad合作,研究人员通过注册会员将数据存入其中。目前中国只有部分高校设立了科研数据存储平台,可根据自身需求以及经费状况,选择符合本校条件的形式来建设机构知识库来对科研数据进行管理。

3.2 嵌入FAIR原则的数据管理

高校机构知识库开展科研数据管理服务中,在整个科研数据管理周期遵循和应用FAIR原则,促进数据的开放共享。早在2014年洛伦兹中心研讨会上,利益相关者们起草了指导科学数据管理的倡议性文件,提出了数据开放共享过程中努力实现即可发现(Findable)、可访问获取(Accessible)、可互操作(Interoperable)以及可重复使用(Reusable)的目标[25],而后FORCE11社区优化后正式发布了FAIR原则[26],目前该原则在国外应用较为成熟。中国机构库具体如何在日常的数据管理中可以从以下4个方面积极应用该原则:第一,可发现原则。数据的重复使用的前提是数据集易于查找,赋予永久标识符使数据易于检索。第二,可获取访问原则。数据的获取主要与通信、访问授权等相关,通过提供API接口提高数据获取范围。第三,可互操作原则。制定一个可互操作的标准,包括语义互操作性以及链接相关资源,使用易于解释的数据格式,便于数据在不同的系统之间自动发送。第四,可重复使用原则。一方面确保数据集的质量,用符合社区标准的丰富的元数据来提高数据的可见性;另一方面制定完善的产权政策,保证数据提供者的所有权。通过这两方面以便其他的研究人员可以引用和重用数据,通过测试、验证以及重复使用数据来加强科学探究。

3.3 动态监护科研数据质量

FAIR原则主要针对数据的基本特征进行定义,以确保数据的重用。随着开放科学进一步发展,如何建立一个长期保证数据的准确性、可靠性的机构知识库符合相关利益者的要求,是未来中国高校机构知识库改善的方向。近年来国外已有学者提出通过应用TRUST原则框架进行改进以提升专业化程度以及受众的可信度。TRUST原则指的是透明度(Transparency)、责任(Responsibility)、以用户为本(User Focus)、可持续性(Sustainability)和技术(Technology)[27]
建立可信的机构知识库需要保证数据的质量,评估和交流关于科研数据集的质量,通过准确性、完整性、可靠性等方面评估所提交的数据集使机构知识库达到TRUST原则的要求,对实现数据集的重用有较大的帮助。高校机构知识库可参考普渡大学的分布式数据监护中心从多维度评估数据集的质量,从而保证数据管理质量。中国在开展科研数据质量监护时,可从内容、工具和人员3个方面考虑,来提高科研数据质量和受众的可信度。第一,审查内容包括数据本身的质量、数据文档的质量、数据收集及创建过程的质量、数据来源的真实性、数据的可访问性及兼容性、相关法律与道德问题等[28];第二,配备数据质量评价软件、数据清洗软件等工具;第三,设立数据监护员审查数据的可用性以及规范性,协助数据提交者上传符合要求的数据集。

3.4 打造专业团队,加强宣传引导

高校机构知识库提供优质的数据管理服务离不开多元化的人员配备,设立多种岗位发挥多元职能,提供咨询和技术服务。与此同时,在中国科研人员和用户对于科研数据管理的认知还停留在初级阶段,需借助多元手段加强宣传引导,提升数据开放共享的意识。
提供完善的科研数据管理服务需要一个强大的团队,针对多样化需求,可以设立以下4种方向的岗位,发挥各自功能。一是数据馆员、数据策展人等为用户提供科研数据管理的指导,以指南、在线咨询等方式进行基础介绍以及常见问题的解答。二是元数据馆员、数据质量监测员等在组织数据上发挥重要作用,规范的数据更容易被发现以及共享。扩展元数据,将数据集转化为更易访问以及开放访问的格式。三是学术委员会馆员、学科馆员,由不同学科背景专家与馆员组成,对相关项目的数据集进行同行评审,评估数据的价值,从而帮助后续研究者决定是否需要重用数据。四是数字出版及版权馆员。数据出版是通过一定的公共机制发布科研数据集,使用户可以获取、应用这些数据集[29]。宾夕法尼亚州立大学成立专门的团队,设立开放出版计划协调员、出版主管以及科研数据馆员等来提供数据出版的服务。
加强宣传引导,针对用户的数据素养的提升包括以下两方面:一方面是提高用户开放共享的意识。为了推进和鼓励数据的共享,高校可以通过激励机制给予共享数据的科研人员相应的回馈来增加存储和共享的动力。此外,加强科研人员对知识产权的深入了解,宣传存储数据的安全性。同时完善对于敏感数据的管理政策。另一方面,通过开办数据管理相关课程以及研讨会,主要面向科研人员提供一系列相关的指导。

4 结语

有效的科研数据管理可提高科研人员的研究效率,减少重复的数据收集以及成本浪费,高校机构知识库作为科研成果存储的中心,有必要发挥其科研数据管理的功能。本研究通过嵌入数据生命周期服务对美国高校机构知识库的科研数据计划管理、科研数据组织管理、科研数据存储、科研数据质量控制、科研数据共享、科研数据管理的培训等方面调研分析美国高校机构知识库科研数据管理的建设经验,提出依自身情况搭建科研数据管理平台、评估和动态地监测数据集的质量、应用FAIR、TRUST数据管理原则实现科研数据的共享与重用、重视对数据馆员类型人才的培养以及加强对科研人员数据管理的宣传等方面建议。国内高校图书馆要积极参与科研数据管理的建设,提供高质量符合科研人员需求的服务,促进学术成果的开放交流。

References

1
丁培. 国外大学科研数据管理政策研究[J]. 图书馆论坛, 2014, 34(5): 99-106.
DING P. Data management policy for scientific research in overseas universities[J]. Library tribune, 2014, 34(5): 99-106.
2
国务院. 国务院办公厅颁布《科学数据管理办法》[EB/OL]. (2018-03-17)[2024-02-10].
3
中国科学院. 中国科学院科学数据管理与开放共享办法(试行)[EB/OL]. (2019-02-01)[2024-02-10].
4
中华人民共和国教育部. 《高等学校数字校园建设规范(试行)》[EB/OL]. (2021-03-12)[2024-02-10].
5
中央网络安全和信息化委员会办公室. 十七部门关于印发《“数据要素×”三年行动计划(2024—2026年)》的通知[EB/OL]. (2024-01-25)[2024-02-10].
6
陈媛媛, 林安洁. 高校图书馆科研数据管理服务模式搭建和应用[J]. 情报理论与实践, 2023, 46(5): 99-106.
CHEN Y Y, LIN A J. Construction and application of research data management service mode of university library[J]. Information studies: Theory & application, 2023, 46(5): 99-106.
7
孔晔晗, 张潇月, 李宜展. 美国高校图书馆促进数据重用的服务实践及启示[J]. 图书与情报, 2023(4): 78-89.
KONG Y H, ZHANG X Y, LI Y Z. The practice and enlightenment of data reuse services in American university libraries[J]. Library & information, 2023(4): 78-89.
8
胡媛, 邹小敏, 谢守美. 高校图书馆科研数据管理服务能力评价指标体系研究[J]. 图书馆理论与实践, 2024(1): 67-76.
HU Y, ZOU X M, XIE S M. Research on evaluation index system for research data management service capability in university libraries[J]. Library theory and practice, 2024(1): 67-76.
9
马海群, 李金玲, 于同同, 等. 全生命周期视阈下公共数据伦理准则框架研究[J]. 农业图书情报学报, 2023, 35(6): 29-42.
MA H Q, LI J L, YU T T, et al. A framework of ethics guidelines on public data from a whole life cycle perspective[J]. Journal of library and information science in agriculture, 2023, 35(6): 29-42.
10
Dataverse project[EB/OL]. [2024-02-10].
11
Figshare[EB/OL]. [2024-09-02].
12
The National Science Foundation. Dissemination and sharing of research results[EB/OL]. [2024-02-10].
13
聂云贝, 刘桂锋, 刘琼. 数据生态链视角下科学数据生命周期运行过程分析[J]. 信息资源管理学报, 2021, 11(2): 69-77.
NIE Y B, LIU G F, LIU Q. Analysis of the running process of scientific data life cycle from the perspective of data ecology chain[J]. Journal of information resources management, 2021, 11(2): 69-77.
14
University of Washington Libaries. Research data management: Implementing, organizing and format[EB/OL]. [2024-02-10].
15
PennState University Libraries. Choosing a license[EB/OL]. [2024-05-14].
16
中华人民共和国中央人民政府. 中共中央 国务院印发《数字中国建设整体布局规划》[EB/OL]. (2023-02-27)[2024-05-03].
17
涂志芳. 科学数据出版的基础问题综述与关键问题识别[J]. 图书馆, 2018(6): 86-92, 100.
TU Z F. A review of fundamental research and identification of key issues on scientific data publishing[J]. Library, 2018(6): 86-92, 100.
18
涂志芳, 杨志萍. 我国科学数据管理与共享实践进展: 聚焦两种主要模式[J]. 图书情报知识, 2021, 38(1): 103-112.
TU Z F, YANG Z P. Practice of scientific data management and sharing in China: Focusing on two models[J]. Documentation, information & knowledge, 2021, 38(1): 103-112.
19
上海市图书馆学会. 中国高校研究数据管理推进工作组简介[EB/OL]. [2024-05-04].
20
复旦大学社会科学数据平台[EB/OL]. [2024-05-04].
21
北京大学开放研究数据平台[EB/OL]. [2024-05-04].
22
华东师范大学人文社科大数据平台[EB/OL]. [2024-05-04].
23
武汉大学图书馆. 《数据素养与数据利用》[EB/OL]. [2024-05-04].
24
CityU scholars[EB/OL]. [2024-05-04].
25
FORCE 11. Fair principles[EB/OL]. [2024-05-14].
26
WILKINSON M D, DUMONTIER M, JSBRAND JAN AALBERSBERG I, et al. The FAIR Guiding Principles for scientific data management and stewardship[J]. Scientific data, 2016, 3: 160018.
27
LIN D W, CRABTREE J, DILLO I, et al. The TRUST principles for digital repositories[J]. Scientific data, 2020, 7(1): 144.
28
STVILIA B, LEE D J. Data quality assurance in research data repositories: A theory-guided exploration and model[J]. Journal of documentation, 2024, 80(4): 793-812.
29
孔丽华, 习妍, 张晓林. 数据出版的趋势、机制与挑战[J]. 中国科学基金, 2019, 33(3): 237-245.
KONG L H, XI Y, ZHANG X L. Trends and challenges in research data publishing[J]. Bulletin of national natural science foundation of China, 2019, 33(3): 237-245.
Share on Mendeley
PDF(725 KB)

65

Accesses

0

Citation

Detail

Sections
Recommended

/