摘要:
公共数字文化服务近些年发展迅速,成为了文化服务的热点。
如何有效地把分布在各地的公共数字文化资源整合起来进行共享,是公共数字文化服务的关键问题。
为了解决这个问题,介绍了面向全国范围的公共数字文化共享云服务平台的架构设计和关键技术。
该云平台提供了分布式资源共享、网络分发、业务管理三大核心功能,解决了系统面临的共性技术与关键技术的问题,实现了公共文化资源的共建共享,资源的智能调度分发和资源应用软件的整合,面向全国提供公共数字文化共享服务。
实验证明,提出的平台具有良好的速度和海量数据处理能力。
关键词:公共数字文化;云计算平台;数据集成;数据共享;架构设计;网络分发
引言:
随着公共文化服务体系的建设,为了促进中国传统文化系统的传播和发扬,数字化公共文化内容服务领域需要一种“内容+软件+应用”的新型服务模式,实现数字资源与用户需求的有效连接。
因此,构建公共数字文化共享云服务平台,对于提高我国公共文化服务体系质量具有重要意义。
文化与科技融合的公共数字文化服务高速增长,成为现代信息服务业的一个重要趋势,推动 了公共文化服务发展。
本文介绍了面向全国的公共数字文化共享云服务平台的架构设计和构建方法,其主要贡献包括技术创新点和应用模式创新点。
技术创新如下:
(1)、提供了海量资源的互操作。
提出了基于国际元数据标准收割协议(OAI-PMH)的公共数字文化资源元数据收割和分发方法,以及基于国际数字对象交换与重用标准协议(OAI-ORE)的公共数字文化资源对象数据的互操作方法。
(2)、提供了智能传输调度。
解决了多网络、多终端 的业务协同,实现了面向多网络、多终端的数字文化资源的智能传输调度。
(3)、提供了应用统一认证。
实现了用户在不同系统的单点登录,既为用户提供了方便的操作,也为平台提供了高效的用户管理。
(4)、提供了子系统的互操作。
实现资源共享、业务管理、网络分发三大业务系统的集成,将三个系统有效组合在一起服务于公共数字文化平台中去。
公共数字文化共享云服务平台同样对公共数字文化的应用模式进行了创新:
(1)、提供了统一的数字文化资源访问模式。
本平台提供了统一的资源访问接口,用户可以使用同一个访问接口,对存储在全国各地的数字化资源进行访问。
平台提供了统一的鉴权管理,实现了用户单点登录即可以高效便捷的对全国范围的数字文化资源进行访问。
(2)、提供文化应用集市模式。
国家中心和各省分中心的应用集市能够进行整合。
用户在统一的应用入口, 就可以访问全国范围内的应用软件。
(3)、提供分析服务模式。
平台分析用户的行为数据,挖掘用户兴趣,为用户提供个性化推荐,包括数字化文化资源推荐、文化应用软件推荐、兴趣群组推荐等个 性化服务。
平台也提供文化数据的分析服务,分析文化 热点和发展趋势等,为文化研究和应用软件的开发提供了指导。
通过以上几点应用模式的创新点,实现了公共数字文化共享云服务的“内容+软件+应用”新型应用模式。
2、背景介绍
2.1、立项背景
公共数字文化共享云服务平台项目积极响应国家文化走出去的战略发展方针的要求,打造公共数字文化共享服务平台,对于提高我国软实力,加快构建我国公共文化服务体系建设,塑造国民积极向上、追求美好生活的时代精神,具有重要作用。
技术与文化的融合成为推动文 化服务和发展的大趋势和强劲动力。
2.2、需求分析
随着社会的发展和进步,大众对传统文化教育的需求日益增强,对于了解文化知识,欣赏文化作品,有着极大的兴趣。
海外群体也对中国传统文化有着强烈的兴趣,对外文化交流合作、中国的国际影响力建设都对公共数字文化的发展有着很大的需求。
出版业对公共数字文化也有着很强的需求。
数字出版能够推动经济建设、使公众更好地享受文化。
数字化文化资源有助于数字出版业的创新。
通过数字化技术,可以将传统文化很方便地重新进行组合,甚至可以将多媒体、互动呈现等方式结合在一起,使得用户能够享受更多的移动化互动体验。
2.3、项目意义
公共数字文化共享云服务平台的建立可以促进文化科技的融合,传统文化数字出版和服务方式的创新、 促进数字出版产业良性新业态的建立。
能够推动移动互联时代个性化学习,完善文化传播体系,加强精品数字文化的生产和传播,提升我国文化软实力,促进文化产业的可持续发展。
同时,培养以数字技术、网络技术与文化产业相融合而产生的数字媒体产业成为增长点。
2.4、研究目标
研究目标是构建一个面向全国的公共数字文化共享云服务平台,集成资源共享、网络分发、业务管理三大核心功能,实现资源的共建共享、智能调度分发和资源应用的整合,以此解决上述的公共数字文化资源整合和共享的问题。
3、相关研究
当前,成熟的信息技术已经广泛应用在国内外公共数字文化服务领域。
欧洲图书馆项目EDL(European Digital Library)将超过20个欧洲国家的公共文化机构的文化资源数据集成起来,提供资源共享服务。
OCLC(Online Computer Library Center)允许各个图书馆将各自的图书目录上传至 World Cat云平台,实现图书馆之间的资源共享。
随着数据量的爆炸式增长,公共文化服务面临着大数据的挑战。
美国国会图书馆启动国家数字图书馆项目“美国记忆”,实现了用户便捷的访问公共文化资源。
WDL(World Digital Library)项目构建了一个基于互联网的虚拟世界图书馆,数字资源由世界范围内的图书馆、博物馆、公共收藏机构提供。
日本国立国会图书馆NDL研发新的检索服务系统,对日本国内的公共文化机构的资源进行了整合,形成了统一的查询服务。
韩国国家数字图书馆项目,实现了韩国数字文化资源的整合和共享。
国内也有很多学者对公共数字文化共享进行了研究。
解晓毅论述了公共文化共享工程中存在的问题,特别是以国家图书馆提供数字资源为例进行研究,并给出了相应的建议。
4、公共数字文化共享云服务平台架构
以公共数字文化全国共享服务模式为指导,以公共数字文化共享服务规范为纲要,以云计算和大数据技术为手段,来设计公共数字文化共享云服务平台。
该平台架构如图1所示,具有四层结构:基础设施层、资源汇聚 层、业务平台层和应用示范层。
4.1、基础设施层
基础建设层管理着计算服务器、存储设备、网络设 备以及防火墙设备等计算机设备。
使用了云计算和虚拟化技术,构建了虚拟计算机集群,并在其上部署了大数据平台。
4.2、资源汇聚层
资源汇聚层管理着公共数字文化数据。
通过平台提供的资源共建途径,平台将公共数字文化相关资源数据转换并放置到数字资源池。
资源池由若干数据库组成,如资源元数据库、素材库、对象数据库、和成品库等。
4.3、业务平台层
资源共享系统允许国家中心节点对省级节点资源进行统一编目管理,实现全国范围的资源共建共享。
网络分发系统统一调度全国各地分布式存储的数字资源, 从而减少网络上影响数据传输速度和稳定性的可能瓶颈,实现资源的跨地域、跨网络智能化快速传输。
业务管理系统将作为容器,支撑各种文化特色应用,提供应 用接入支持。将这三个子系统有效的整合起来,构建公共数字文化共享云服务平台。
平台会对用户访问的日志文件进行采集和集中管理,通过用户行为分析,实现对资源管理的优化。
业务管理系统是业务平台层的核心,起到应用软件 “容器”的作用,以国家中心节点统一认证鉴权为基础, 装载面向各类终端的文化应用软件,形成应用软件中心。
业务管理系统包含以下子系统。
(1)、导航子系统:
用户根据身份授权的不同,访问不 同的内容桌面,实现快速访问。
(2)业务管理:
合作单位用户可在导航子系统上申 请应用的发布,审核通过后,应用可在应用集市上显示, 用户则可在导航子系统上访问应用。
(3)统一认证鉴权:
用户只需登陆一次,就可访问接 入统一认证的不同业务系统和各地特色应用软件。
(4)权限管理:
建设数字资源和文化应用访问的统 一用户/机构/权限管理系统,实现对各种公共数字文化 资源的有效共享和管理。
(5)后台管理:
后台管理提供制定义前端、后端桌 面,海量的图片、图标管理,系统的详细日志和备份恢复 等平台系统管理的功能。
(6)、应用构建工具库:
开发者使用应用构建工具开 发出各类公共文化应用软件,并发布到内容展现门户或 应用门户中。
4.4、应用示范层
在平台关键技术模块的支撑下,各单位可以开发公 共文化应用软件,形成应用软件管理中心,为用户提供 应用软件检索和运行的服务。
5、关键技术
公共数字文化共享云服务平台的难点在于:
海量资源的互操作;
面向多网络、多终端的数字文化资源的智能传输调度;
应用统一认证;
公共数字文化共享云服务平台的协同交互和互操作。
本章将阐述解决以上难题的关键技术。
5.1、海量资源的互操作
现有的海量公共数字文化资源分散在各地和各单位,要实现资源共享,必须建立资源的互操作标准,实现 全国各地资源池统一的互操作接口。
该互操作标准必须独立于应用,并且能够提高Web上的资源共享范围和共享能力。
为了实现全国范围的资源共享,定义了全国资源的统一互操作模式,如图 2 所示,省级节点国家中心节点 保存了各自的资源数据,包括素材和成品资源和资源的元数据以及节点本地的资源目录的。
省级节点将元数据提交到国家中心节点。
国家中心节点会审核,并保留通过审核的元数据,并将审核结果通知省级节点。
国家中心节点负责编目统一目录,建立元数据库,以及保存一部分热门资源。
这样,文化单位和合作单位就可以进入国家中心节点,通过统一目录,对全国的资源进行查询。
为了实现资源互操作模式,研发了基于 OAI协议的关键技术。
使用 OAI-PMH元数据收割与分发协议,省级节点使用客户端,将需要收割的资源上传到国家中心节点。
为了能够对收割到的数字文化资源元数据更加有 效地进行检索和分析,对 OAI-PMH 和 OAI-ORE进行了扩展和二次开发,重点在于分类、共享和操作几个方面。
使用文化分类体系,划分数字资源类别,对OAI-PMH 和 OAI-ORE 协议的资源类别的语义标签 Resourcetype 进行了扩展,并在收割的时候将资源的文化类别作为 元数据写入 RDF 元数据文件的 Resourcetype 标签。
数字文化资源类别是一种层次化树形结构的分类体系, 以传统的文化分类法为基础,精简成为三层,并使用相应编码表示,使之能够高效地适用于文化资源的元数据交换。 公共数字文化资源的语义关联可以被挖掘,帮助用户实现资源的精细化定位,以及提升语义相关的资源呈 现能力。在基于 OAI-PMH 的 RDF 元数据文档中定义 了资源的语义关联标签,表达资源之间的语义相关性, 实现了基于规则推理的语义分析。
这样,平台可以进一步扩展资源之间的语义关系,并将这些关系记录到国家中心节点的资源元数据中。
也扩展了数字文化资源共享的限制范围,在RDF元数据中定义的 Shareable标签表达了数据是否可以被共享使用。
与此同时,将整个元数据集按照复杂程度, 分为OAI-PMH 资源共享数据集和 OAI-PMH 资源共享精简数据集。
OAI-PMH资源共享数据集比精简数据集的细节信息更多,而精简数据集包含必需的最小元数据。
基于扩展OAI-PMH协议的元数据文件描述了资源的记录,可以构建一个数字文化资源图。
根据资源图, 开发了基于OAI-ORE协议的数字文化资源对象的互操作功能。
按照自定义的数字文化分类体系,使用 ORE: Aggregates根据类别对资源进行聚合,有助于资源的高效批量操作。
为了对资源共享系统与第三方应用软件系统的衔 接,平台使用了基于 Web Service 接口的 OAI 协议。
为了对资源进行过滤,平台建立了数字文化资源元数据规范与编目规则,建立了资源共享工程分类法,并建立数字资源唯一标识符规则。各省通过资源共享系统,将数字资源最终同步到全国统一目录中,经国家中心审核批准后,供全国使用。
资源建设的关键步骤包括资源采集和资源著录:
资源采集是使用在线采集和FTP采集的方式,实现资源入库;
资源著录是对采集资源的详细信息进行著录。
5.2、智能传输调度
面向多网络、多终端的数字文化资源的智能传输调 度,需要多网络、多终端的业务协同。
为了解决这一关键问题,建立了面向公共数字文化资源的网络分发系统(CDN 系统),通过资源调度请求及资源调度策略和内容加速技术,高效的调度分布存储在全国各地的数字资源。
根据数字文化资源的元数据,对平台的访问日志进行大数据分析,使用和优化自回归积分滑动平均模型 (ARIMA),对公共数字文化资源的访问模式进行时空 数据回归分析,根据时间和地域等不同访问模式,对未来一段时间的资源访问趋势进行预测。将这些预测分 析的模式,与 CDN 的分发策略相结合。
按照不同的情况,平台会自适应的选择合适的模型和参数,进行预测性分析,更新分发策略,保证信息的合理分发。
通过预测分析手段,有效地提高了资源传输质量, 以及跨网资源调度和资源容灾的功能,为各类网络终端和公共文化服务机构提供数字资源共享的底层支持。
以不同区域的公共文化信息资源为基础,确定区域间交换信息指标及信息交换流程,实现不同区域之间异构应用系统间松耦合的信息资源调度,形成公共文化信息资源的物理分散,逻辑集中的区域间信息交换模式,提供区域间横向按需调度。
公共数字文化网络分发的模式如图 3所示,国家中心节点使用内容加速和多点下载,将资源数据从省级节点同步至国家中心节点。省级节点之间使用资源和目 录打包的方式进行资源共享。终端用户通过统一目录 对资源进行检索,并进行下载。
终端用户之间使用基于 P2P网络技术来传输资源数据,无需通过国家和省级各节点,即可获得资源,加快数据的网络传输。
研发了基 于改进 Chord算法的 P2P 通讯模块,并根据平台的分析算法找出数据传输模式,保证了用户之间数据的传输速 度和可靠性。
5.3、应用统一认证
全国文化应用开发运营机构和各类文化特色应用为数众多,为了为各类特色应用提供统一的检索,统一的应用导航、统一的多终端访问接口与访问统计,需要 统一的用户管理与认证。
这里使用 OAuth2.0 协议实现了单点登录(SSO)。 当用户访问平台时,输入用户名和密码进行登陆。用户 帐号信息保存到 Token中,用户通过平台访问其他应用 时,将 Token 通过 SSO 服务器传递给应用,从而实现单点登陆。
平台提供的 Web 应用到 Web 应用的单点登陆服 务。如图4所示,用户通过浏览器访问Web应用1,然后 跳转到SSO登陆,登陆认证通过后,返回 Web应用 1,然 后用户访问Web应用2,Web应用2能够单点登陆。
接入平台的应用需要满足相应的接入规范,才能实 现访问的单点登陆。针对不同的应用类型,本平台提供 J2EE和 Asp.Net的应用接入规范,实现对各种公共数字文化资源的有效共享和管理。
国家中心节点层 Data center 省级骨干节点层 Cache server Cache server Cache server 智能 DNS 用户 用户 用户 图3 网络分发技术路线图 委托SSO服务器 进行身份认证 委托SSO服务器 进行身份认证 OpenID协议, 支持扩展 单点登录组件 SSO服 务器 1.访问 应用12.访问 应用2 用户 SSO客户端组件 Web应用1 Web应用2 SSO客户端组件。
5.4、子系统的互操作
由于公共数字文化共享云服务平台涉及至少国家级和省级两个层级,各层都有不同的用户角色,不同角色之间有着复杂的数据整合和信息共享要求。
平台拥有三个针对不同目标的业务系统:资源共享系统、网络分发系统以及业务管理系统。
随着不同角色的变化, 系统之间的交互也会发生相应的变化。
因此,平台必须制定不同角色、不同层级在不同业务系统之间的交互机制。
一个用户当前所分配的权限与三个因素相关:当前 层级(国家/省级)、当前系统(资源共享/网络分发/业务 管理)、当前角色(访客/会员/高级会员/管理员)。
为了同一用户在不同环境中能够使用相对应的角色,根据业务协议规定,制定了子系统之间的角色映射规则,在不同子系统,不同层级的用户之间进行映射。
当用户进入新环境的时候(层级或者子系统出现变化),如果该用户在新环境下原先已经分配过角色,则使用该角色事物权限;否则,根据角色映射规则,用户的角色就会被映射成为一个当前环境下的角色,分配给用户。
这样,平台提供了数据交互协议、认证授权等子系统互操作机制,建立相应的互操作接口协议,实现平台的有效互动,提高系统的扩展性和协同性。
6、平台系统实现
为了搭建平台的基本运行环境,使用VmWare的技术构建了虚拟计算机集群。大数据技术负责解决大数据存储和大数据并行计算。
平台的大数据子系统使用基于 Hadoop的大数据系统,包含了分布式文件系统HDFS和并行编程模型 MapReduce。
使用 Apache Spark作为实时计算和内存计算框架,提高大数据分析的效率,平台使用 MySQL 分布式集群管理着资源的元数据和统一目录。平台使用 HBase 分布式数据库保存日志等快速产生的大数据,并开发了基于MapReduce 模型的大数据分析模块对日志进行分析。
系统的门户使用B/S架构,前端使用HTML5技术进行开发,用户可 以使用浏览器进行访问,后端使用 J2EE 进行服务器开发。
为了保证平台系统的消息交换,使用了 Apache Kafka分布式消息系统,对消息进行管理。
为了保证安全,平台上搭建了NginX 反向代理服务器,将真实的服务器地址进行屏蔽,同时组建了 Web Server集群,保证横向扩展。
如图 5 显示了公共数字文化共享云服务平台的界面
图(a)为公共文化资源管理界面
图(b)为 内容注入界面
7、性能评估
进行了模拟实验,来对平台的数据能力、性能和扩展性进行评估。
向平台注入不同容量的模拟日志数据, 并进行查询和分析等操作。
如图 6 显示了平台数据处 理能力实验的结果,显示完成查询和分析等数据操作的总时间。
结果表明,平台具有 TB 级别的离线数据处理 和分析能力。
使用 Apache JMeter,模拟多用户并发访问的情况,测试平台并发性能。
从图 7 显示的实验结果来看, 用户访问平台门户页面的平均响应时间在 500 并发量的时候小于 3 s,在可接受的范围内,能够承受超过 100 万PV的访问量。由此得出结论,海量用户访问时,平台能提供良好的网页响应能力。
8、平台建设
8.1、部署规模
公共数字文化共享云服务平台在一个国家级示范点和多个省级示范点进行部署,形成国家中心和省级节 点的层次化拓扑结构。
门户网站面向公众,日均约 10 万次访问量。
8.2、用户群体
公共数字文化共享云服务平台用户人群主要包括文化研究人员、文化爱好者和学生、文化资源建设者、文化应用软件开发者。
文化研究人员可以通过本平台对文化资源以及对用户文化兴趣进行研究,为文化发展趋势、文化模式的研究做出贡献。
文化爱好者和学生可以通过本平台提供的服务,高效便捷地访问全国范围的数字文化资源,提高个人的文化修养。
文化资源建设者, 通过公共数字文化共享云服务平台发布自建资源。
文化应用软件开发者可以使用本平台提供的资源和服务, 进行创新,构建和发布文化应用软件,提供给其他用户使用。
8.3、预期经济效益
通过公共数字文化共享云服务平台,可降低造纸及 印刷行业对纸张等能源的消耗,减少物流行业的能源消 耗和各类成本,增加传统文化的传播深度及广大,增加信息、通讯行业的受众人群和收益,促进先进技术及应 用与文化产业的融合,并提高周边行业的经济收益。
8.4、社会效益
公共数字文化共享云服务平台为数字化文化资源的用户提供了高效的服务,促进了文化的共享和传播, 能够推动文化教育的普及,营造良好的文化氛围,对我 国和谐社会的建设具有以下重要意义。
(1)创新中国传统文化资源传播路径平台以数字技术为基础,以互联网为桥梁,能将中国传统文化迅速传播到全世界,让人从新的角度领略我国文化的魅力,开阔国际视野,让世界人民进一步了解中国的文化精粹。
(2)普及大众文化教育平台采用互联网技术,将数字文化资源快速传送到各地,消除文化信息资源获取上的不平等,使各地区群众都能享受到优秀文化资源,实现文化信息资源在全国范围的共建共享。
(3)促进文化产业发展,提升文化竞争力平台的建设在资源管理、平台建设、资源数字化、终端展示等方面取得实质性突破,带动了传统数字文化出版产业发展,提升我国数字出版的整体水平。
9、结术语
为了使中国的传统文化能够有效得到推广,需要构建新型服务模式的数字化文化资源的服务平台。
本文提出了一个公共数字文化共享云服务平台,集成了视频检索等智能技术,提供了资源共享、网络分发、业务管理 三大主要功能,实现了“内容+软件+应用”的新型服务模式。
该平台使用统一的目录对全国的资源进行编目管理和检索,并使用统一鉴权,对用户的权限进行管理。
在未来的工作中,为了使用户在访问资源时的获得更好的体验,会加强大数据的分析挖掘,优化算法模型,增强用户行为分析和优化资源的个性化推荐。
参考文献:
[1] 欧洲数字图书馆主页(EDL),欧洲国家图书联盟(CENL) [EB/OL].[2017-02-01].http://www.edlproject.eu/.
[2] 联机计算机图书馆中心主页(OCLC),联机计算机图书馆 中心[EB/OL].[2017-02-01].https://www.oclc.org/
[3] 美国记忆主页(American Memory),美国国会图书馆 [EB/OL].[2017-02-01].http://memory.loc.gov/ammem/about/ index.html.
[4] 世界数字图书馆主页(World Digital Library),联合国 教科文组织[EB/OL].[2017-02-01].http://www.wdl.org/zh/ background/.
[5] 陈瑜,尹铭莉. 日本国立国会图书馆新检索服务“NDL Search”介绍及分析[J].图书馆杂志,2013(5):81-84.
[6] Lee H J.Coolaboration in cultural heritage digitization in East Asia[J].Program- Electronics Library and Information Systems,2010