“大数据”(Bigdata)是信息时代的产物,最初用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。
伴随计算机云时代的来临,大数据通常用来形容一个集合创造的大量非结构化数据和半结构化数据。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。
适用于大数据的技术,包括大规模并行处理数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
自此,大数据不再仅用来描述大量的数据,同时涵盖处理数据的速度。
一、大数据在文化遗产保护领域的应用
大数据在文化遗产保护领域具有广阔应用前景,这是因为当前文物数据的海量存储规模,且通常为非结构化或半结构化数据特点正符合大数据处理要求。
日常管理中,文化遗产保护措施的提出,则主要基于对这些数据的提取、分析和应用。
随着现代信息技术的发展,文物机构和行政部门管理手段和技术日益提升,也为实现这些应用提供了可能。
如意大利在开展文化遗产风险监测时,对于分布在8000多个城市的考古遗址、独立建筑和城址开展了长时间大规模海量数据采集。
△ 意大利
同时将一系列地区性的外围数据中心收集所属地域文化遗产保护状况的相关数据,传送到**计算机数据中心。
△ 意大利地标建筑
与全国文化遗产及区域物理环境状况的数据地图更新叠加,在建筑物的易损性和区域风险性之间建立相应理论和应用模型,从风险地图、最大危险负荷、监测、环境卡片、大气-环境危险性指数等多方面予以分析,为开展预防和保护提供意见。
采集的海量数据包括街道宽窄、居住密度、供暖方式等、SO2和NOx排放量、空气中悬浮颗粒物指数、雨水PH值、温度、湿度、风向、气压等,覆盖水文地质风险、环境空气风险、生物风险、人为风险等诸多方面。
二、大数据的4V的基本特性
△ 大数据的4V的基本特性
基于这些特性,其在宏观管理和微观研究方面的优势经过诸多实践,已体现得淋漓尽致。
前者强调数据的大集中、大一统、大整合,后者突出详尽的微动作、微变化、微能量,如分子运动等。
对我国文物工作来说,现阶段大数据应用方向,将主要适用于针对总体性、全局性宏观数据的管理和利用,并为文物资源整合提供技术可能和系统解决方案。
大数据超强的存储、解析和计算能力,将使文物管理工作更加高效。一是实现文物资源的大集中、大存储,使建立统一的资源池成为可能。
三、近年来我国的文物数据工作
近年来,我国文物工作积累了大量的数据,但是一直未能实现有效整合。
在大数据模式下,文物调查和数据库建设项目采集的167万件套馆藏珍贵文物。
第三次全国文物普查登记的76万处不可移动文物,第一次全国可移动文物普查(2012年启动,将于2016年结束)最终登录的数千万件可移动文物的数据将实现集中存储,超过PB级的存储规模数据将在统一资源池进行整合调配。
使不同类型、不同格式、不同结构的数据间建立关联,如不可移动文物之间,以及不可移动文物与可移动文物,文物的文字信息、二维与三维信息、影像甚至声音之间的相互联系、附属关系等;
并在不同的应用模型间相互映射和自由索引切换,如可移动文物的收藏保管信息、不可移动文物的地理信息、国家的标准地理信息系统以及智慧城市管理系统等。这种联系和模型叠加,既是数据资源整合的基础,也是数据应用的重要支撑。
在数据的可拓展性方面得到充分延伸,通过超强解析能力实现数据的互通兼容,各种类型的数据,将能自如地存储到资源池中并得到有效识别和调取,数据的时间和空间限制得到释放,从而实现数据的动态管理。
为广泛的智力集合与社会性的分工协作创造了条件。
大集中、大存储和超强解析将为多区域多人协同工作创造条件,通过统一平台,将大数据分解为小数据,依照研究人员专长和选择开展局部定向和深入研究,由后台自动整合,实现数据管理上的集中-分散-再集中模式,**提高研究效率,使跨领域多学科交叉研究和大区域研究更加简便,如文明探源、指南针计划以及古代疆域研究等重大项目的研究整合。
在大数据支撑下,对文物信息资源共享和公众互动参与的技术支持,能够将文物数据资源与公众的个性需求,使用**惯和文化偏好相联系,提供独具特色的个人定制和个性化服务,实现多样化公共服务,加入“智慧城市”建设体系,也鼓励公众参与文物信息研究,实现文物资源效益最大化。
大数据同云计算一样,不是专指某种特定计算机技术或者设备,而是基于多种技术集合的数据处理的新模式,核心是数据的存储能力、解析兼容能力和计算能力,关键是数据处理的模型,即数据的筛选和结果输出形式,其最大优势是能够短时间收集、存储各类数据,并高效进行综合处理,摆脱以往一种数据格式就要开发一种管理和应用系统,各种系统之间还难以实现兼容的传统,这为文物数据资源的管理开辟了一种新观念和模式。
四、大数据对我们现有的文物信息化工作具有重要启示
首先是“数据为王”,文物信息化工作要坚持在基础数据上下功夫,尽可能采集和丰富文物信息,做好基础档案,做大数据资源,而不是在各种系统建设上反复投入,避免重复建设。
其次是数据处理方法,即处理模型的建立,包括数据资源解析、筛选、组合和输出必须牢牢地以文物工作特点和业务需求为出发点,需要进行充分的研究和总体设计,这也是大数据最终能否为文物工作服务的中心环节。
如果建立的模型不符合实际工作,无论何种数据最终都将成为死数据。
最终,仍然要注重数据标准建设,要做好底层设计。
有人认为,大数据主要是在处理非结构化数据方面具备优势,因此可以忽略标准的建设。
实际上,一套科学的数据标准体系,能**提升数据的管理和利用效率,从而减少对无效数据的筛选,提高数据处理的速度,并为向更高层次的数据兼容和资源整合创造条件,这个道理应当是不难理解的。
人只要替计算机稍稍干一些前期的活,它就会以数倍的服务来回报你。
大数据时代已然来临,或许这也将是文物数据管理应用模式变革的一次良机!