为什么要建设数字人文基础设施?
最近几年,数字人文可谓越来越热,我国大陆因此出现了一批优秀的数据库和应用平台。
复旦大学历史地理研究中心作为我国最著名的历史地理学研究机构,近期上线的中国历史地理信息平台,得到了西安云图的技术支持,属于学术界和企业界的合作;
中南民族大学王兆鹏教授和文学公益网站搜韵网合作推出的唐宋文学编年地图,在社会上具有较高影响力,属于学者和公益网站的合作;
中华书局这样的著名出版单位,利用自身优势,推出了籍合网这一古籍众包整理和综合服务平台,这是传统出版单位升级转型的例子,具有明确的市场定位、产品架构和盈利模式;
丝绸之路历史地理信息开放平台,则由陕师大出版总社、首都师范大学张萍教授和西安云图合作打造;
在2021年高调发布的汉典重光古籍数字化平台,由互联网巨头阿里巴巴和国内外多所知名大学、图书馆共同推出;
全历史则是完美世界以互联网应用的模式,面向公众打造的科普平台。
我们可以看到,数字人文研究课题常常涉及到程序开发,需要消耗比传统人文研究更多的经费,而技术开发却不是人文类专业的特长,所以往往需要与企业合作。
而出版社、互联网巨头、游戏公司等非学术机构,也搞起了数字人文平台,让这一领域呈现明显的跨界趋势。
多元化的跨界合作,是数字人文有别于传统人文研究的一个特点:
因为它结合了信息技术,必然更靠近产业。
我认识的几位做数字人文研究的老师,有的一直想商业化,只是没有资本投资;有的已经在尝试商业化,迈出了第一步。我们团队也不是学术机构,但我们既思考数字人文的理论方法,也在国内开展了多年的相关平台建设,和不少学术单位和学者有合作,算是小企业的代表。
在能够和产业紧密结合的行业,比如计算机行业,学术机构和企业的界限是相对模糊的,学校和老师在运营企业,企业也投入大量研究经费,并有许多知名的实验室。
这些已有的平台都拥有一个共同特点,就是向历史、文学、艺术、哲学等特定领域,提供一到多种在线数据服务:
比如专题数据库浏览;地理数据或知识图谱的可视化;古籍整理等等。
它们是具体的数字人文成果,可以为主导单位或者研究者本人带来荣誉和更多的资源,有国家重大项目支撑,拥有相对较宽裕的经费,或者由大公司直接主导。
但这些成果还是太少。
一个健康的领域,总需要构建一个像金字塔般良性的人才和应用结构:既要有顶级学者,也要有许多不知名的青年教师;既要有突出成果,也要有看起来一般,但数量庞大的小数据、小分析、小发现和小应用;既要有行业巨头,也得有更多的中小型企业。
现实情况是,初涉数字人文领域缺乏资源的普通教师,以及对数字人文感兴趣,想步入这一领域的学生,他们极度缺乏资源,甚至就没有任何资金,也很难找到合作者。
而数字人文研究本身涉及到技术开发、数据共享、系统运维和基础软件采购等问题。
已有平台开放程度是不够的,借鉴价值相对更大,却很难为新应用的建设提供直接的基础服务支撑。
由此我们看到一种现象:
虽然人工智能这样的前沿技术已被应用到数字人文领域,但许多有志于此的普通师生,或者不懂技术的传统学者,还是只能用Word和Excel这类工具整理数据。他们无法使用技术手段分析数据,开发和发布具体的应用就更难了。
在一些知名学者尚且缺乏资金长期推动数字人文平台建设的情况下,普通教师就连启动建设的资金都没有,哪怕不开发应用平台,仅仅发布数据库都找不到合适的地方。
这就是数字人文现在面临的一个困境:
一方面它很火,有了越来越多的成果,连一些唯利是图的巨头都参与其中;
但另一方面,它的基础设施却很落后,处于一种相对原始的状态。
金字塔底端的生态环境还是很恶劣,小人物、小数据、小发现、小应用、小企业的数量还是远远不够的。
要解决这个问题,在我看来就在于构建数字人文基础设施。
如果说人才金字塔的底端是学生,成果和应用金字塔的底端就是基础设施。
如何定义数字人文基础设施
从字面上看,数字人文一半是“数字”,一半是“人文”。“数字”更多是一种信息技术手段,“人文”精神是其核心。
相对“人文”而言,代表“数字”的信息产业,有着非常庞大的行业基础设施,产业协作参与的人数更多,分工更明确、更标准。
在高度分工之下,很多时候你不需要去和谁沟通,只要根据需求直接购买具有标准接口的产品即可,比如一台电脑。
对于软件行业而言,如果使用开源软件,你甚至连钱都不用付,因为开源软件可以通过互联网无限复制,分发成本为零。
你甚至不用一个个下载,因为已经有了一整套依赖包管理工具。
我们可以看到,软件行业作为信息产业的一部分,为各行各业开发出各种各样的信息系统,为其它行业的发展提供着基础服务支持,但行业本身也诞生出了大量基础工具:
如编程语言、标记语言、操作系统、数据库、中间件、集成开发环境(IDE)、软件开发工具包(SDK)、容器、虚拟机等;
出现了各种基础平台,如云计算平台、代码托管平台、应用市场等;
有大量标准协议,如TCP/IP协议、开源协议、HTML标准、ECMAScript标准等。
这些基础工具、在线服务和标准协议,能够成为各种具体应用的基础设施。互联网和开源代码流行后,更是极大的降低了开发成本,使得信息产业得到了前所未有的大发展,几乎深入到所有传统行业之中。
这让一个应用的开发、部署和运维变得无比便捷。
假设你要开发一个爬虫,你可以轻易地获取到Linux操作系统、Python编程语言、VSCode编辑器,可以通过requests库爬取数据;通过BeautifulSoup解析HTML;通过Jupyter Notebook运行和调试;通过JSON格式保存爬取结果,或者存储在SQLite数据库中。
代码编写成功后,可以在本机运行;可以在虚拟机里运行;可以在云计算平台中运行;也可以通过Docker轻易实现部署;或者使用函数计算这类Serverless服务实现服务器资源的用后即焚。
通过简单的编码和部署就能完成原本非常复杂耗时的工作,这一切都建立在无数的基础设施之上,而一个基础设施之下又是另一个基础设施,最后形成了一个金字塔般的运行环境。
在一小段代码背后,是整个行业几十年努力构建起来的庞大基础工程。这些基础设施不仅仅是企业在使用,数字人文学术研究中同样在使用。
以浙大的学术地图发布平台为例,虽然我没有请教过他们具体使用的开发技术,但根据实际使用中的观察,以及在会议报告中展示的后台,我基本肯定它使用Python语言开发;使用了Django作为Web框架;使用PostgreSQL存储地理空间数据;使用了GeoNode完成地理空间数据管理;使用GeoServer发布WMS地图服务;使用OpenLayers实现地图可视化,这些全部是自由的开源软件。
学术地图发布平台还使用了天地图的在线地图服务作为底图,使用了哈佛大学的诸多开放数据。其它数字人文项目也基本如此,各种人工智能、图像识别、自然语言处理应用,几乎都基于各种开源库实现。
研究数字人文的学者和学生,应当由衷感谢这些计算机行业的基础设施,特别是感谢开源软件,感谢知识共享。
正因为有了这些设施,数字人文领域才能在经费和人力极其有限的情况下,完成各种数据生产、存储、分析和应用开发工作。
如果没有它们,数字人文是不可能作为一个新兴学科存在的,各种数字人文应用也是不可能开发出来的。
古人说:他山之石,可以攻玉。
数字人文领域也应该考虑学习计算机行业,建设数字人文基础设施。
基础设施的构建在于高度的分工合作,高度的分工合作必须是高效的。我之前听到很多老师在谈合作,谈共享,但这种合作和共享的沟通成本也是很大的。如果凡是合作都要洽谈,要沟通,要找上门,要专人对接,这种合作是低效的。如果我开发一个软件用到的第三方代码库,每个都要我去沟通洽谈,那就没法搞了。
基础就像螺丝钉,花点钱就能买,买来能通用。基础一定要实现通用化、低成本和无沟通,不然就很难称之为基础。数字人文现在就有这个问题:开放不够,要合作只能一个个洽谈对接;数据不标准,只能一个个单独处理。这些都不能称之为基础设施,只是具体的数据或者应用。
其实在传统研究中,各种书籍就是基础设施之一,出版社也是。
学者出了书,我不需要认识他,也不需要联系他,花钱买他的书,按照规范引用,就能搞自己的研究了。
现在各种可以分享数据的平台,很多时候就在担当出版社的角色。
数字人文既要为人文研究和文化传承提供基础服务,数字人文本身也需要基础服务。
实现了标准化、通用化和可共享的数字人文成果,以及为了实现这一目标所依赖的其它措施,就是数字人文基础设施。
数字人文基础设施的种类
那么数字人文的基础设施应该有哪些呢?
第一个就是足够丰富的开放信息平台,比如各类线上数据库、线上图书馆、API服务。
数据是数字人文研究的基础,但要成为基础设施,光有信息平台和优质数据是不行的,只有开放的数据才能成为基础设施。
以历史地理信息为例,《中国历史地图集》早就有了,在信息化以前的时代,它也是完全满足当时要求的基础设施。
但时代发展以后,现在它不能满足在线地图对矢量地图数据的要求了。
顺理成章的,就有人开始矢量化谭图,但因为各种原因这些数据并不开放。我这几年起码见过七八家单位和几十个人,要么搞过谭图整体矢量化,要么搞过部分朝代矢量化,要么有这个计划但没有实施,还有更多的单位在到处求购这些数据。他们做了无用的重复劳动,花费了本不该花的资金,就是因为没有基础设施。
第二个就是开放的标准。
信息的开放依赖开放的标准,否则信息就难以被二次利用。数据标准能实现数据的通用化,这方面讨论较多就不用我多说。
数字人文基础设施往往涉及到知识共享,知识共享就涉及到版权问题,因此还得有版权标准来规范和保障各方的权益。知识共享往往意味着可以免费使用,但知识共享不等于免费,使用者依然需要遵守作者的要求。
作者拥有版权也不代表作者可以随意解释版权,我们不能光提“版权保护,侵权必究”,却不用标准协议规定清楚各方到底有什么权益,凡事都要靠扯皮、靠单独规定。目前CC协议就是国际上使用较为广泛的知识共享授权协议,已经有20年的历史,值得借鉴推广。
我之前听了一些相关的报告,老师们常提数据协议,但版权协议却提得比较少。
免费授权那也是版权,涉及到是否署名、是否商用、能否修改后重新发布等问题。这个问题很重要,甚至在我看来,它比数据标准更重要,因为数据标准不涉及利益,版权涉及利益。数据不能共享,往往不是格式问题,而是因为利益问题。
除了数据标准和版权标准,使用和发行也应该有标准,就好像书籍最末会给参考文献,论文中有引用规范一样。如何在论文中引用数字人文成果,如何在应用中说明使用到的书籍、论文、数据库、开源软件等,也是一个问题。我国大陆现有的平台好多查不到这方面的完整信息。书籍出版发行时都有规范的主编、作者、日期、书号等等,一个数字人文成果发布后,有哪些参与人?分工是什么?怎么使用?有没有文档?这些都是问题。
但是标准的制定又往往沦为某些机构满足自身利益的工具,所以标准不仅仅要开放,标准的制定过程也需要开放。标准一定不能太多,所以不能总是创新。如果始终讨论不出标准,那么能够用国外的开放标准就用这些标准,不需要什么都要去创造标准。
第三个是基础软件服务,如基础应用软件、发布服务、云服务和软件工具包。
基础应用软件包括数据管理、文件管理、文本处理、图像识别、地理信息管理、知识图谱管理、数据可视化工具等。
现在很多老师在搞数字人文研究时,使用的工具可谓五花八门,比如Word、Excel、Access、MySQL、Echarts、D3、PhotoShop、AutoCAD、ilustrator、ArcGIS、QGIS等等。
但这些工具并不完全适合人文学科的要求,对团队协作的支持也不好,好些价格还挺贵。
虽然已经有一些数字人文研究团队在相关领域取得了一定成果,实现了古籍识别、自动标点等功能,但却很少开放出相关的标准库和API,或者推出通用软件。
互联网上有各种各样针对行业的云服务,比如金融云、外贸云、设计云,但很少有为人文研究者提供服务的基础云平台。
数字人文涉及到数据共享和可视化,涉及软件开发和部署,使用云平台可以大幅降低成本,这对于经费有限的人文研究而言,更有其重要价值。
第四是由社会运营的数字人文开放基金会,这个问题谈的人很少,我要重点谈一谈。
一方面我们在提倡数据开放,一方面我也要承认,开放数据和开放代码这种事,好多时候对于原作者而言,不仅仅得不到好处,反而还会有损失。
比如时常就有报道指出,除了少数开源明星外,大部分开源作者依靠开源获取的收入极少,甚至为了推动开源降低了自己的本职收入水平。
就数字人文研究而言,开放共享这一行为并不会在职称晋级和项目评审上有什么优势,反而可能被别人拿去牟取名利,给作者本人带来经济和名誉上的损失。国家的科研基金和企业自己的投入,主要用于支撑这些单位完成成果,但通常不用于支持开放共享。
在这里我不谈论制度对数字人文的影响,比如学术考核机制,比如经费划拨机制,因为我不需要被考核,也没有申请过国家基金,讨论这个属于空谈。我想说的是,我们需要一种对开放共享这一行为本身的物质奖励和资金支持。如果你研究国外的开源软件和知识共享就会发现,开源软件和知识共享虽然意味着免费使用,但一般都接受个人赞助、企业赞助或者基金会的支持,如果没有这个模式,开源软件和知识共享是达不到现在这一高度的。
在做地理信息系统开发时,总会使用到开源GIS软件。
根据OSGEO官网显示,开源地理空间基金会资助的项目,就包括GDAL/OGR、GEOS、GeoNode、GeoServer、GRASS GIS、OpenLayers、Post GIS、QGIS、OSGeo4W、Leaflet在内的60多个项目。
之前介绍的学术地图发布平台,提到的开源软件半数都是由这个基金会推动的。
根据Visual Capitalist的数据显示,维基百科是全球访问量第五的网站。维基的访问量巨大,拥有海量用户,其运营费用很高。之所以能够长期稳定的免费运营并不断发展,又不受任何商业污染和考核机制的压迫,就得益于维基媒体基金会的成功运作。根据维基百科上的词条信息显示,到2021年,维基媒体基金会拥有员工450人,年收入约1.25亿美元。
我们不能光指望别人共享,也要为共享者谋福利。我们不仅仅要为共享者谋福利,还要建立一整套激励措施。哪怕我们不能为他们提供太多的金钱,但起码得让他们不会因为开放行为损失太多的经济利益,或者可以获得名誉。再伟大的精神落实到具体的事情时,都离不开物质支持。革命先辈除了有伟大的理想外,也特别注重根据地建设。如果没有基金会的支持,很难想象国外的开源软件和知识共享能那么发达。
在这一点上,海峡对岸的台湾也是领先大陆许多年的。之前我们发布了法鼓佛教学院的“佛学规范资料库”中的“时间规范资料库”。这个在2000年左右开始建设的系列数据库二十年来一直在不断更新,采用CC BY-SA 2.5知识共享授权协议,有规范的发布信息,能查到负责人、参与者和赞助者;有详细的文档介绍数据库结构以及如何使用。该项目由“浩然基金会”赞助,据说此基金会成立于1978年,其理念是以文化教育为核心,推广与赞助各类活动,期望开拓大众视野,培养广阔的胸襟,本着人文关怀精神,以实际行动改变世界。
对于大陆而言,基金是有的,比如学术项目通常受到国家专项基金的资助。由社会运营,完全透明开放,以资助开放共享的数字人文项目为目标,运行良好有社会影响力的基金会是没有的。
抛开国内公益基金会的种种乱象不谈,归根到底,中国的发展程度还不够,人们只是把公益和慈善,理解为扶贫、助困、求学、寻亲、环保、文保等形式,把公益理解为扶危济困。而把科技发展,文化创新这类勇攀高峰的事情,理解为只需要国家和企业投入即可。
这些方面国家固然要投入,但政府资金有其天然的体制弊端,需要社会力量的补充。又因为数字人文项目拿的是国家的钱,所以就按学术考核、职称晋升那一套标准走。当项目完结,平台也就宣告死亡。数字人文成果和著作成果不一样,著作可以通过出版社不断重印继续供其他人使用,应用平台却需要创建者长期持续维护。
数字人文项目通过开放共享的形式,是可以直接服务社会大众的,数字人文领域有许多企业主动参与其中就是明证。但是因为这些成果是迎合学术体系的,所以又天然和大众远离,甚至认为不需要服务大众。而当大众的受教育水平越来越高时,他们对人文精神的追求也越来越强烈。最近二十年,互联网出现了网民创作大潮,社会上阅读人文著作和人文类自媒体文章的人越来越多,学习研究人文知识的爱好者也越来越多,他们都有查询分析学术数据的需求。
只要逐步建立一个公益基金会长期资助数字人文项目的机制,就会让一些项目的目标,逐渐偏向于服务更广泛的人群,偏向于知识共享。服务了更广泛的人群,能产生更广泛的社会影响力,就会让有实力的企业和收入较高的个人,参与到基金会的建设中,最终形成一个良性循环。
其实国外开源软件诞生之初也多是个人行为,后来又成了小企业的行为,大企业是不愿意共享的。
后来这些共享行为又倒逼大公司也参与到开源之中,否则就失去了竞争力。
发展到现在,大公司也主动参与到开源共享之中,把别人对抗自己的武器,变成了维护自己地位反击竞争对手的武器。
目前大陆开放共享这一趋势,在我看来更多是被动的。
欧美和我国台湾地区,都在搞知识共享。
互联网的精神是开放共享,国家也在提开放共享。
学术研究面对社会的洪流,面对国家的提倡,不得不被动共享数据。
学术界的数据不共享和商业公司的代码不共享有相似性,因为它们同样都是竞争关系。
但我相信,总有一天,一些单位会认识到,不共享会损害自己的利益,共享能维护自己的地位。
最后整个领域都认识到,数据共享有利于整体的利益,最终都参与到共享之中。
就好像一本传世之作是学者的伟大成就一样,一个长期维护可以自由使用并得到社会广泛认可的数字人文成果,是数字人文研究者的毕生荣誉。
数字人文门户网站:https://www.dhlib.cn/