中国近现代史研究专业网站
梁晨:大数据时代历史研究新方法

梁晨:大数据时代历史研究新方法

16世纪的“科学革命”后,自然和人文社会科学的学术传统出现分流:自然科学追求发现和认识“未知”事物,形成“求是型学术”(Scholarship of Discovery);人文社会科学注重解释和理解“已知”现象,形成“解释型学术”(Scholarship of Interpretation)。历史学的主要任务也逐步从“重构”历史发展到“建构”和“解释”历史。如今,随着信息化程度的加深和大数据时代的到来,将“求是型学术”引入人文社会科学,在两种研究方法或认识论间架起桥梁,已成为诸多学科因应时代发展、寻求学科对话和提升影响的重要手段。对处于边缘化危机中的历史学来说,这或许是一次难得的时代发展机遇。

研究方法脱节:历史学边缘化趋势加剧

就目前全球学术界的情况而言,历史学的境遇可谓不佳,其学科地位有不断边缘化趋势,对青年人才的吸引也愈发无力。举例来说,最近50年来,美国以人文学科为主业的学生比例从14%下降到7%,即便哈佛这样以基础人文学研究久负盛名的一流大学,人文学科为主业的学生比例也从近40%大幅下降到20%。而中国某些大学的历史院系中,一些学生被“调剂”而来,专业思想不稳固,对史学专业缺乏兴趣,出现“混学位”等现象。有学者毫不客气地指出,这反映了历史等人文学科的窘境:在全球经济竞争时代无所贡献,对学生就业缺乏帮助,在技术革命的浪潮前显得老旧不堪。

一些学者认为,这种现象的出现是市场经济条件下历史学自身实用性不强,难以“致用”所致,但笔者以为,这更可能是历史学科的研究方法脱节所致——无法“致用”于其他学科以发挥其基础学科的功效,形成了学科体系中的“孤岛”。近二三十年来,越来越多的社会科学注重依托大数据平台,开展可比较的量化研究。这些大数据平台使得不同学科对同一材料的不同解读和互补研究、探索成为可能,大大促进了这些学科间的交流和学者间的合作,相关学科的活力和影响也由此得以彰显。但历史学界,尤其是中国历史学界对此方法的认识还相当有限,实践更是匮乏。在这种情况下,史学家掌握的丰富、珍贵的史料和深刻、细碎的历史知识在一定程度上反而阻碍了其他学者参与研究和学术对话,成为导致今日历史学边缘化趋势持续的重要原因。

新研究范式为历史学提供机遇

吊诡的是,若抛开学科地位不论,历史学无论是作为资料宝库还是认识视角,其本身的价值和功能并未边缘化,甚至愈发重要。近年来,随着大规模历史量化数据库在收集、整理和构建方面的重大进展,越来越多的非历史学者借助量化历史数据平台进行社会和自然科学研究,取得重要成就,显示了历史学发展“求是型学术”的可能和前景。这种学术研究多基于系统化、标准化的历史人口或事件档案构建起的量化数据库,重视对长时段、大规模记录中各种人口和社会行为的统计描述及彼此间相互关联的分析,从而揭示隐藏在“大人口”(Big Population)中的历史过程与规律。它不仅容易发现很多可以验证或挑战现有理论的事实,还长于开展跨时段、跨地域的比较研究,为理解社会历史和人类行为提供了全球化的认识基础,进而构建起一种新的自下而上、由繁入简的研究方法和史观。

这一研究方法的兴起也是互联网时代史学发展的必然。从20世纪80年代开始的可检索文献数据库到90年代学术出版物数据库,再到21世纪初量化历史数据库,历史研究所依靠的各种材料逐渐出现了数据化发展倾向。史料拥有权的“唯一性”对史料获取的障碍大大降低。依靠互联网提供的技术和无限“连接”的可能,史料出现新的“连接”趋势,形成新的资料平台和“试验场”。对各个“试验场”的共同兴趣又可以“连接”或凝聚起一批不分国界和文化背景的研究团队。这种团队化的研究工作与自然科学接近,成为史学发展的新趋向。地方化或地域化的史学研究将渐渐转变成真正的全球史学研究。

量化数据库推动“求是型学术”发展

中国历史研究中不仅同样存在着丰富的大数据,而且许多涉及重要议题的“大数据”史料我们早已系统梳理和深入研究过。中国文献记载历时长、覆盖广,在世界各个文明中少有其匹。像户籍登记、土地分配以及科考履历等材料,都非常适合成为推动新的“求是型学术”的“大数据”。

作为社会科学化历史研究的倡导者,美国学者李中清(James Z. Lee)和康文林(Cameron Campbell) 自20世纪80年代起,历经20多年努力构建起的中国多代人口数据库(CMGPD)就被证明对人口统计学、家庭与婚姻、社会分层、卫生健康等多个研究领域有重要价值,产生了一系列新的认识。2005年起,北京大学和哈佛大学联合推进的“中国历代人物传记资料数据库”(CBDB)目前尽管尚未全部完成,但其无可替代的学术价值已经引起学界关注。最近几年,上海交通大学、山西大学等高校的学者也已开始构建自己的历史数据库。大数据思维下的“互联网+”历史研究新格局在中国已然不是空中楼阁。

依靠量化数据库发扬“求是型学术”的历史研究这一“新事物”,必然还有很多有待解决的技术问题。如应注意区分文献型数据库和真正对“求是型学术”有帮助的量化数据库。所有大型历史数据库的建设与研究都需要一个依托互联网技术支撑的国际化、跨学科研究团队,而如何构建这样的团队和开展管理,对习惯了“单打独斗”的历史学家来说也是一大挑战。此外,我们的科研管理体系也需更新,要给予数据库应有的科研成果地位和正确评价团队成员的工作贡献。2013年教育部社科委历史学部年度工作会议的主题恰是历史资料的整理、研究和数字化建设。显然,中国史学界已经意识到大数据时代历史研究的转变与挑战,而只要看准潮流,认清问题,我们就能抓住机遇,实现历史学的突破和发展。

(作者单位:南京大学历史学院)

文章来源:《中国社会科学报》2016年6月3日