21世纪进入第二个十年,信息技术得到突飞猛进的发展。我们正在进入一个全方位的“大数据时代”,呈现出从“云计算”到“大数据”的发展趋势。这个发展趋势不是虚空的,而是正在对社会生活和学术研究产生着实实在在的重大影响。
利用现代信息技术,将传统文化典籍以数字化“大数据”的形式保留下来,并且发扬光大,正在日益引起许多国家,特别是发达国家的重视。一个典型的例子,由哈佛大学、麻省理工学院、Google和大英百科全书的专家学者组成的一个研究小组,2011年1月在著名的《科学》杂志发表了一篇题为《基于数以百万计数字化图书的文化定量分析》的文章。该项工作利用Google Books中数字化质量比较高的超过500万种图书,时间跨度从公元1500年到公元2000年,规模总计5000亿词,其中英文3610亿词、法文450亿词、西班牙文450亿词、德文370亿词、中文130亿词、俄文350亿词,以及希伯来文20亿词(据估计,占人类有史以来出版图书总种数的4%),借鉴基因组学(Genomics)的思路,对这些图书组成的“大数据”进行分析,如发现单词或人名在历史文献中随时间变化的频率,由此推导出人类文化的发展趋势和演变规律。他们把这个全新的研究领域称为“文化组学”(Culturomics)。这个例子表现了历史文献“大数据”建设与高水平研究的成功结合。
在我国,经过20多年的努力,目前古籍文献数据化进入了一个新的发展阶段。最早出现的是大型光盘数字化古籍库,如文渊阁的《四库全书》、《四部丛刊》等光盘形式的数据库,开辟了海量典籍数字化的先河,“中国基本古籍库”光盘工程则达到了高峰。继而是将这几种大型光盘数字古籍库转化为网络古籍库,“国学宝典”、“龙语瀚堂典籍数据库”等陆续呈现。这些数字古籍文献资料库的建立,极大地提高了文献信息的检索效率。以往文献资料的检索,基本上是依靠手工翻检形式,速度慢,效率低,还经常出现漏检的情况,而在古籍文献数据化后,依靠计算机强大的功能,使用者可以在短时间人获取更多有关信息。在提高使用效率的同时,也有效地保护了珍贵古籍。
专题数据库因其大规模的数据量,为专题研究提供了某些突破。比如说,首都师范大学文学院的“中国古代诗词韵律的发展状况”研究课题。研究人员设想把先秦、两汉、魏晋南北朝到唐宋时代每一首诗、每一首词的每一个字的读音、声调、韵部等全都统计出来,由此再考察中国古代诗歌声律的发展,弄清它们之间的变化。这在过去是不可能做到的,正是因为有了中国古代诗歌文本和古代汉语音韵数据库,这样的工作就可以进行了。
大规模古籍数据库的建设,可以使学者们从繁重的翻检古书的劳动当中腾出更多的时间,发现前人未能发现的课题,或者前人虽已发现但囿于精力和技术条件未能研究的课题,进行更多的创造性劳动。将人文社会科学的研究和现代科学技术手段完美结合起来,是未来的发展方向。大规模古籍数据库所带来的功能是无法比拟的,对于学术发展和人文学科建设的推动都是巨大的。
中国史学界一直将实证主义视为最基本的研究方法,向来重视史料的扩充和考证方法的更新。随着信息技术的深化,空前规模的史料不断涌现,在推动历史研究的同时,也对史学家的研究方法和能力提出了更大的挑战。现代史学家的研究表明,社会科学研究领域中的定量分析和数据库方法在研究大规模的群体型、连续性材料上非常有效,为克服繁杂的困难提供了重要思路。如美国学者李中清一直主张深入挖掘历史材料,构建大样本、长时段数据库。他与康文林合作,从1980年代起花费了20多年时间建立起的中国历代人口数据库(CMGPD)被证明对人口统计学、家与家族、社会分层、卫生健康等多个学术研究领域有重要价值。中国气象局张德二在查阅近万种历史文献的基础上,采集有关记录22万多条,并详考其出处、时间和地点,建立了中国三千年气象记录数据库,为中国历史气候及相关研究提供了坚实的基础。复旦大学与美国哈佛大学共同开发了中国历史地理信息系统(CHGIS),该项目试图建立一套中国历史时期连续变化的基础地理信息系统,为研究者提供GIS数据平台、时间统计以及查寻工具和模型,这一工作不仅为历史地理学界提供了一套地名查询系统和政区空间数据,更为多个研究方向的信息化建设提供了基础平台。可以肯定的是,数据库方法对于历史研究有着重要意义和广阔的发展空间。巴勒克拉夫曾明确指出,现代历史学研究必须突破传统历史主义的束缚,只有应用社会科学理论和方法,史学才能真正从艺术转变为科学。构建大型数据库并采用定量分析在客观性和发展现问题的能力上优势明显,已经成为国际社会科学研究的主要方法之一。
在充分占用了史料数据后,如何运用合适的研究方法也是研究人员需要解决的重要问题。面对庞大数据量,人工显然是无法有效识别和分析,但是计算机和科学方法的引入,可以让研究人员从繁杂的史料数据中发现不同数据间的关系或规律,从而使研究得以深入。同时,以庞大数据库为基础的定量研究可以较好地克服研究过程中的主观性。
应该说,大规模古籍文献信息数据库的构建和现代社会科学研究方法的介入,使研究人员的视阈扩大,研究深度得以增加,不过单纯的技术仍无法解决全部问题。对于数据元来说,由于史料的数量大、分散性高等特质,对研究人员的组织与协调能力有较高的要求;史料因难以统一标准,进而对数据解读准确性产生一定的影响,等等。对于研究过程来说,只有将数据分析后得出的相关发现置于系统的历史结构中去,深入分析新问题与整个背景之间的关联和互动,才能正确理解新问题、新史实,进而分析和研究这些新发现。这一过程也对研究者自身研究能力与水平提出了很高的要求。
(来源:湖南省社会科学院《培训工作简报》,2015年第2期;作者系省社科院文献信息中心助理研究员)