中国社会科学网讯(记者王广禄 通讯员 戴俊阳)7月25日至8月5日,第三届“语料库与数字人文暑期学院”举行。
数字人文开拓未来
在开幕式上,北师香港浸会大学党委书记、副校长毛亚庆提出,数字人文作为前沿交叉学科,正在深刻改变传统人文研究的范式,语料库与数字人文作为前沿研究领域。以数字人文为主题的暑期学院,不仅是学术的传承,更是面向未来的开拓。
南京师范大学党委副书记贲国栋在线上致辞中提出,南京师范大学在人文研究领域拥有深厚积淀,陈鹤琴等老一辈学者在百年前开创了具有光荣传统的暑校学院,具有深刻的人文内涵与学术意义。
澳门大学人文学院院长徐杰分享了澳门大学在数字人文领域的前沿成果,为暑期学员带来更为广阔的学术视野和前沿洞见。澳门大学人文学院中文系主任袁毓林认为,主动融入人工智能的研究潮流是语言大模型时代计算语言学的发展趋势,与先进的人工智能技术路线同命运是每一位计算语言学者都应该思考的命题。
活动上发布了三项重要的研究成果。北师香港浸会大学文化与创意学院院长庄以仁和北师香港浸会大学教授李建深运用数字技术深度探索青铜钟这一先秦重要文化载体的历史与艺术价值,生动展示了数字技术在考古与艺术研究中的创新融合与应用潜力。南京师范大学文学院教授李斌系统介绍了“上古汉语词网检索平台”,该平台收录近5万个古汉语词条,实现了“现代汉语—古汉语—英语”三语检索,很大程度上解决了古汉语信息处理和古文教学中词汇知识匮乏的问题。南京农业大学信息管理学院教授王东波介绍了“荀子大模型”的最新2.0版本,特别是模型的多模型处理功能和未来应用场景。
深入推动数字人文人才培养和学术研究
据李斌介绍,本届暑期学院为期10天,邀请海内外16位学者线上线下开展14场讲座。暑期分两种班型,A班以开源免费软件“MySQL数据库+PHP编程语言”为主要平台,以开源的全唐诗语料库为例,介绍语料库的构建方法、字符集编码以及计量分析方法。B班以“荀子”古籍大语言模型为例,介绍大语言模型的开发、微调、提示词与本地应用。
北师香港浸会大学协理副校长黄煜表示,这场以人文为基、数字为石的探索已在三校精神协作下绽放璀璨的光芒,期待暑期学院在未来继续发光发亮。南京师范大学文学院院长沙先一提出,暑期学院致力于前沿学术成果的交流碰撞,旨在融合不同学科写作创新,共同推动学术繁荣。
香港理工大学中文及双语学系讲座教授黄居仁认为,开展数字人文研究,数据库是基础起点,但数据库未必等同于语料库。计算语言学常要求标注的语料库只是数字化文本的一种形式,而数字人文的数据库可能包含未经标注的文本、古文,甚至是非文本的影像资料。数字人文学并非全新学科,而是技术赋能下的人文学本质回归。通过数据连接古今,以跨学科方法回应“人之为人”的根本命题。
澳门大学艺术与人文学院教授袁毓林认为,语言大模型只要有足够的训练语料提供相应的语言知识和世界知识,是可以获得理解人类自然语言的能力,这种语言理解能力源于它们从海量训练语料中习得的句法语义等语言学知识和事实以及常识类世界知识。要用“科学的归纳法”来衡量语言学理论的效力,以及语言大模型在语言理解与知识推理方面的能力。
北京大学数字人文研究中心主任王军表示,在人工智能技术快速发展并引起巨大学术范式变革的当下,语料库建设要注重学科内容丰富、多学科交叉、传统与前沿结合。中国社会科学院民族学与人类学研究所研究员龙从军提出,要深耕中国语言数据和语言事实的研究,培养这个时代所需要的交叉学科的人才,注重语言理论与语言信息技术的融合创新,从数字中看人文,从人文的角度研究数据和做数据。
活动由北师香港浸会大学、澳门大学人文学院、南京师范大学文学院语言大数据与计算人文研究中心联合主办。