中国社会科学网讯(记者 陈雅静)8月10日,第四届语料库建设与应用研讨会在北京外国语大学国际会议中心成功举行。本届会议由中国社会科学院语言研究所语料库暨计算语言学研究中心、北京外国语大学中国外语与教育研究中心、中国社会科学院语言学重点实验室(2024SYZA001)主办,外语教学与研究出版社承办。与会学者围绕“语料库语言学前沿:数据驱动的语言研究、创新应用与未来展望”展开探讨,表示语料库语言学的前沿研究正在通过数据驱动的方法、跨学科合作以及新技术的应用,不断拓展其研究领域和应用范围,展现出广阔的发展前景和潜力。
语料库建设驱动语言学研究
中国社会科学院语言研究所所长、国家社会科学基金重大项目(23&ZD314)“辞书编纂用大型多功能语料库建设与研究”首席专家张伯江,北京外国语大学中国外语与教育研究中心副主任许家金分别致辞。张伯江向与会专家学者介绍了语料库暨计算语言学研究中心在相关领域的发展和成就,积极展望了语料库语言学研究的美好前景。
许家金在致辞中表示,本次研讨会是高规格的语料库研究会议,旨在促进汉语学界和外语学界的交流与融合,共同推动中国语言研究事业的繁荣发展。
中国社会科学院语言研究所研究员顾曰国作了题为“论老年人生历程多模态语料库建设”的报告,探讨了语料库语言学的本质和发展方向。顾曰国认为,语料库语言学应该从鲜活体验入手,以人为中心;语料库语言学不仅是方法论,更是语言学的重要分支,其终极目标是通过研究语言而理解人。基于此,他提出面向语料库建设的两个奠基命题:第一是语言事实原则,即自然自发语料应该成为语料库的基础;第二是人为终极目的原则,强调语料库的构建需服务于特定的研究目的。最后,顾曰国以构建老年专门人群多模态语料库的研究实践为切入点,展示了语料库语言学研究在实现对人生历程的数字化重构方面的应用价值和潜力。
北京航空航天大学外国语学院教授卫乃兴作了题为“AI-Assisted Corpus-Based Studies of Discourse: Significances and Limitations of Machine Learning Techniques”的报告,探讨了机器学习技术对语料库语言学研究的影响,重点以话语分析领域的应用进行了介绍。卫乃兴提出,传统语料库的话语研究(CBDS)在话语建构和表征方面使用了搭配、主题词、N元组、语义倾向和语义韵等一系列语言分析技术取得了极大成效。但是,随着数据规模的不断扩大,基于语料库的话语分析研究者面临着如何使用新计算技术处理大规模数据、如何挖掘局部语境下暗藏于命题表面下的态度意义、如何精细分析精密细微组织等一系列挑战。为此,卫乃兴呼吁改进当前的数据处理技术并完善语言分析工具以解决上述问题。此外,卫乃兴将深度学习聚类分析、主题建模、向量建模等技术应用于基于语料库的话语分析研究领域,并通过量化、可视化的方法展示了以上智能分析工具的优异性能。同时,智能分析技术在带来便利的同时也存在算法局限造成的随机性和任意性问题,语言学家始终需要重视真实文本的阅读,并结合具体的研究问题进一步对智能技术进行调试和干预。
建立语料库的大语言模型
北京航空航天大学外国语学院院长梁茂成教授作了题为“本地大语言模型与知识图谱构建”的主旨报告,首先回顾了搜索引擎的发展历程,提出基于大模型的新一代搜索引擎能够有效整合全网信息,给出更个性化、能溯源的回复内容,对传统搜索引擎构成了极大挑战。随后,梁茂成介绍了检索增强生成(RAG)技术,及其在信息提取领域的应用。该技术结合了深度学习和知识图谱的优势,能够将非结构化文本转化为结构化的知识,并进行语义层面的分析。最后,梁茂成展示了多个最前沿的基于检索增强生成技术的信息检索工具,如Perplexity、Genspark等,进一步展望了检索增强技术和知识图谱技术在语言学领域的广泛应用前景。
中国社会科学院语言研究所研究员张永伟作题为“国家语料库的研制”的报告,介绍了国家语料库的项目背景、建设进展和未来展望。张永伟提出,国家语料库是由国家级机构建设的重大文化工程,旨在全面反映国家通用语的使用和发展。张永伟进一步从语料、工具等方面介绍国家语料库的建设进展。现阶段,国家语料库数据规模已达30亿字,包含报刊、法律、教材等多个子库。同时,研究团队开发了在线分析工具,支持检索、统计、搭配、对比等功能,并对语料进行了分词、词性标注、句法分析等标注,还对汉语拼音标注和词义标注等研究内容展开了积极探索。展望未来,张永伟表示,未来的国家语料库将进一步融合人工智能技术,提升语料库的智能分析能力。此外,他呼吁吸引更多高质量中文语料库入驻平台,共同构建一个开放共享、规格统一、多元融合的中文资源联盟。
研讨会共举行八组分论坛,主题涉及语料库建设、词典与词义研究、汉语研究、英语研究等四部分研究内容。与会者从多学科角度探讨了各类语言研究与语料库、人工智能技术深度融合的有效途径,学术观点碰撞融合、精彩纷呈,为语料库语言学研究提供了新数据、新思路、新方法、新范式。
会议闭幕式由北京外国语大学中国外语与教育研究中心副教授刘鼎甲主持。