研修 | 顺应“大数据”时代,开拓语料库应用新视野——记2017年“语料库在外语教学与研究中的应用”研修班
2017/07/28
2017年7月22-24日,由北京外国语大学中国外语与教育研究中心和外语教学与研究出版社共同举办的“语料库在外语教学与研究中的应用”研修班如期在外研社国际会议中心举办。此次研修班特邀北京外国语大学梁茂成教授、李文中教授、许家金教授与参班教师一起分享语料库相关概念及知识,讲练结合,指导大家进行语料库实际操作与研究应用。前来参会的各高校教师汇聚一堂,就语料库相关的教学与科研问题进行学习与讨论,通过课上的讲解与操练、反思与提问,课后的讨论与实践、设计与应用,参班教师感受着语料库的魅力,不断寻求理论与实践上的提升与飞跃。
研修班会场
开宗明义——初识语料库
课程伊始,李文中教授为大家深入浅出地讲授语料库的概念,以及语料库与教学和科研的关系。“A corpus is a large collection of electronic sample texts of natural language use.” 在这个简单的小句子里,每一个单词都担任着重要的角色,承载着语料库的精髓,即大规模、自然情境下发生的、电子文本。而正因为语料库的这些特性,给了我们观察语言的另一个视角,为教学与科研打开了一片更广阔的天地。
语料库研究涉及对大规模文本的处理和操作,因而离不开工具的使用。李文中教授以COCA(美国当代英语语料库)举例,通过AntConc检索软件,进一步讲解了如type(类符),token(形符),TTR(类符形符比),STTR(标准类符形符比)等相关概念,并通过实际操作,手把手带领大家探索索引行,初探语料库的真容。许家金教授就另外两款常用语料库检索软件WordSmith与PowerConc的应用进行了操作和讲解,并强调了语料库检索软件的使用要义,即“from words to context”,“language use in context”,“meaning in context”,强调语境在语料库中的重要性。他指出,目前中国学者的研究热点集中在对学习者语料库的观察研究,尤其是中介语研究和二语习得相关研究。
李文中教授
许家金教授
牛刀小试——探索语料库的数据世界
在初步体验语料库以及数据的魅力之后,三位教授带领参班教师进一步探索语料库的世界,深入讲解语料的采集与整理、标记与标注。李文中教授演示如何使用正则表达式(Regular Expression)高效清理文本,消除不必要的冗余信息,这样可以节省大量的人工处理工作。梁茂成教授详细讲解了标记(markup)与标注(annotation)的差别,强调标记是对文本外部属性的必要说明,目的是为了增加研究维度,也可以基于标记信息建立子库。而标注是对文本内部语言属性的必要说明,可以通过自动标注和人工标注实现,目的是为了在服从研究目的的前提下,提取文本的语言学信息,为文本增值。梁茂成教师特别提到了“干净文本原则”与过度标注问题,强调语料库的操作都要先明确目标,并通过CLAWS和TreeTagger 这两款常用的赋码软件,手把手带领大家操作实践。
梁茂成教授
梁茂成教授手把手教学
问题导向——语料库的研究与应用
在熟悉了语料库的基本理念和操作之后,三位专家从实际案例出发,帮助大家理解如何将语料库应用于教学与科研。李文中教授从语言的意义、意义单位讲起,强调了应用的目标导向,以及搭配创造意义,并详细阐述了“连续统”(continuum of coselection)的类别和概念,通过“the naked eye”的索引研究实例,一步步引导大家如何解读检索数据并将其应用于教学与科研。许家金教授娓娓道来语料库与词典编撰的故事,不仅给大家讲述了很多词典编撰的历史与趣事,并利用PowerConc软件,讲解Corpus Pattern Analysis (CPA),演示了语料库在词典编纂中的应用实例。梁茂成教授详细讲解了keywords的概念以及keywords analysis的操作与应用,介绍了Chi-square和Loglikelihood的算法,以及如何在实际操作中,正确选择观察语料库和参考语料库。
三位专家最后基于三个研究实例——“学习者英语动词型式研究”、“大数据视野下的语料库分析”以及“基于语料库的翻译语言特征研究”,全面展示语料库的研究应用。
学以致用——分组研究设计与汇报
经过两天半高强度的学习之后,参班教师也迎来了实践与应用的挑战。八个小组利用课余和晚上时间,积极讨论和准备,就语料库在教学或科研中的应用进行设计和汇报,阐述研究问题、研究设计、预期成果与难题。八个小组汇报的内容,如“基于iWrite Corpus的中国英语学习者高频短语动词使用研究”、“语料库途径的英语被动语态使用特点分析”、“基于语料库的批评话语分析——以《国别人权报告》朝鲜部分为例”等涵盖话语分析、词汇研究等方方面面,每一次汇报就像打开一个实践启发的大门,在三位专家的点评和反馈后进一步得到拓展和升华。参班教师们因语料库结缘,也在合作与互动中熟识。很多教师都是第一次接触语料库,是真正的“小白”型选手,却在短短在三天时间内,能够参与完成一个完整的研究设计,很多教师都在反思日志中感慨、感谢这份收获。
每年的语料库研修课堂,都是一次经典思想的传递。2016年第一期开办至今,本着讲练结合、学以致用的原则,“语料库三剑客”循循善诱,带领一批批教师认识语料库,感受语料之美,将语料库应用到日常教学与学术研究中。这是每年夏天,高校外语教师在北京同语料库的一个约会。
“I am new here!
I’ve learned something new here!
I can handle something new in the future!”
——一位参班教师的感言