探索数据魅力,开拓语料库应用新视野——记2018年“语料库在外语教学与研究中的应用”研修班
2018/08/07
2018年8月2—4日,由北京外国语大学中国外语与教育研究中心和外语教学与研究出版社共同举办的“语料库在外语教学与研究中的应用”研修班在外研社国际会议中心举办。此次研修班特邀北京航空航天大学梁茂成教授、浙江工商大学李文中教授与来自27个省、市、自治区、160多所学校的220余位参班教师一起分享语料库相关概念及知识,理论结合实践、讲解搭配操练,共同探索如何将语料库应用于外语教学与研究。
会场全景
开宗明义——初识语料库
课程伊始,李文中教授为大家深入浅出地讲授语料库语言学的基本概念。语料库是什么? “A corpus is a large collection of electronic sample texts of natural language use.”即大规模、真实自然语言的抽样电子文本。随后李文中教授带领大家详细地认识语料库的全貌,指出语料库研究的工具、方法和过程,在学习、研究和教学中,给予我们观察语言的另一个视角。他同时提到,语料库在人工智能、自然语言处理、机器辅助翻译、二语习得、词典编纂等方面都有所应用,大大拓展了语料库应用的外延。
李文中教授特别为大家厘清了语料库语言学的一些重要概念,如强调facts是能被观察到、能被测量到、能得到验证的确切发生的事件;data是对事实测量的结果;evidence是为了支撑某一观点而找到的证据。并逐个介绍type(类符)、token(形符)、TTR(类符形符比)、STTR(标准类符形符比)、node word(节点词)、span(跨距)、collocation(搭配)、co-occurrence(同现)、recurrence(复现)、co-selection(共选)等相关概念,教授大家如何测量搭配力度。他对corpus-based(基于语料库的研究)和corpus-driven(语料库驱动的研究)方法做了区别分析:基于语料库的研究是一种验证程序,而语料库驱动研究是一种发现程序。在能够清晰理解这些概念的基础上,大家便可以运用语料库进行研究,达到验证假设和直觉、获得新发现、建立新的假设、构建新的理论、验证已有的发现和解决难题的研究目标。
标记与标注是通过给文本内或文本外添加相关说明从而赋予文本更丰富的内容。梁茂成教授就这一话题层层渐进,讲解了标记与标注的的方法以及相关问题。标记(Markup)包括来源信息、地理信息、时间信息、产出信息、传播媒介等社会语言学变量。标记方法分文本内和文本外两种,可运用正则表达式(Regular Expression)高效标记文本,节省人工处理工作。梁老师演示了标记方法,手把手教授参班教师如何建立新的子语料库。标注(Annotation)指在语料库文本中添加语言学信息,例如篇章结构信息、段落信息、句法信息、词性信息、学习者语言错误和其他自选信息等。标注可通过自动标注和人工标注实现。接着梁老师借助TreeTagger赋码软件详细解释了词类的自动标注,并带领大家一同熟悉认识各个赋码。梁茂成教授还特别提到了人工标注的主观性、干净文本原则,他提倡适度标注,同时需在研究时设置语料库的标注集。
参班教师认真听课
专题攻克——识解正则表达式
正则表达式是多数语料库语言学入门学者难以攻克的难题,两位教授专门就正则表达式为参班教师带来专题讲座,手把手带领大家实操训练。正则表达式是一种用来描述字符串规律的表达式,主要用于查找或替换文本中形式上有规律的字符串。通过操作PowerGrep软件,梁老师引导老师们演练正则表达式的基本符号、计量符号、逻辑符号和扩展组合符号的运行模式,实现了严格、高效的人机互动。 现场老师认真操练,积极提问,现场学习气氛热烈。
李文中教授通过演示正则表达式带领大家操作语料库,完整对比分析了学术文本和小说文本中加强副词的使用差异。他指出,研究一般可分为四步:第一步确定语料库,第二步准备检索文件,第三步检索语料库,第四步把检索结果导入Excel表格,或统计软件进行下一步分析。李文中通过以上四个步骤,经过统计分析后得出两个语料库中加强副词的使用偏好、其共选词汇和蕴含的语义韵。
参班教师积极提问
融会贯通——案例讲解与剖析
理论讲解与实操训练之后,两位教授最后基于案例详解,全面展示语料库的研究应用。李文中教授演示了学习者语言特征的聚类分析,带领参班教师一起操作语料库并展现可视化分析结果,通过展示不同分数段学生的作文聚类、母语对二语习得的影响以及题目词语的使用是否对作文有显著的影响等的可视化分析,引导教师发现可进行研究的方向。
梁茂成教授首先通过与老师们共读论文,就英国英语中的强势词进行的社会语言学方向的研究做了简要的介绍。而后带领大家进行实操演练,对目前研究的动向与热点进行了预测。梁教授随后就如何在大数据视野下进行语料分析,从索引行抽样所引发的思考、大数据分析方法应用设想、Sinclair对free hand的探索和索引行聚类分析四方面进行了详细论述。
学以致用——分组研究设计与汇报
经过两天半高强度的学习之后,参班教师也迎来了实践与应用的挑战。小组利用课余和晚上时间,积极讨论和准备。思想的碰撞,结成精彩的成果。各个小组就语料库在教学或科研中的应用进行设计和汇报,阐述研究问题、研究设计、预期成果与难题。两位专家也对每组的汇报进行点评,提出可行性反馈和建议。老师们课上认真学习操练,课下积极讨论提问,应用语料库的能力在短短三天的时间内得到了质的飞跃。
小组汇报
每年盛夏,都有一批饱有热情的教师在这里集结,因语料库结缘,一同传承语料库语言学的经典理论,亲身感受语料数据的魅力。离开这里时,带着满腔对未来科研的信心,在今后的科研中弘扬和发展语料库语言学理论、利用大数据、借助大数据分析方法、利用深度学习技术、运用可视化呈现,进行跨学科研究。文理结合的跨学科研究将成为引领科研发展的潮流,研究者将在这里发现一片广阔的科研新天地。
学员反馈
语料库语言学不仅是一种研究语言学的方法和工具,也改变了我们对语言研究的视野。(1-13)
通过一天的学习,让我们这种语料库小白看到了希望,而且赠送的软件很实用,感觉报这一期班真的超值。(2-14)
下午听了语料库与ESP相结合的研究案例之后,自己的研究方向更加明确,可以将语料库与自己感兴趣的方向相结合进行研究。(5-20)
专家们在讲课时会与学员们分享很多他们在研究中的想法及看法,对我们做研究非常有帮助,极大地拓展了思路。(1-11)
我觉得这个工作坊的设计非常人性化,把理论和实际操作完美地结合在一起。两位教授作为语料库语言学的领军人物,在讲授过程中事无巨细的认真和严谨及极大的耐心都给我这种初学者带来勇气和鼓励,让我发现语料库没那么难、那么神秘。(2-25)
国才面对面:畅所欲言,收获测评与教学新知
测评是外语教学中的重要一环,国才考试高度契合新时代人才测评需求,为帮助参班教师深入了解测评趋势、进一步提升教学水平,本期研修班特举办“国才面对面”活动,解析国才考试理念与任务,评阅考生真实作答,分析能力评价标准,创新教学方式方法。
北京外国语大学刘波老师针对国才初级口头沟通“产品说明”和国才中级书面沟通“撰写提案”两个任务,邀请现场老师分别就考生真实答卷进行评分。老师们积极思考、踊跃发言,给出的评分或宽和或严谨:有些认为考生能够按照要求完成任务、美中不足的是少有亮点;有些认为考生跨文化沟通意识有待提高、作答没能从目标对象角度出发、缺少说服力;有些认为考生本应深入思考应对策略、却只套用了题目已有信息、不足以解决问题……
在现场评分交流后,刘波老师揭示了国才考试任务的评分标准和考生的实际得分,并从话题阐述、语言表达、结构逻辑等多方面将考生作答与分数等级一一对应,说明评分理由,帮助教师在观点碰撞后求同存异、收获新知。刘波老师还在分析国才考试任务时揭示了其独特优势——为考生设置真实职场情境,赋予考生特定职场身份,考查考生使用英语解决实际问题所需要的综合能力,即国际视野与协商合作能力、跨文化理解与表达能力、分析问题与解决问题的能力。