《大语言模型的外语教学与研究应用》|“我来读文献” 【书目阅读】No.119

主审:

总主编:

主编:

副主编:

编者:

作者:许家金、赵冲、孙铭辰

译者:

书号:978-7-5213-5048-7

出版日期:2024/02/28

定价:¥69.9

  领读专家
许家金

北京外国语大学中国外语与教育研究中心副主任、人工智能与人类语言重点实验室多语种语料库研究中心主任、教授、博士生导师。中国语料库语言学研究会秘书长、全国语料库翻译学研究会副会长。《语料库语言学》杂志主编。教育部“新世纪优秀人才”。先后主持9项国家社科基金及省部级课题。主要研究兴趣为语料库语言学、二语习得、语言对比与翻译、语料库词典学。

研究方向:
  导读
大语言模型技术方兴未艾,外语教学与研究随之迎来深刻变革。本书旨在展示大语言模型在外语教学与研究中的系统应用,进而推动外语学科发展的提质升级。全书共四章。第一章概述大语言模的内涵及其在外语教学与研究中的应用思路,并阐述了提示工程的总体原则。第二章和第三章通过案例讲解大语言模型的具体应用。其中外语教学方面的应用包括词汇教学、语法教学、听力教学、口语教学、阅读教学、写作教学、翻译教学、词典编纂等;外语研究方面的应用涵盖文献阅读与评述、量化数据采集与分析、质性数据采集与分析、语言表达与润色等。第四章论述了大语言模型应用的挑战与机遇。
  思考题及解答
第一阶段
第二阶段
1. 大语言模型时代我们应具备什么样的数字素养?
许老师:在“棋盘书”中我将大语言模型时代的数字素养凝练为“问商”(prompting quotient),虽不全面,但能说明些问题。以“棋盘书”的封面设计为例,为了设计出贴合图书内容的封面,我们尝试使用ChatGPT生成多种图书封面图案,最后选出3张参考图片,并交由出版社的美术编辑进行设计和完善,形成本书现有的封面。该书封面设计以棋盘和纵横字谜(crossword puzzle)为主要元素,并融入本书的关键词——large language model、teaching、research、language。 下面我结合封面设计具体过程,简述我提出的问商及人机协同模式。首先,能否提出好问题,取决于我们对某一领域、某一方面知识的积累以及日常生活体验。以本书封面为例,能够想到用棋盘来表示语言,是因为我通过阅读,了解到语言学家索绪尔和哲学家维特根斯坦在讨论语言运作原理时,经常引用国际象棋棋盘这一具象符号。棋盘是一个体系、一个系统,其中包含的元素类似于语言中的字词,棋盘的规则类似于语言中的语法。此外,根据日常生活体验,外语人应该了解纵横字谜这种消遣游戏经常出现在报刊上。在字谜游戏中,需要通过上下文推测当前的单词,这实际上也是大语言模型的底层运作原理。而对于外语教师而言,就需要我们提前具备教学任务设计、教学材料及练习编制、词条编写等方面的专业知识。 除了这些知识外,还需要知道我们的需求是什么,即具有需求提炼能力。比如,我知道我想设计这种类型的封面,我想把某段话翻译成什么样风格的目标语。接着,我们希望通过编写提示语,与大语言模型交互,做一些有意义、具有创新性的事情。我们通过这个所谓“问商三角”概括出了大语言模型时代的数字素养,“问”是我们跟大语言模型交互的主要方式,这是素养的核心。但是问出好问题的前提是要具有相关知识,有了相关知识后还要分析并厘清需要解决的问题,进而要实现“创”这个最高目标。
2. 如何防止滥用大语言模型?
许老师:我们可以分别从教和学两个方面来讨论。如果教师偷懒,可能会直接让大语言模型帮助生成教案,包括教学目标、学情分析、语言技能目标,等等。这是非常容易的,而且很专业,但我们明确不鼓励这种做法。教学设计还是应该由教师来主导去完成。但是目前还没有办法有效防止大家这样做。 此外,据我了解,现在学生们利用大语言模型完成作业的情况已较为普遍,尤其是在完成写作和翻译作业方面。面对这种情形,建议教师可多设计教学任务让学生在课堂上现场写作和翻译,也可引导学生将自己翻译的文本与人工智能翻译的作比较,并培养自主学习能力,认识自己翻译存在的问题,最终提升个人语言能力和素养。 由于大语言模型所用训练语料规模超大,ChatGPT这样的大语言模型智能机器人翻译的整体质量和流畅度相当高。但翻译首当其冲应该还是忠实度的问题,人工智能译文难免会出现偏离原文,文风、文体不对等等情形。不过,相较于之前的机器翻译,大语言模型在翻译方面比较大的优势在于意译,即能翻译出语句中隐含的意思。
3. 在使用大语言模型辅助外语教学过程中,如何保证教师的主体性?
许老师:教师需要不断提高自己的专业知识和学科素养,包括关于语言、对象国文化、教学法等方面的知识,还包括对学生的认知,比如不同年龄段的学生有什么特点等,一个都不能少。这是保证我们在与人工智能合作共生中的立命之本。这其中包括我们要学习并体悟产出导向法、“续”理论等创新教学理论,进而思考如何运用人工智能新技术助力这些理念的落地。
4. 国内外应用体验较好的大语言模型有哪些?
许老师:我们用的比较多的国外大模型包括:ChatGPT 4o、Claude 3和Gemini 1.5 Pro。这三种模型生成的内容质量较高,且在图片理解和生成等多模态能力方面表现较好。此外,Sider、POE等集成性大模型平台,包含多种模型,也是非常方便实用;Groq平台集成了现在比较流行的几个开源模型(如Llama 3)。国内的大模型包括文心一言、讯飞星火、通义、智谱清言、月之暗面等也都不错。相关网站的链接我们已汇总在“语料天涯”(https://corpus.bfsu.edu.cn/CorporaAZ.htm)页面中。 由此可见,我们能够用到的大模型资源非常丰富。如果用于日常语言润色、翻译等,效果已经非常好了。这些资源对外语教学工作者而言是个福音。我们团队目前还将大语言模型用于数据分析、文本分析等语言研究中,详见《大语言模型的外语教学与研究应用》一书的后半部分。 近期人工智能支持的搜索引擎成为热点,如Perplexity、秘塔AI、360 AI搜索天工AI。这类搜索引擎提供的结果经过大模型汇总整理,更加精准扼要。搜索体验明显提升。
5. 外语教师如何有效利用大语言模型提升教学和科研能力?
许老师:首先,在日常工作中可以充分利用大语言模型的优势,比如可以通过人机协同进行作文批改、语言润色。需要注意的是,我们仍需提高自己的语言素质。如果初稿写得逻辑不通,让大模型改的话,它的修改可能会偏离我们的本意;而如果本身就写得很好,大模型再稍微润色一下,就能如虎添翼、锦上添花。 在提升研究素养方面,我们团队在探索如何利用大语言模型开展更深入、更高级的研究。这些研究主要涉及语义分析,即关于意义和功能方面的语言学分析,如话语分析、语用学研究等等。“棋盘书”第三章3.3.2节呈现了较多的话语分析标注案例。更多案例,我们整理成了大模型提示库网站: https://promptbank.unipus.cn。 此外,我们还利用大模型开展了很多多模态话语研究。大模型就能读出图片内容,包括语言研究者关心的非语言特征,如手势、表情等。从我们目前的尝试看,大模型多模态标注的准确率较高,已经达到可采用的程度。
6. 利用大语言模型进行论文润色等做法,会被认定为学术不端吗?
许老师:根据我自己的体验以及我咨询过的计算机专家的意见,在学术实践中使用大语言模型,可能会涉及一定的学术规范和伦理问题,因此我们需要慎重对待。 其实这还是个“度”的问题。我自己在实践中以及在教学生时,会注意以下方面:应杜绝直接让大模型生成整篇文章,或者直接让大模型将撰写的中文文章翻译成英文。我们可以在句子层面让大语言模型帮忙润色,或提供修改建议,而不是整段或整篇。比如,我会请大模型帮我理顺两个句子间的逻辑关系,或替换一个搭配词;或者我草拟好英文邮件,让大模型帮忙润色完善。 关于学术伦理风险,目前已有一些工具可以判定文字内容是否由人工智能生成,但现在这些工具尚不成熟。即便如此,我认为我们仍应秉持谨慎的态度,因为现在不成熟,不代表两三年后不能研制出可靠的检测工具。即便是我们已经发表的文章,将来这些工具还是可以通过电子版进行反查。因此,我们需要掌握“度”的问题,不要大篇幅地依赖大模型。
7. 在利用大语言模型分析语料中的修辞时,请问一次适合上传多少语料?
许老师:各个模型的网站允许上传的语料量不一样。此外,有些网站是可以上传附件的,网站对话框下有曲别针图标或者加号,意味着可以上传附件。现在有的网站允许上传的附件量非常大。比如,月之暗面声称其付费版能够上传200万字的文档,免费版本至少能上传20万字,那这个量就很大了。但这个主要是指它对文档内容的阅读概括和理解。
8. 可以用大语言模型分析句法复杂度和词汇复杂度吗?
许老师:可以的,我们尝试做过。但我想提醒一下大家,因为现有工具可以分析句法复杂度和词汇复杂度,所以我们需要对比两个结果是否完全一致。我们自己试过,有时候大模型得出的统计数据,跟陆小飞等学者研发的工具得出的数值有些差别,但我们并不清楚为什么会出现这种差别。所以如果现成工具可以进行分析,建议还是用现有的成熟工具更加稳妥。
9. 如果我们将自己收集的语料上传至大语言模型,会不会被大模型爬取泄露?
许老师:理论上应该会的。所以我们可以掌握一个基本原则,不要上传那些你认为比较重要的数据。此外,务必不要上传个人姓名、单位、身份证号、手机号等可以识别个人身份的信息。
10. 我们以后申请课题时可以使用ChatGPT分析数据吗?
许老师:目前整个学界还不太接受,但是将来一定会接受。我们团队现在已经在用ChatGPT分析语言学数据。当然我们会把整个过程描述得非常详细,包括其中的核对、验证过程。不要让别人觉得这是一个黑箱子,要让别人看到整个过程一定是有人参与的,都是经过人工核对过的,从而提升数据分析的可信度。
11. 本书讨论的词义辨析、搭配、完形填空等设计,都可以通过语料库实现。现在我们又用大语言模型来操作了一遍,这有必要吗?
许老师:这个问题见仁见智。我们认为语料库的优点是所提供的语料真实、地道,且来源非常清楚。而大语言模型的语料是模型生成的、拼凑出来的,不是实际中真实使用过的语言,所以还需要人工判断,但是它的流畅度、地道性确实相当好,可以说是接近母语的。 大语言模型的优点在于它的灵活性,比如,当让它生成几个英文句子,如果我们觉得句子太难,就可以再让它根据指令降低难度,生成适合特定学段的句子。但是利用语料库进行调整,相对而言就不那么方便。由此可见,如果大语言模型生成的结果不令人满意,我们可以提出新的需求,它就会相应调整。所以它特别智能、听话、贴心、灵活。我认为如果从个人体验来看,我是愿意用大语言模型的,因为它生成的句子从语法的地道性、流畅性来看,是超出我们一般的英语老师,使用起来也比较友好,使用自然语言提问,不需要学习什么技术操作或编程,就能解决很多问题,而语料库操作的技术门槛相对更高一些。 当然在实践中我仍然还会去用语料库,语料库并没有完全退出历史舞台。如果要做一些非常确信、严谨的工作,我认为语料库还应该还是首选。目前我们正在探索将大语言模型与语料库数据和方法充分结合,开创语料库研究新局面。
1. 书中介绍了哪些好用的智能学术文献梳理网站?
许老师:在有大语言模型之前,我们用搜索引擎,比如谷歌、百度、必应去找文献,同时用的比较多的是期刊数据库和电子文献数据库。除了大语言模型之外,书中还提及了几个学术文献梳理网站,例如ChatDOC、Consensus、Connected Papers、Elicit、ResearchRabbit、ScholarAI、Scispace、SearchSmart。这些平台借助现有的期刊数据库和文献库,再结合大语言模型,支持聊天互动,具有概述文献、解读归类分析的能力。 以Elicit(www.elicit.com)平台为例,网站支持查找文献,还可以上传文献后生成概述。网站是交互式界面,可以像使用大语言模型一样输入提示语来布置任务。
2. 大语言模型方法和语料库方法有什么异同?
许老师:这是当前语料库研究者面临的新议题,我近期也在思考这个问题。学界现在有不同的认识。我目前倡导试行“大语言模型辅助的语料库语言学”(LLM-assisted corpus linguistics)。换言之,我们拥有的大语言模型这一新的研究工具,有效地补强了我们原有的语料库工具箱(complementary corpus toolkit)。我们之前的积累并不会归零,不但不会归零,还会成为我们后续开展研究的坚实基础。 大语言模型给我们带来了更加“合手”的新型研究工具。之前很多做不了或做不好的事情,现在通过大语言模型都能实现。例如,在语料库研究中,有关语义和功能的自动标注借助大语言模型从而成为可能。 语料库研究多是基于形式特征(form-based)的,需要以检索词或检索表达式,得到所需语例。而大语言模型则有助于我们开展从功能到形式(from function to form)的研究,例如研究隐喻、反讽、言语行为等。 书中所举的会话结构分析、语步分析、叙事结构分析、文化呈现分析以前都是手工完成,而现在大语言模型可以自动化标注,准确率和召回率都很高。通过自然语言的表述,大语言模型就可以进行自动标注。 尽管大语言模型在语义的功能分析上表现出色,但对于词频分析、搭配分析、词性标注、句法标注等经典任务,语料库方法仍具有优势。因此,经典任务应继续由成熟的语料库方法处理,而大语言模型则适用于需要更复杂语义和功能分析的研究。相信未来基于大语言模型的语义功能和话语分析、语用学研究将会产出更多成果。
3. 我们如何保证大语言模型的分析结果正确可信?
许老师:大语言模型分析结果的可信程度,正确与否,目前来看还应谨慎视之。其生成结果存在一定的波动性,多次生成同一结果有时会存在差异。这对科学研究来说,违反了可重复性原则(reproducibility)。相信后续大模型的发展,这一问题会得到解决。 另外,尽管结果有时会有所波动,但很多情况下大语言模型的分析结果还是相对稳定的,只是呈现的样貌发生了变化。例如,用大语言模型对乔姆斯基的经典句子“Colorless green ideas sleep furiously.”作依存句法剖析,两次生成了不同的句法树结构,但其实大语言模型分析的句法关系是正确的,只是画图的形式有所不同。 因此,我们在使用大语言模型时,必须结合已有的语言学知识进行验证。即使大语言模型提高了生产力,它仍不能替代人的判断。在使用新工具时,我们需要通过抽样校对来验证其准确性。例如,可以让模型分析100个句子,抽取其中10%—20%进行人工校对,如果大部分结果都是正确的,则可以推断模型的分析大致是可信的。 大语言模型提高的是生产力,但并不能取代我们的判断,最终的结论和判断仍应由人类的知识和经验来主导。
4. 用大语言模型所做的统计分析和文本标注,学界认可吗?
许老师:关于用大语言模型所做的统计分析和文本标注,学界是否认可的问题,从我个人观点来看,现阶段学界的接受度还不高,因为采用这种方法发表的学术研究为数不多,但可以预见,未来此类研究将呈明显上升趋势。 要讨论学界的认可问题,首先需要有足够的研究案例和实践成果。只有在广泛应用和测试后,学界才能进行评判。当前阶段,我们会听到一些专家和学者质疑这种方法的有效性。要使这种方法获得广泛认可,还需要通过更多的实证研究来证明其价值。 因此,在现阶段,我们必须在大语言模型的统计分析和文本标注后,进行必要的人工核对和校验工作。虽然自动化工具可以处理大量机械性的工作,但最终的定稿和验收仍需人工进行,这仍然要求研究人员具有较高的理论知识和分析技能。
5. 大语言模型能分析图片、音频、视频并开展多模态话语分析吗?
许老师:在我们的书中,仅简要列举了几个关于图片生成和教学材料制作的案例,如对图片中元素和图片元素间关系的分析。随着大语言模型版本的迭代,大语言模型的多模态分析能力正显著增强。 如今,大语言模型不仅可以生成文本、图片、音乐和视频,还能够进行多模态话语分析。例如,你可以给它一张图片或视频,将文字和非语言因素进行整合分析。 传统的语言学研究更多集中于书面文字和文本上,而现在我们可以将视觉元素(如面部表情、身体语言等)结合起来进行分析。这使得我们能涵盖更多的非语言因素。视觉元素包括面部表情、手势动作、头部运动和姿态等,这些大语言模型都能通过提示语自动提取和描述,从而进行深入分析。 对于音频和视频的分析,目前还没有特别成熟的大语言模型平台和应用,但后续肯定会有。例如,Sora及国内的视频生成模型也在不断发展。由于视频是由许多帧图片组成的,因此现阶段我们可以通过抽取关键帧(keyframe)的方法进行分析,我们团队在现阶段正是这样进行多模态分析的。
6. 书中很多处提到了用LLM生成Python代码,请问生成代码后怎么操作?
孙老师:生成的Python代码可以复制到Python环境中。关于Python环境的安装,大家可以参考百度或CSDN论坛上的详细教程,包括如何配置路径、安装IDLE(代码编辑和运行的交互环境)等。一键复制生成的代码后,可以将其粘贴到预装的Python环境中并运行。 许老师:大语言模型为我们生成了代码,但是运行程序仍然需要在Python环境中进行。因此,掌握Python的基本操作仍然是必要的。虽然我们不再需要手动编写代码,但需要复制并粘贴到Python环境中。除了Python的安装外,还需进行基本的环境配置,比如安装PyCharm这样的集成开发环境。 每个人可能对Python的使用有不同的习惯,我个人较为熟悉的是Jupyter Notebook,它允许我们通过浏览器界面粘贴和运行代码。总体来说,大语言模型已能为我们生成大部分常见任务的代码,但在运行时可能会出现错误,还需要我们人工进行核对。 大语言模型并不能完全自动化所有工作,我们仍需具备一定的判断力和知识储备。首先,代码本身可能因版本或库的更新问题而出错,需要我们诊断和修正;其次,大语言模型可能无法完全理解我们的需求,因此需要我们判断它是否正确回答了我们的研究问题。这些都是人的价值所在。
7. 书中第123页给出了一个同类文献汇总的案例,这段文献汇总很像文献综述,但是文献综述讲究有述有评,而这段文字是有述无评,那么LLM能做到有述有评吗?
孙老师:目前大语言模型是可以进行评价的。书中3.1.3节例子主要涉及文献汇总,使用的是please summarize这个提示语,因此其结果主要是汇总。而在3.1.4节涉及研究趋势挖掘时,我们使用了could you analyze the overall research trend这样的提示语,就实现了内容有述有评。事实上,在篇幅有限的情况下,3.1.3节的部分评语被删减了。如果需要看到更多评价内容,可以通过调整提示语,例如“what is the research gap of the following literature?”,来实现对文献的评价。 许老师:能否进行评述,取决于我们编写的提示语。限于篇幅,3.1.3节中的某些评价内容被删减。但通过具体的提示语,例如Please analyze、Please evaluate、Please make critical comment或Compare the similarities & differences,可以实现有述有评的综述。可以实现有述有评的综述。 不过,需要提醒的是,尽管大语言模型可以提供评述,其内容正确性和有效性仍需人工判断和验证。研究者必须具备足够的常识和领域知识,以确保对文献评估的准确性。人依然是最重要的决策者,需具备独立的判断力和评估能力。
8. 过去我们用TreeTagger、StandfordNLP进行词性标注,而现在处理单个文本用LLM就可以了,本书在第135页说这为文本分析提供了灵活选择,那么到底选择哪个方法的依据或标准是什么呢?同样的问题也存在于量化统计工具上,最早我们用SPSS,接着是R语言,现在LLM统计得也很好,那么这些统计工具的选用标准又是什么呢?
赵老师:当前使用大语言模型(LLM)或基于LLM的聊天机器人进行文本分析确实提供了更多的灵活性。相较于传统工具,LLM能够更好地处理意义或功能方面的分析,这正是传统统计工具的短板。 当需要快速获得一个粗略结果,对准确性要求不高时,可直接使用LLM工具。其方便、快捷的特点非常适合此类应用场景。而在需要高精度和高可靠性的定量分析时,传统工具或经过LLM微调的专业工具则更为合适。这些工具在可重复性和可靠性方面具有固有优势。 在量化统计工具方面,LLM本身并不直接作为量化统计工具。真正的量化统计工具仍然是SPSS、R语言等。这些专业工具具备形式化表达及准确的计算方法,是进行定量分析的首选。LLM提供的自然语言理解和生成功能,更接近于人类的主观分析能力,适用于需要自然语言理解与生成的任务。然而,定量分析需要依赖于有特定公式和计算方法的专业工具,如SPSS和R语言。 许老师:对现在主流的语言大模型来说,文本分析是LLM最为擅长的领域,也是值得我们去尝试的。 LLM在统计分析方面稍显不足,这主要是因为在设计之初,LLM并没有特别针对统计分析进行优化。虽然随着需求的增加,LLM的训练中也包括了大量的Python代码和统计软件包,这使得LLM在统计分析上逐渐有所提高,甚至能够替代一些传统的统计工具。然而,传统的统计工具由于经典且可靠,且在学界内广泛接受,因此在目前阶段,使用这些经典工具进行统计分析依然是较为稳妥的选择。 正如前面进行的区分,在一些语料库不擅长的领域,如主题内容分析、语义隐含意义分析、隐喻研究和修辞分析等方面,LLM提供了更多的可能性,尤其是在多模态分析中,LLM展现出了巨大的潜力,相信会激发出很多创新性的研究。
9. 因为计算机技术发展太快,很多CALL理论还没有沉淀下来就又出了新的理论,我最早学Chapelle的CALL理论,后来又学Lamy & Hampel的技术赋能语言学习理论,本书中的问商理论也很棒。但是总感觉没有一个不断延续下来的稳定理论,不像社会文化理论那样百年繁盛,这也是我做CALL研究时总提不起兴趣的一个重要原因。
许老师:首先,需要明确的是“问商”并不是一个理论体系,只是一种提法,旨在提醒大家在学习和使用大语言模型时,注意学会如何提问。这种提法的核心在于通过提问来有效获取所需信息。要想问得好,就必须清楚自己需要什么,这就是需求提炼的能力。许多学生和老师在研究选题时感到困惑,往往是因为前期积累不足,缺乏常识性知识和领域知识。因此,掌握需求提炼和提示语的编写是关键。 问商的最重要目的是“以问促创”,希望通过提出好的问题,获得新的见解并开展创新研究。从这个角度看,问商本身并不是一个理论,而是一种认识。 关于理论更新的问题,新的理论不断出现是件好事,这不仅不会取代旧的理论,反而可以丰富我们已有的知识体系。旧的理论并没有过时,许多经典理论依然具有广泛的适用性。计算机辅助教学及教育技术领域的研究成果历久弥新,是学者们长期研究的结晶,这些成果都不是现有新理论可以完全替代的。 学术研究需要不断学习和更新理论,同时也要在已有的知识框架中深耕细作。当前我们的研究需求和出发点仍然是由人来决定的,而新技术和新理论则是我们实现研究目标的工具和助手。以开车为例,导航系统和自动驾驶功能可以帮助我们达到目的地,但目的地的设定和路径的选择仍然需要人为决策。即使在自动化程度较高的情况下,人仍要进行最终的判断和决策。 因此,无需担心人工智能的出现会威胁到人在学术研究中的主导地位,事实上,它只是帮助我们减轻一些机械性工作,让我们有更多的时间进行思考,开展更有价值的研究。这是希望与各位老师和同行们分享的心得。
10. 用大语言模型做视频的多模态分析如何确定并提取关键帧?
许老师:如何确定并提取关键帧是由研究者自己来决定的。关键帧从视频中筛选出来,可以借助现有的视频播放工具实现。关键帧的选择是人为操作的过程,需要研究者根据具体的研究问题进行选择。 视频分析不应完全依赖自动化技术,因为研究者在其中的作用至关重要。例如,如果研究者关注的是两个人面对面握手这一场景,那么就需要主动找到相关画面。关键帧的选择完全由研究目的和研究问题驱动,而不是由工具或技术来决定。 这一点反映了之前提到的“问商”概念中的一个重要方面,即明确研究需求。研究者需要明确自己的需求,以指导关键帧的选择和后续的分析工作。
11. 用大语言模型生成参考作文时,如何调整参考作文的词汇难度和语法复杂度?书中使用的标准都是欧框,如何针对高中阶段生成参考作文?
许老师:我们之前试过向模型提供四级、高中、高考的相关提示,最终生成的内容都会偏难。后来使用CEFR(Common European Framework of Reference for Languages,欧洲语言共同参考框架)来限定时,模型的表现较好。因此,我们尝试使用CEFR进行不同级别的区分。我见过一些外国网友的提示语,他们使用的是graders,比如第五年级、第九年级等,这类似于美国的K-12教育系统级别。因此,对于高中水平的内容,可以尝试使用具体的年级来进行区分,如第十、十一、十二年级。 至于词汇和语法复杂度的要求,可以因作文任务的不同而调整。如果希望包含特定的词汇和短语,可以在提示语中明确说明。例如,可以指明生成的作文要包含定语从句、名词性从句或独立主格结构等。明确教学目标和语言目标非常重要,可以将其具体化,直接在提示中告知模型所需的词汇要求等。所有这些方法都是通过尝试得出的,并没有固定的模式,需要根据实际情况进行调整。
12. 大语言模型如何应用于英汉对比研究?
许老师:我建议大家参考秦洪武老师、周霞老师最近在《外语教学与研究》上发表的一篇文章《大语言模型与语言对比研究》。秦洪武老师是国内用语料库进行英汉对比研究的代表性学者。过去的一年中,秦老师深入探索并尝试使用大语言模型进行英汉对比研究,取得了许多有价值的结论。同时,秦老师的研究和观点已经成文,非常值得参考。最近,秦老师及其团队仍在继续相关研究,并尝试从英汉对比扩展到更多语言的对比研究。这是因为大语言模型在多语言处理方面也展现出了显著优势。
13. 如何完善提示语?
许老师:关于提示语的完善,书中提到了几个思路,如细化、明确化、给出定义和例证等。这些技术方法在网上的一些帖子中被称为one-shot或few-shot提示,即提供一个或多个例子,以及一些定义,将任务拆解,通过不断地反问和纠正,最终形成一个更完善的提示语,解决任务中的问题。