您现在的位置是:KOK球盘体育 > 英语作文 >

发愁不会辅导英文作文?这有个AI想帮你搞定

2020-05-04 07:19英语作文 人已围观

简介国有企业国有科技公司科技企业如果有一个人工智能英语老师,不仅能随时给你的英语作文打分,而且还可以给出改进建议,是不是很妙? 近日在微信公众号平台上线的一款名为爱写作的产品,就提供了这样的功能,...

  如果有一个人工智能英语老师,不仅能随时给你的英语作文打分,而且还可以给出改进建议,是不是很妙?

  近日在微信公众号平台上线的一款名为“爱写作”的产品,就提供了这样的功能,PingWest品玩和它背后的微软开发团队聊了聊,听他们讲了讲这个人工智能老师究竟是如何工作的。

  这项服务最早可追溯到 2018 年,微软亚洲研究院开发的英语学习服务“微软小英”,上线 月,微软将其升级之,并命名为“爱写作”,首先在网页端上线。

  通过右边检查结果,可以清晰看到,这篇英文作文在高考评分标准下,拿到了 24 分(满分 25 分)。有 5 处语法错误,建议替换 12 处。

  “爱写作”能根据不同考试类型来打分,用户在批改前可自行选择。众所周知,每个学段考试,对应总分是不一样的。比如高考英语作文满分是 25 分,六级是 106.5 分,而雅思是 9 分。

  除了语法纠正,“爱写作”还能通过词语替换来润色作文。词语替换是指,机器给出更高级的用词建议,由用户决定要不要替换。

  据微软亚洲研究院文章,作文打分是一种主观行为,要转化为机器打分,需要大量有标注的数据,而序数回归模型大大减少了对标注数据量的依赖。

  这项技术把“文章与具体分数的匹配”问题,变成了一个有序的比较大小的问题。

  在训练过程中,将已有的标注数据两两配对进行对比,进而形成新的文章与评分,再将此数据加入到标注数据集中,使得可用于训练的标注数据量呈指数级增加,从而整体提高了评分的准确性。

  (作文打分的方向和维度)语法纠正方面,“爱写作”同样用到了微软原创的模型。

  “语法纠正和机器翻译在技术上有一定相似性。”微软亚洲研究院资深开发经理夏炎介绍,“不管是用户写的文章,还是机器翻译出来的,都要判断这个句子的语法正确性和语言流畅度。”

  早在 2018 年 8 月,微软亚洲研究院就发表文章,介绍了一种用于语法纠正的全新学习和推断机制——“流畅度提升学习与推断”(Fluency Boost Learning and Inference)。

  该机制基于自然语言处理领域非常流行的 seq2seq 模型。据微软亚洲研究院文章,对于一个用于语法改错任务的 seq2seq 模型,其基本的训练数据为,一个原始句子和正确句子所组成的改错句对,如下图(a) 所示。

  然而实际上,这种改错句对的数量规模相当有限。“我们在做 AI 模型研究时,第一个困难就是训练数据和样本的生成及获取。”夏炎说。

  因此,在训练数据并不充足的情况下,seq2seq 模型泛化能力会受到影响,导致哪怕输入的句子稍稍变动一点,模型也可能无法将其完全改正,如上图 (b) 所示。

  此外,对于一个含有多个语法错误的句子,单次的 seq2seq 推断往往不能完全将其改正。在这种情况下,需要用多轮 seq2seq 推断来对一个句子反复修改,如上图 (c) 所示。

  为了改进 seq2seq 模型的不足,微软亚洲研究院提出了“流畅度提升学习与推断”机制。这一机制可细分为两部分,分别是“流畅度提升学习”和“流畅度提升推断”。

  “流畅度提升学习”是指在训练模型的过程中,让 seq2seq 模型生成多个结果,然后将流畅度不如正确句子的生成句子,和正确句子配对,组成全新的流畅提升句对,作为下一轮训练的训练数据。

  “中间这些结果都是机器自动生成的,有的流畅度很高,有的流畅度很低。”夏炎说,“我们可以把流畅度低于最终结果句子都拿过来作为训练样本。这样数据收集工作就大大减轻了,是一个很有意义的改进。”

  “流畅度提升推断”则是利用 seq2seq 模型对句子进行多轮修改,直到句子流畅度不再提升为止。

  这种多轮修改策略能够率先改掉句子一部分语法错误,从而使句子上下文更加清晰,有助于模型修改剩下的错误。

  像下图的例子里,机器会先把第一句改成第二句,把“is catched”换成了“caught”,有一定进步,但还没使得整个句子的语法完全一致,因为后面还有“last night”,需要把主语时态“sees”改成“saw”。

  经过第二次修改后,结果已经没有毛病,但机器还会进行第三次修改。改完后,国有企业国有科技公司科技企业句子流畅度已经没有新改变。

  “这个时候我们可以认为,语法纠正的流程结束了。”夏炎说,“这其实也是人在批改一篇文章时常见的场景,先把一些容易发现的错误改掉,然后再仔细地读一遍,又发现一些错误,需要循环几次。”

  词语替换功能则是基于预训练语言模型。预训练语言模型是自然语言处理的新范式:使用大规模文本语料库进行预训练,对特定任务的小数据集微调,降低单个自然语言处理任务的难度。

  2019 年,微软提出了一种新的预训练语言模型 UniLM。在“爱写作”上,这个模型可以通过半遮盖原单词的策略,建议更符合表达者预期的替换词语。

  “对于词语替换场景,直接用业界流行的 BERT 模型其实是不太合适的。”夏炎告诉 PingWest 品玩,“这个模型只考虑语法正确性,得出的结果不一定符合原词的观点和想法。”

  没有遮盖住目标词(keep target word)的 BERT 模型,会给出词义高度相关,但实际不太适合的替换词:“stronger”、“strongly”、“hard”和“much”。

  完全遮盖住目标词(mask target word)的 BERT 模型,输出了“hot”、“thick”、“sweet”和“much”。这些词在语法上都是对的,但跟目标词的意思相比,差别还是比较大。

  “我们的做法是,通过半遮盖策略,把词中一部分信息隐含掉,然后让模型去预测,机器输出了‘tough’、‘powerful’、‘potent’和‘hard’这些词。”夏炎解释道,“‘powerful’这个词,词义跟原来单词接近,又没有简单把‘strong’变成其他形式,如‘stronger’或‘strongly’。”

  得到替换词列表后,“爱写作”还会进行排序,最终把最适合的单词呈现在最上面。

  最后,“爱写作”还有微软自研的新一代 OCR 引擎,能检测出图像中的各类文字,同时支持打印体和手写体的复杂文字场景识别。

  “总而言之,‘爱写作’主要应用了自然语言理解技术。相较于语音识别和图像处理等感知层面技术,自然语言理解是 AI 在认知层面要解决的最核心问题之一,让机器理解人类语言是非常难的。”夏炎说,“在‘爱写作’中,我们用了很多自然语言处理领域内的经典任务,并且针对写作这个场景优化模型。”

  目前,“爱写作”更多是根据用户语法和用词去做打分。夏炎告诉 PingWest 品玩,未来会研究一些新算法和模型,让“爱写作”不止能分析用户的语法错误,还可以更深层地理解作文的结构和组织形式。“如果机器能理解用户写作意图,就可以帮助他在内容组织上进行优化,这是 AI 辅助写作的另一个场景”。

  此外,据微软亚洲研究院文章,语法纠正技术还可以被用在英文写作之外的更多场景,比如电子邮件、PPT 演示文稿、翻译文件等。

Tags:

本栏推荐

标签云

站点信息

  • 文章统计3699篇文章
  • 标签管理标签云
  • 微信公众号:扫描二维码,关注我们