英伟达推出多任务生成性纠错大语言模型NEKO:专门针对语音识别、机器翻译、OCR等领域的后处理错误纠正任务

英伟达推出多任务生成性纠错大语言模型NEKO,它专门针对语音识别、机器翻译、光学字符识别(OCR)等领域的后处理错误纠正任务。NEKO通过混合专家(Mixture-of-Experts,MoE)架构,使得模型能够学习特定于数据集的特征,并将这些知识整合到一个单一模型中。

例如,一个语音识别系统将用户的口语“我左臀部的长疤是因为我从山地车上摔下来”错误识别为“我左臀部的长疤是因为我从山地车上摔下来”。NEKO模型能够识别这个错误,并将其纠正为正确的文本“我左臀部的长疤是因为我从山地车上摔下来”。

主要功能:

  1. 多任务错误纠正:NEKO能够处理语音识别(ASR)、语音翻译(ST)、机器翻译(MT)和光学字符识别(OCR)后处理中的错误。
  2. 零样本学习能力:NEKO能够在没有特定任务训练的情况下,对未见任务进行纠正,这在多语言和多领域的环境中特别有用。

主要特点:

  • 任务导向的专家分配:NEKO在训练期间将每个专家分配给特定任务,使得专家能够学习特定于任务的特征,同时通过门控网络实现知识共享。
  • 生成性纠错:NEKO采用生成性模型进行最终识别,而不是仅仅对候选假设进行排名或检索。
  • 混合专家模型:NEKO利用MoE架构,提高了模型的可扩展性和效率。

工作原理:

NEKO基于Transformer架构,通过替换前馈网络块为MoE层。在MoE层中,每个输入令牌被分配给一组专家,由门控网络(路由器)决定权重。NEKO在训练时将专家明确分配给特定任务,以便专家能够捕捉任务特定的特征,同时允许通过门控网络进行知识共享。在推理时,NEKO不假设对输入属于的具体任务有了解,而是根据门控网络预测的概率将每个令牌路由到顶级专家。

具体应用场景:

  1. 语音识别后处理:纠正自动语音识别系统产生的错误。
  2. 机器翻译后处理:改进机器翻译输出的准确性,特别是在多语言环境中。
  3. 光学字符识别后处理:修正OCR系统识别文本中的错误。
  4. 文本错误纠正:包括语法纠正和连贯性改进,适用于文本编辑和校对任务。

NEKO模型通过其先进的MoE架构和任务导向的专家分配方法,为多任务学习和错误纠正提供了一种新的解决方案,以应对日益复杂的自然语言处理任务。

我们将24小时内回复。
取消