AI·新世界

英伟达推出多任务生成性纠错大语言模型NEKO：专门针对语音识别、机器翻译、OCR等领域的后处理错误纠正任务

2024年11月13日

/

文章目录[隐藏]

主要功能：
主要特点：
工作原理：
具体应用场景：

英伟达推出多任务生成性纠错大语言模型NEKO，它专门针对语音识别、机器翻译、光学字符识别（OCR）等领域的后处理错误纠正任务。NEKO通过混合专家（Mixture-of-Experts，MoE）架构，使得模型能够学习特定于数据集的特征，并将这些知识整合到一个单一模型中。

论文：https://arxiv.org/abs/2411.05945

例如，一个语音识别系统将用户的口语“我左臀部的长疤是因为我从山地车上摔下来”错误识别为“我左臀部的长疤是因为我从山地车上摔下来”。NEKO模型能够识别这个错误，并将其纠正为正确的文本“我左臀部的长疤是因为我从山地车上摔下来”。

主要功能：

多任务错误纠正：NEKO能够处理语音识别（ASR）、语音翻译（ST）、机器翻译（MT）和光学字符识别（OCR）后处理中的错误。
零样本学习能力：NEKO能够在没有特定任务训练的情况下，对未见任务进行纠正，这在多语言和多领域的环境中特别有用。

主要特点：

任务导向的专家分配：NEKO在训练期间将每个专家分配给特定任务，使得专家能够学习特定于任务的特征，同时通过门控网络实现知识共享。
生成性纠错：NEKO采用生成性模型进行最终识别，而不是仅仅对候选假设进行排名或检索。
混合专家模型：NEKO利用MoE架构，提高了模型的可扩展性和效率。

工作原理：

NEKO基于Transformer架构，通过替换前馈网络块为MoE层。在MoE层中，每个输入令牌被分配给一组专家，由门控网络（路由器）决定权重。NEKO在训练时将专家明确分配给特定任务，以便专家能够捕捉任务特定的特征，同时允许通过门控网络进行知识共享。在推理时，NEKO不假设对输入属于的具体任务有了解，而是根据门控网络预测的概率将每个令牌路由到顶级专家。

具体应用场景：

语音识别后处理：纠正自动语音识别系统产生的错误。
机器翻译后处理：改进机器翻译输出的准确性，特别是在多语言环境中。
光学字符识别后处理：修正OCR系统识别文本中的错误。
文本错误纠正：包括语法纠正和连贯性改进，适用于文本编辑和校对任务。

NEKO模型通过其先进的MoE架构和任务导向的专家分配方法，为多任务学习和错误纠正提供了一种新的解决方案，以应对日益复杂的自然语言处理任务。

相关文章