讯飞星火多模态交互大模型正式上线,数字人、语音、视觉支持一键调用

文章目录[隐藏]

今天傍晚,“讯飞开放平台”公众号宣布,讯飞星火多模态交互大模型正式上线。这一大模型不仅实现了从语音交互拓展到音视频流实时多模交互,还新增了“多模态、超拟人和个性化”能力,将语音、视觉和数字人交互三者结合,支持一键调用。

主要特点

  1. 超拟人数字人技术
    • 精准匹配语音内容:数字人的躯干和四肢动作能够精准匹配语音内容,快速生成表情和动作,使 AI 更加栩栩如生。
    • 跨模态语义一致性:通过统一文本、语音和表情,实现跨模态的语义一致性,使大模型的情感表达更加真实连贯。
  2. 超拟人极速交互
    • 端到端建模:采用统一神经网络直接实现语音到语音的端到端建模,响应更快速、流畅。
    • 情绪感知和声音变换:能够敏锐感知情绪变化,并根据指令自由变换声音的节奏、大小和人设。
  3. 多模态视觉交互
    • 全面感知背景场景:能够“听懂世界”“认清万物”,更全面地感知具体背景场景、物流状态等信息。
    • 综合判断和回复:通过对任务的理解,结合语音、手势、行为、情绪等进行综合判断,作出合适的回复。

用户体验

  • 语音和视频通话:用户可以与数字人进行语音和视频通话,数字人能够实现自然的语音对话,人物表情也能匹配说话的语句。
  • 多模态识别:数字人支持多模态交互,能够识别摄像头中的内容,如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。

应用场景

  • 客户服务:数字人可以用于客户服务,提供更加自然和人性化的交互体验。
  • 教育和培训:在教育和培训领域,数字人可以模拟真实场景,提供互动教学和训练。
  • 娱乐和媒体:在娱乐和媒体领域,数字人可以用于虚拟主播、游戏角色等,提供更加丰富和真实的用户体验。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

我们将24小时内回复。
取消