讯飞星火多模态交互大模型正式上线，数字人、语音、视觉支持一键调用

文章目录[隐藏]

今天傍晚，“讯飞开放平台”公众号宣布，讯飞星火多模态交互大模型正式上线。这一大模型不仅实现了从语音交互拓展到音视频流实时多模交互，还新增了“多模态、超拟人和个性化”能力，将语音、视觉和数字人交互三者结合，支持一键调用。

超拟人数字人技术
- 精准匹配语音内容：数字人的躯干和四肢动作能够精准匹配语音内容，快速生成表情和动作，使 AI 更加栩栩如生。
- 跨模态语义一致性：通过统一文本、语音和表情，实现跨模态的语义一致性，使大模型的情感表达更加真实连贯。
超拟人极速交互
- 端到端建模：采用统一神经网络直接实现语音到语音的端到端建模，响应更快速、流畅。
- 情绪感知和声音变换：能够敏锐感知情绪变化，并根据指令自由变换声音的节奏、大小和人设。
多模态视觉交互
- 全面感知背景场景：能够“听懂世界”“认清万物”，更全面地感知具体背景场景、物流状态等信息。
- 综合判断和回复：通过对任务的理解，结合语音、手势、行为、情绪等进行综合判断，作出合适的回复。

AI·新世界