【2023年12月20日AI晚报】谷歌发布零样本视频生成模型VideoPoet；港中大团队开源AI音频工具包Amphion

文章目录[隐藏]

[t-success icon='']AI·快讯[/t-success]

[t-success icon='']AI·快讯[/t-success]

1、微软 Copilot 再添新功能，只需文字描述就能生成完整歌曲

微软 Copilot 近日与 AI 音乐创作平台 Suno 达成合作，推出了一项新功能：只需输入简短的文字描述，Copilot 就可以自动生成包含器乐、歌词和演唱的歌曲片段。微软表示，用户无需任何音乐制作经验，只需脑中有灵感即可轻松创作。目前，这项功能仅限于在微软 Edge 浏览器中使用。用户需要先打开 Edge，然后访问 Copilot 网站，登录并点击右上角的“插件”选项卡，确保 Suno 插件处于激活状态。接下来，在 Copilot 中输入文字描述，并耐心等待 AI 完成创作。

2、华为云与泰国气象局联合打造泰国盘古大模型：预测台风未来路径从 5 小时缩短到 10 秒

据华为云官微消息，华为联合泰国数字经济与社会部近日举办 2023 年泰国华为云 AI 峰会。峰会中，双方签署了数字化转型合作谅解备忘录，就 AI 技术发展、行业应用、生态繁荣、人才培养等方面达成共识。其中，华为云与泰国气象局联合打造泰国盘古大模型，提供了精度超过传统数值预测方法的 AI 大模型，大大提升了预测速度。华为官方宣称“预测台风未来路径从 5 小时缩短到 10 秒”，更好地助力泰国农业和旅游业实现数智化升级。（来源：IT之家）

3、苹果开发生成式 AI 技术 HUGS：30 分钟内创建“数字化身”

苹果机器学习研究团队近日发布博文，展示了全新的生成式 AI 技术-- HUGS，能够在 30 分钟内分析短视频，然后映射创建新的动作和角度。苹果研究员 Anurag Ranjan 发布推文，表示 HUGS 的全称叫作 Human Gaussian Splats，使用机器学习和计算机视觉，在原始输入数据较少的情况下，创建出逼真的人像元素。（来源：IT之家）

项目地址: https://machinelearning.apple.com/research/hugs

Xiv: https://arxiv.org/abs/2311.17910

4、百度智能云千帆AppBuilder开放服务

百度智能云宣布，AI原生应用开发工作台——千帆AppBuilder全面开放服务。据了解，AppBuilder提供两种产品形态，代码态与低代码态。对于有深度AI原生应用开发需求的用户，AppBuilder代码态提供包括SDK、开发环境、调试工具、示例代码等各种开发套件和应用组件；而AppBuilder低码态则提供可视化工具，用户只需简单点选，即可快速定制、上线AI原生应用。

5、全球AI假新闻网站7个月内激增十几倍

新闻数据集网站NewsGuard昨日发布报告称，迄今为止，NewsGuard的团队已识别出614个不可靠的AI生成的新闻和信息网站，涵盖15种语言。相比今年4月的49个，虚假新闻网站的数量增加了1153%。这些网站大多使用一些诸如“商业日报”（iBusiness Day）、“爱尔兰头条新闻”（Ireland Top News）、“每日时事更新”（Daily Time Update）等看似权威的名称，对于消费者来说难以辨认。这些网站发布的文章涉及政治、技术、娱乐和旅游等主题，包含名人死亡骗局、捏造事件以及将旧事件描述为刚刚发生等虚假内容。（来源：澎湃）

6、微软与 TomTom 合作开发车载 AI 助手，带来更自然语音交互

微软和荷兰地图制作公司 TomTom 近日宣布建立新的合作伙伴关系，将通过整合 OpenAI 的大语言模型 ChatGPT 和微软 Azure 云服务，为车载信息娱乐系统带来更自然流畅的语音交互体验。TomTom 在公告中称，“驾驶员可以与车辆自然对话，要求 AI 驱动的助手导航到特定位置，在路线上寻找特定停靠点，并通过语音控制车载系统，例如调高温度、打开窗户或更换广播电台。只需一次交互即可完成所有操作。”（来源：IT之家）

7、中国音像与数字出版协会发布《出版业生成式人工智能技术应用指南》

今日，中国音像与数字出版协会发布关于发布团体标准《出版业生成式人工智能技术应用指南》的公告，该指南经立项审核、标准起草、征求意见、专家组审查等程序，并通过团标委审查，现予以批准发布。标准编号为T/CADPA 47-2023，自2024年1月20日起开始实施。（来源）

8、智源FlagEval 12月榜发布，新增鲁棒性评测

据智源研究院微信公众号发文，今日，FlagEval大语言模型测评榜单12月榜发布，本期榜单新增大语言模型鲁棒性评测结果，考察模型对于输入文本的抗干扰能力；FlagEval平台更新了C-SEM v2.0数据集评测结果，新增了最新开源的Qwen-72B/1.8B、DeepSeek-67B（Base）模型评测。其中，Qwen-72B-Chat模型主观评测结果大幅领先，准确率达83.6%。（来源）

详细测评结果：flageval.baai.ac.cn/#/trending

9、摩尔线程首个千卡智算中心落地

据摩尔线程微信公众号发文，昨日，摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办，宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地。同时，摩尔线程CEO张建中发布了大模型智算加速卡MTT S4000、专为千亿参数大模型训练和推理提供强大支持的摩尔线程KUAE平台。据悉，摩尔线程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架，并融合了多种并行算法策略，包括数据并行、张量并行、流水线并行和ZeRO，且针对高效通信计算并行和Flash Attention做了额外优化。（来源）

10、CMU研究称Gemini Pro不如GPT-3.5 Turbo

卡内基梅隆大学（CMU）和BerriAI的研究人员共同发表了一篇论文，将谷歌的Gemini Pro模型与OpenAI的GPT-3.5 Turbo、GPT-4 Turbo以及Mistral AI的Mixtral 8x7B进行了测试对比，通过一组不同的提示运行所有模型，包括向他们询问57个不同的多项选择题，涉及STEM、人文科学、社会科学等方面的内容。测试结果显示，Gemini Pro得分在十几个数据集的测试上表现都不如GPT-3.5 Turbo。研究人员还发现，当提示不同的模型在标记为A、B、C或D的答案之间进行选择时，Gemini选择“D”的次数比其他模型不成比例地多，无论它是否是正确的答案。

论文地址：arxiv.org/pdf/2312.11444.pdf

11、港中大团队开源AI音频工具包Amphion

香港中文大学（深圳）武执政副教授带领的团队联合上海AI实验室等开源了音频、音乐和语音生成工具包Amphion v0.1版本。除了文字转语音功能，Amphion还可以将一首歌的声音换成另一个歌手的声音，支持声音转换、歌声合成、文本到音频、文本到音乐等功能，歌声转换目前支持迈克尔·杰克逊、泰勒·斯威夫特、王菲、那英、李健等歌手的声音。该工具包支持多种模型和架构，如FastSpeech2、VITS、Vall-E、NaturalSpeech2等，用于不同的音频生成任务。

GitHub地址：https://github.com/open-mmlab/Amphion

论文地址：arxiv.org/abs/2312.09911

HuggingFace地址：https://huggingface.co/amphion

12、谷歌发布零样本视频生成模型VideoPoet

谷歌于官网宣布推出用于零样本视频生成的大型语言模型VideoPoet。该模型能够完成多种视频生成任务，包括文本到视频、图像到视频、视频风格化、视频修复、视频扩张以及视频到音频。该模型采用的方法在单个大模型中无缝集成了多种视频生成功能，而不是依赖于专门针对每项任务的单独训练组件。（来源）

13、谷歌将AI代码辅助功能扩展到所有Colab用户

谷歌于官网宣布将AI代码辅助功能扩展到所有Colab用户，包括免费用户，现已在175个地区推出。Colab是谷歌提供的一个在线工作平台，可以免费使用GPU进行深度学习，支持Jupyter Notebook和代码执行程序。（来源）