【2023年12月20日AI晚报】谷歌发布零样本视频生成模型VideoPoet;港中大团队开源AI音频工具包Amphion

[t-success icon='']AI·快讯[/t-success]

1、微软 Copilot 再添新功能,只需文字描述就能生成完整歌曲

微软 Copilot 近日与 AI 音乐创作平台 Suno 达成合作,推出了一项新功能:只需输入简短的文字描述,Copilot 就可以自动生成包含器乐、歌词和演唱的歌曲片段。微软表示,用户无需任何音乐制作经验,只需脑中有灵感即可轻松创作。目前,这项功能仅限于在微软 Edge 浏览器中使用。用户需要先打开 Edge,然后访问 Copilot 网站,登录并点击右上角的“插件”选项卡,确保 Suno 插件处于激活状态。接下来,在 Copilot 中输入文字描述,并耐心等待 AI 完成创作。

2、华为云与泰国气象局联合打造泰国盘古大模型:预测台风未来路径从 5 小时缩短到 10 秒

据华为云官微消息,华为联合泰国数字经济与社会部近日举办 2023 年泰国华为云 AI 峰会。峰会中,双方签署了数字化转型合作谅解备忘录,就 AI 技术发展、行业应用、生态繁荣、人才培养等方面达成共识。其中,华为云与泰国气象局联合打造泰国盘古大模型,提供了精度超过传统数值预测方法的 AI 大模型,大大提升了预测速度。华为官方宣称“预测台风未来路径从 5 小时缩短到 10 秒”,更好地助力泰国农业和旅游业实现数智化升级。(来源:IT之家

3、苹果开发生成式 AI 技术 HUGS:30 分钟内创建“数字化身”

苹果机器学习研究团队近日发布博文,展示了全新的生成式 AI 技术-- HUGS,能够在 30 分钟内分析短视频,然后映射创建新的动作和角度。苹果研究员 Anurag Ranjan 发布推文,表示 HUGS 的全称叫作 Human Gaussian Splats,使用机器学习和计算机视觉,在原始输入数据较少的情况下,创建出逼真的人像元素。(来源:IT之家

项目地址: https://machinelearning.apple.com/research/hugs

Xiv: https://arxiv.org/abs/2311.17910

4、百度智能云千帆AppBuilder开放服务

百度智能云宣布,AI原生应用开发工作台——千帆AppBuilder全面开放服务。据了解,AppBuilder提供两种产品形态,代码态与低代码态。对于有深度AI原生应用开发需求的用户,AppBuilder代码态提供包括SDK、开发环境、调试工具、示例代码等各种开发套件和应用组件;而AppBuilder低码态则提供可视化工具,用户只需简单点选,即可快速定制、上线AI原生应用。

5、全球AI假新闻网站7个月内激增十几倍

新闻数据集网站NewsGuard昨日发布报告称,迄今为止,NewsGuard的团队已识别出614个不可靠的AI生成的新闻和信息网站,涵盖15种语言。相比今年4月的49个,虚假新闻网站的数量增加了1153%。这些网站大多使用一些诸如“商业日报”(iBusiness Day)、“爱尔兰头条新闻”(Ireland Top News)、“每日时事更新”(Daily Time Update)等看似权威的名称,对于消费者来说难以辨认。这些网站发布的文章涉及政治、技术、娱乐和旅游等主题,包含名人死亡骗局、捏造事件以及将旧事件描述为刚刚发生等虚假内容。(来源:澎湃

6、微软与 TomTom 合作开发车载 AI 助手,带来更自然语音交互

微软和荷兰地图制作公司 TomTom 近日宣布建立新的合作伙伴关系,将通过整合 OpenAI 的大语言模型 ChatGPT 和微软 Azure 云服务,为车载信息娱乐系统带来更自然流畅的语音交互体验。TomTom 在公告中称,“驾驶员可以与车辆自然对话,要求 AI 驱动的助手导航到特定位置,在路线上寻找特定停靠点,并通过语音控制车载系统,例如调高温度、打开窗户或更换广播电台。只需一次交互即可完成所有操作。”(来源:IT之家

7、中国音像与数字出版协会发布《出版业生成式人工智能技术应用指南》

今日,中国音像与数字出版协会发布关于发布团体标准《出版业生成式人工智能技术应用指南》的公告,该指南经立项审核、标准起草、征求意见、专家组审查等程序,并通过团标委审查,现予以批准发布。标准编号为T/CADPA 47-2023,自2024年1月20日起开始实施。(来源

8、智源FlagEval 12月榜发布,新增鲁棒性评测

据智源研究院微信公众号发文,今日,FlagEval大语言模型测评榜单12月榜发布,本期榜单新增大语言模型鲁棒性评测结果,考察模型对于输入文本的抗干扰能力;FlagEval平台更新了C-SEM v2.0数据集评测结果,新增了最新开源的Qwen-72B/1.8B、DeepSeek-67B(Base)模型评测。其中,Qwen-72B-Chat模型主观评测结果大幅领先,准确率达83.6%。(来源

详细测评结果:flageval.baai.ac.cn/#/trending

9、摩尔线程首个千卡智算中心落地

据摩尔线程微信公众号发文,昨日,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办,宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地。同时,摩尔线程CEO张建中发布了大模型智算加速卡MTT S4000、专为千亿参数大模型训练和推理提供强大支持的摩尔线程KUAE平台。据悉,摩尔线程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架,并融合了多种并行算法策略,包括数据并行、张量并行、流水线并行和ZeRO,且针对高效通信计算并行和Flash Attention做了额外优化。(来源

10、CMU研究称Gemini Pro不如GPT-3.5 Turbo

卡内基梅隆大学(CMU)和BerriAI的研究人员共同发表了一篇论文,将谷歌的Gemini Pro模型与OpenAI的GPT-3.5 Turbo、GPT-4 Turbo以及Mistral AI的Mixtral 8x7B进行了测试对比,通过一组不同的提示运行所有模型,包括向他们询问57个不同的多项选择题,涉及STEM、人文科学、社会科学等方面的内容。测试结果显示,Gemini Pro得分在十几个数据集的测试上表现都不如GPT-3.5 Turbo。研究人员还发现,当提示不同的模型在标记为A、B、C或D的答案之间进行选择时,Gemini选择“D”的次数比其他模型不成比例地多,无论它是否是正确的答案。

论文地址:arxiv.org/pdf/2312.11444.pdf

11、港中大团队开源AI音频工具包Amphion

香港中文大学(深圳)武执政副教授带领的团队联合上海AI实验室等开源了音频、音乐和语音生成工具包Amphion v0.1版本。除了文字转语音功能,Amphion还可以将一首歌的声音换成另一个歌手的声音,支持声音转换、歌声合成、文本到音频、文本到音乐等功能,歌声转换目前支持迈克尔·杰克逊、泰勒·斯威夫特、王菲、那英、李健等歌手的声音。该工具包支持多种模型和架构,如FastSpeech2、VITS、Vall-E、NaturalSpeech2等,用于不同的音频生成任务。

GitHub地址:https://github.com/open-mmlab/Amphion

论文地址:arxiv.org/abs/2312.09911

HuggingFace地址:https://huggingface.co/amphion

12、谷歌发布零样本视频生成模型VideoPoet

谷歌于官网宣布推出用于零样本视频生成的大型语言模型VideoPoet。该模型能够完成多种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复、视频扩张以及视频到音频。该模型采用的方法在单个大模型中无缝集成了多种视频生成功能,而不是依赖于专门针对每项任务的单独训练组件。(来源

13、谷歌将AI代码辅助功能扩展到所有Colab用户

谷歌于官网宣布将AI代码辅助功能扩展到所有Colab用户,包括免费用户,现已在175个地区推出。Colab是谷歌提供的一个在线工作平台,可以免费使用GPU进行深度学习,支持Jupyter Notebook和代码执行程序。(来源

我们将24小时内回复。
取消