【2024年1月19日AI晚报】Meta 正着手训练下一代大语言模型 Llama 3；Runway推出多头运动笔刷

文章目录[隐藏]

[t-success icon='']AI·快讯[/t-success]

[t-success icon='']AI·快讯[/t-success]

1、微软推出独立 AI 工具“阅读教练”，辅助提高学习者阅读能力

微软近日发布新闻稿，宣布面向学生群体，推出全新的生成式 AI 工具“阅读教练”（Reading Coach），通过个性化和有吸引力的练习，帮助学习者提高阅读能力。微软表示 Reading Coach 会免费提供，用户只需要登录微软账号，就能在课堂或者家中使用。Reading Coach 此前是 Microsoft Teams 的一项功能，主要为学习者提供定制的阅读练习，以及发音和流利程度方面的即时反馈，同时还能让教育者了解他们的学习进度。（来源）

地址：https://coach.microsoft.com

2、韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao宣布，已开发了名为“蜜蜂”（Honeybee）的多模态大语言模型，Kakao表示，在MLLM的基础上，“蜜蜂”能够同时理解图像和文本，从而可以响应与图像和文本混合内容相关的查询。该公司表示，为了促进MLLM在全球范围内的广泛推广，其已经在在线软件开发平台和开源社区Github上分享了“蜜蜂”及其推理代码。

GitHub地址：https://github.com/kakaobrain/honeybee

3、微软测试 Edge 浏览器新特性：用户截图后能和 AI 聊相关内容

微软近日邀请 Canary 频道的部分 Edge 浏览器用户，测试新版截图工具。用户完成截图之后，在工具导航栏上会看到 AI 聊天按钮，可以就截图中内容展开聊天。例如你在 Edge 浏览器中截图一条狗，点击 Copilot 图标之后，可以询问这只狗是什么品种、如何训练等。

4、OpenAI CEO 阿尔特曼：人工智能不该做出“生死攸关”的决定

1 月 19 日消息，在瑞士达沃斯举办的世界经济论坛上，人工智能初创公司 OpenAI 的首席执行官山姆・阿尔特曼（Sam Altman）于周四发表演讲，他坚定地认为无论人工智能如何发展，人类依然将掌握对世界的最终决定权。阿尔特曼明确指出：“人工智能在执行某些任务时表现出色，但在处理生死攸关（life-and-death situation）的情况时却显得力不从心。它是一个时而准确、时而富有创意，但同样可能完全错误的系统。我们绝不会放心让它来驾驶汽车，但非常乐意利用它来集思广益、撰写文章或检查代码。”（来源）

5、Meta 宣布改组旗下 AI 部门，正着手训练自家下一代大语言模型 Llama 3

Meta 公司最近对自家部门进行了大规模改组，主要整合了自家 AI 研发部门 Facebook AI Research（FAIR）与产品部门，并宣布已开始训练下一代大型语言模型 Llama 3，意图令 AI“成为公司发展核心”。Meta 本周对 AI 研发部门进行了改组，将原本独立的 AI 研发部门“变成产品部门的一部分”，部门主管 Joelle Pineau 及首席科学家 Yann LeCun 将直接向产品主管 Chris Cox 报告各项事务进展。

6、夸克推出搜索问答产品“元知”等多款新产品

夸克App基于自研大模型能力升级多个功能板块和智能工具，推出搜索问答产品“元知”，上线夸克PC版以及夸克听记等新产品。围绕智能助手的定位，夸克将为用户提供“内容产品+智能工具”的服务矩阵，打造三端一体化的AI信息服务体验。用户可在搜索问答产品“元知”搜索结果中，查看到AIGC总结提炼出的回答内容，包含图文、视频等多种形式。“夸克听记”助力用户高效进行音视频内容整理，支持中、英、粤等主流语言和方言，语音笔记可以在夸克多端中同步保存。夸克网盘AI自然语言搜索功能，输入简单描述词就能快速找到照片、图片、文档等资料，用夸克网盘播放器还能够自动生成AI字幕，实现视频转文字以及导出视频中的PTT。

7、TikTok 内测 AI 生成歌曲功能：用户只需输入歌词文本，可自选曲风

TikTok 目前正在测试一项新功能：借助大语言模型 Bloom 的能力，使用 AI 来生成歌曲。具体来看，用户可在上传内容时提供歌词文本，随后 TikTok 会引导用户使用“AI Song”功能为文本添加声音，用户还可以自选曲风。部分博主已经提前“尝鲜”，该功能在上周首次得到曝光。目前，该功能仍未向所有用户开放，目前它似乎还存在人声跑调等问题。报道称，TikTok 用户 Kristi Leilani 尝试用 TikTok 生成了一段由“小甜甜”Britney Spears“演唱”的歌曲，但听上去有些走音。（来源）

8、ChatGPT 要当大学教授了：OpenAI 与美国亚利桑那州立大学合作，用 GPT4 辅导学生

当地时间 18 日，美国亚利桑那州立大学宣布成为首家与 OpenAI 合作的高等教育机构，这项合作将把 ChatGPT 企业版的先进功能引入大学，使教职员工能够探索生成式 AI 的潜力，以提高教学、学习和发现能力，同时还能确保“更高水平的”隐私和安全。该校校长迈克尔・M・克罗（Michael M.Crow）表示，学校非常看好生成式 AI，它们能够成为帮助学生学得更快、对学科理解更透彻的工具，具有令人难以置信的潜力。（来源）

9、谷歌 Chrome 浏览器安卓版默认启用 WebGPU，需配备高通或 ARM GPU

谷歌 Chrome 团队近日宣布，在搭载 Android 12 及更高版本，并由高通 GPU 和 ARM GPU 提供支持的设备上，Chrome 121 现在会默认启用 WebGPU。Chrome 团队表示，WebGPU 之后将逐步扩展支持范围，以涵盖更广泛的 Android 设备，包括未来覆盖 Android 11 设备。谷歌自 2017 年开始就一直在开发 WebGPU 图形 API，该技术主要是借助现代 GPU 的计算能力，让开发者能够更好地访问各种底层特性和功能。谷歌已在 Chrome 113 桌面版中引入 WebGPU，如今扩展到移动平台。

10、科大讯飞星火大模型 V3.5 将于 1 月 30 日发布，基于全国产化算力底座训练

科大讯飞将于 1 月 30 日 14:00 发布星火认知大模型 V3.5，其相比于去年 10 月 24 日发布的讯飞星火 V3.0，在逻辑推理、文本生成、数学答题及小样本学习能力均实现大幅提升。报道称，星火认知大模型 V3.5 基于全国产化算力底座“飞星一号”平台训练，目前已经完成训练。目前暂无关于星火大模型 V3.5 的更多信息。作为参考，去年 10 月发布的星火认知大模型 V3.0 在文本生成（+7%）、语言理解（+6%）、知识问答（+7%）、逻辑推理（8%）、数学能力（3%）、代码能力（+9%）、多模态能力（+7%）七大能力均持续提升。

11、Runway推出多头运动笔刷

昨日晚间，AI视频创企Runway宣布Gen-2模型中的运动笔刷（Motion Brush）功能升级为多头运动笔刷（Multi Motion Brush），可以独立控制视频中多个区域的运动，让不同的物体、内容分别运动。该功能在免费帐户中也提供体验。

体验地址：http://runwayml.com

12、智源等提出视觉版Mamba方法Vim

昨日，来自华中科技大学、地平线、智源研究院等机构的研究者提出了Vision Mamba（Vim），相关论文发表于arXiv。论文提出Vision Mamba块，结合了用于数据依赖的全局视觉上下文建模的双向SSM和用于位置感知视觉识别的位置嵌入。据介绍，在对分辨率为1248×1248的图像进行批量推理时，Vim比成熟的视觉Transformer模型DeiT快2.8倍，并节省了86.8%的GPU内存。Mamba是去年12月推出的一种新架构，在语言任务上匹配Transformer性能，具有线性复杂度和5倍推理吞吐量。

项目主页：https://github.com/hustvl/Vim

论文地址：https://arxiv.org/pdf/2401.09417.pdf