“看图说话”能力突出！华中科技大学团队开源多模态大模型“Monkey”

华中科技大学软件学院白翔教授领衔的VLRLab团队近期开源了一个高性能多模态大模型“Monkey”，该模型擅长图像描述和视觉问答，也就是“看图说话”，能够处理分辨率高达1344 x 896像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的6倍。

VLRLab团队表示在模型选择上，Monkey模型采用了开源模型Qwen-VL作为语言解码器，以及20亿参数的ViT-BigHuge作为视觉编码器，在避免重复预训练、资源浪费的同时，又利用现有工具构建了一种多层级的描述生成方法，即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，从而打出一套威力十足的“组合拳”，大幅提升了描述的准确性和丰富程度。白翔表示，Monkey模型在医学影像、卫星图像等领域具有广泛的应用空间，团队将继续优化Monkey 模型的感知、联想、推理和泛化能力，希望Monkey能成长为神通广大的“孙悟空”。

GitHub地址：https://github.com/Yuliang-Liu/Monkey

Demo地址：

http://27.17.184.224:7680（中文）

http://27.17.252.152:7681（英文）

模型地址：

https://www.wisemodel.cn/models/HUST-VLRLab/Monkey（国内访问）

https://huggingface.co/echo840/Monkey（国外访问）

该大模型使用非常简单，上传图片后点击生成即可看到图片的描述，从试用效果来看，准确度非常高；但对图片的提问，从回答来看效果并不是很好。

开发者也提供了在本地的安装方法，大家可以依照下面的方法进行安装，具体安装方法可以查看GitHub页面，不过此模型大家使用官方的Demo即可，不必在本地安装。

conda create -n monkey python=3.9
conda activate monkey
git clone https://github.com/Yuliang-Liu/Monkey.git
cd ./Monkey
pip install -r requirements.txt
python demo.py

AI·新世界

“看图说话”能力突出！华中科技大学团队开源多模态大模型“Monkey”

相关文章