“看图说话”能力突出!华中科技大学团队开源多模态大模型“Monkey”

华中科技大学软件学院白翔教授领衔的VLRLab团队近期开源了一个高性能多模态大模型“Monkey”,该模型擅长图像描述和视觉问答,也就是“看图说话”,能够处理分辨率高达1344 x 896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。

VLRLab团队表示在模型选择上,Monkey模型采用了开源模型Qwen-VL作为语言解码器,以及20亿参数的ViT-BigHuge作为视觉编码器,在避免重复预训练、资源浪费的同时,又利用现有工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,从而打出一套威力十足的“组合拳”,大幅提升了描述的准确性和丰富程度。白翔表示,Monkey模型在医学影像、卫星图像等领域具有广泛的应用空间,团队将继续优化Monkey 模型的感知、联想、推理和泛化能力,希望Monkey能成长为神通广大的“孙悟空”。

GitHub地址:https://github.com/Yuliang-Liu/Monkey

Demo地址:

http://27.17.184.224:7680(中文)

http://27.17.252.152:7681(英文)

模型地址:

https://www.wisemodel.cn/models/HUST-VLRLab/Monkey(国内访问)

https://huggingface.co/echo840/Monkey(国外访问)

该大模型使用非常简单,上传图片后点击生成即可看到图片的描述,从试用效果来看,准确度非常高;但对图片的提问,从回答来看效果并不是很好。

开发者也提供了在本地的安装方法,大家可以依照下面的方法进行安装,具体安装方法可以查看GitHub页面,不过此模型大家使用官方的Demo即可,不必在本地安装。

conda create -n monkey python=3.9
conda activate monkey
git clone https://github.com/Yuliang-Liu/Monkey.git
cd ./Monkey
pip install -r requirements.txt
python demo.py
我们将24小时内回复。
取消