华中科技大学软件学院白翔教授领衔的VLRLab团队近期开源了一个高性能多模态大模型“Monkey”,该模型擅长图像描述和视觉问答,也就是“看图说话”,能够处理分辨率高达1344 x 896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。
VLRLab团队表示在模型选择上,Monkey模型采用了开源模型Qwen-VL作为语言解码器,以及20亿参数的ViT-BigHuge作为视觉编码器,在避免重复预训练、资源浪费的同时,又利用现有工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,从而打出一套威力十足的“组合拳”,大幅提升了描述的准确性和丰富程度。白翔表示,Monkey模型在医学影像、卫星图像等领域具有广泛的应用空间,团队将继续优化Monkey 模型的感知、联想、推理和泛化能力,希望Monkey能成长为神通广大的“孙悟空”。
GitHub地址:https://github.com/Yuliang-Liu/Monkey
Demo地址:
模型地址:
该大模型使用非常简单,上传图片后点击生成即可看到图片的描述,从试用效果来看,准确度非常高;但对图片的提问,从回答来看效果并不是很好。
开发者也提供了在本地的安装方法,大家可以依照下面的方法进行安装,具体安装方法可以查看GitHub页面,不过此模型大家使用官方的Demo即可,不必在本地安装。
conda create -n monkey python=3.9 conda activate monkey git clone https://github.com/Yuliang-Liu/Monkey.git cd ./Monkey pip install -r requirements.txt python demo.py