日期:
来源:Github爱好者收集编辑:
Visual ChatGPT 连接了 ChatGPT 和一系列的 Visual Foundation 模型,以便在聊天过程中发送和接收图像。
下图为演示效果:
对该应用实现感兴趣的可以查看其论文 Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models(https://arxiv.org/abs/2303.04671)。
整个系统架构如下所示:
要安装的话可以安装下面的命令步骤进行:
# create a new environment
conda create -n visgpt python=3.8
# activate the new environment
conda activate visgpt
# prepare the basic environments
pip install -r requirement.txt
# download the visual foundation models
bash download.sh
# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}
# create a folder to save images
mkdir ./image
# Start Visual ChatGPT !
python visual_chatgpt.py
下面列出了每个视觉基础模型的 GPU 内存使用情况,可以修改 self.tools 使用较少的视觉基础模型来节省您的 GPU 内存:
| Foundation Model | Memory Usage (MB) |
|---|---|
| ImageEditing | 6667 |
| ImageCaption | 1755 |
| T2I | 6677 |
| canny2image | 5540 |
| line2image | 6679 |
| hed2image | 6679 |
| scribble2image | 6679 |
| pose2image | 6681 |
| BLIPVQA | 2709 |
| seg2image | 5540 |
| depth2image | 6677 |
| normal2image | 3974 |
| InstructPix2Pix | 2795 |
Github地址:https://github.com/microsoft/visual-chatgpt