replicate 超高速15亿参数图像描述/视觉问答多模态大语言模型(图生文)
11次/1$
允许
replicate - 调用数据分析
图像、视频、音频及语言任务的统一模型
一个Transformer适配多模态扩散中的所有分布
LLaVA v1.6:大型语言与视觉助手(Mistral-7B版)