视觉语言模型 (Vision Language Model, VLM):能够同时理解文本和图像的多模态大语言模型,输入为图像和文本,输出为文本。

- 阅读剩余部分 -