Florence-2 – 微软 Azure AI 团队推出的多功能视觉语言模型

Florence-2 是微软 Azure AI 团队推出的多功能视觉模型，能执行图像描述、目标检测、视觉定位和图像分割等多种计算机视觉任务。Florence-2 基于 Transformer 架构，用序列到序列学习方法，编码器将图像转换为序列表示，解码器再将表示转换为文本输出。Florence-2 训练使用包含1.26亿张图像和54亿个标注的超大数据集 FLD-5B，结合自动化图像标注技术和模型迭代，确保数据的高质量和多样性。

Florence-2 - 微软 Azure AI 团队推出的多功能视觉语言模型