MUMU – 文本和图像驱动的多模态生成模型 | AI工具集

MUMU是什么 MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UN...

Video-LLaVA2 – ChatLaw推出的开源多模态智能理解系统 | AI工具集

Video-LLaVA2是什么 Video-LLaVA2是由北京大学ChatLaw课题组推出的开源多模态智能理解系统,通过创新的时空卷积(STC)连接器和音频分支,提升了视频和音频理...

LM Studio – 开源、傻瓜、一站式部署本地大模型 (LLM) 的应用平台

LM Studio是什么 LM Studio 是一个本地大语言模型 (LLM) 应用平台,开源、傻瓜、一站式部署本地大模型。包括但不限于Llama、MPT、Gemma等,LM Studio 提供了...

新edge-tts – 开源的AI文字转语音项目

新edge-tts – 开源的AI文字转语音项目

VFusion3D – Meta联合牛津大学推出的AI生成3D模型项目 | AI工具集

VFusion3D是什么 VFusion3D 是由 Meta 和牛津大学的研究人员共同推出的AI生成3D模型项目,能从单张图片或文本描述中生成高质量的3D对象。VFusion3D 通过微调...

auto-video-generator – AI自动解说视频生成器 | AI工具集

auto-video-generator是什么 auto-video-generator是AI自动解说视频生成器,能实现一键生成解说视频。用户只需输入主题,系统便自动撰写脚本、合成语音、生成...

Qwen2-VL – 阿里巴巴达摩院开源的视觉多模态AI模型 | AI工具集

Qwen2-VL是什么 Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型,具备高级图像和视频理解能力。Qwen2-VL支持多种语言,能处理不同分辨率和长宽比的图片,实...

GLM-4V-Plus – 智谱AI最新推出的多模态AI模型,专注图像和视频理解 | AI工具集

GLM-4V-Plus是什么 GLM-4V-Plus是智谱AI最新推出的多模态AI模型,专注于图像和视频理解。GLM-4V-Plus不仅能够精确分析静态图像,还具备动态视频内容的时间感...

CogView-3-Plus – 智谱AI最新推出的AI文生图模型,媲美 MJ-V6 和 FLUX

CogView-3-Plus是什么 CogView-3-Plus是智谱AI最新推出的AI文生图模型,采用Transformer架构替代传统UNet,优化了扩散模型的噪声规划。CogView-3-Plus在图像...

GLM-4-Plus – 智谱AI最新推出的旗舰大模型,性能全面提升 | AI工具集

GLM-4-Plus是什么 GLM-4-Plus是智谱AI最新推出的高智能旗舰大模型,在语言理解和长文本处理上取得突破,采用创新技术如PPO,显著提升推理和指令遵循能力。GLM...
1303132333493