什么是跨模态泛化(Cross-Modal Generalization) – AI百科知识 | AI工具集
跨模态泛化(Cross-Modal Generalization)是人工智能领域的一个重要研究方向,涉及到如何将在一个模态上学到的知识迁移到另一个模态上。最新的研究进展包括...
MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目
MMAudio是什么 MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的...
YouTube Dubbing – AI浏览器插件,一键翻译国外视频用熟悉语言播放 | AI工具集
YouTube Dubbing是什么 YouTube Dubbing是在线观看国外视频的浏览器插件,基于智能同步配音和AI字幕技术,对字幕进行翻译并直接将翻译后的内容播放出来,免去...
Gendo – AI建筑可视化平台,快速将草图或概念图转化成可视化图像 | AI工具集
Gendo是什么 Gendo是AI驱动的建筑可视化平台,基于生成式AI技术,如GANs和Diffusion模型,快速创建高度逼真的建筑概念图。平台能集成到设计工作流程中,支持...
ChatTTSPlus – 开源文本转语音工具,ChatTTS扩展版支持语音克隆 | AI工具集
ChatTTSPlus是什么 ChatTTSPlus是ChatTTS的扩展版本,增加了TensorRT加速、语音克隆和移动模型部署等功能,提升语音合成的性能和灵活性。在Windows平台上,实...
书生·万象InternVL 2.5 – 上海 AI Lab 开源的多模态大语言模型系列
书生·万象InternVL 2.5是什么 书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型(MLLM)系列。该系列模型在InternVL 2.0的...
Gemini 2.0 – 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型
Gemini 2.0是什么 Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型,以多模态输入输出和Agent技术为核心,速度...
什么是联结主义(Connectionism) – AI百科知识 | AI工具集
联结主义(Connectionism),也称为连接主义,是认知科学和人工智能领域的一种理论框架,它主张通过模拟大脑中神经元的相互连接来解释认知过程。这一理论认为...
塔猫AI对话PPT – AI PPT分析工具,快速解析PPT内容、与PPT对话获取信息 | AI工具集
塔猫AI对话PPT是什么 塔猫AI对话PPT是塔猫AI推出的新一代智能PPT分析工具,基于深度学习算法和自然语言处理技术,实现对PPT内容的语义理解和上下文分析,为用...
Kerqu.Ai – AI电商图文生成工具,支持多语言文案生成和作图功能 | AI工具集
Kerqu.Ai是什么 Kerqu.Ai是杭州刻趣科技推出的跨境电商AI图文生成工具,专为卖家设计,提供多语言AI文案生成和高效作图功能。Kerqu.Ai帮助用户无需专业设计或...