GPT-SoVITS – 开源的声音克隆项目,只需少量数据即可合成声音 | AI工具集

GPT-SoVITS是什么 GPT-SoVITS是一个开源的声音克隆项目,由B站UP主、RVC变声器创始人花儿不哭推出,该语音合成工具结合了GPT(Generative Pre-trained Transf...

YOLOv9 – 新一代高效的实时目标检测系统 | AI工具集

YOLOv9是什么 YOLOv9是一个由台北中研院和台北科技大学等机构的研究团队推出的新一代先进的目标检测系统,是YOLO(You Only Look Once)算法系列的最新版本。...

VideoPrism – 谷歌研究团队推出的通用视频编码器 | AI工具集

VideoPrism是什么 VideoPrism是一个由谷歌研究团队开发的通用视频编码器,旨在通过一个单一的预训练模型来处理多种视频理解任务。该模型能够从视频中提取丰富...

ScreenAgent – 基于视觉语言模型的计算机控制智能体 | AI工具集

ScreenAgent是什么 ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算...

ConsiStory – 免训练实现主题一致性的文生图方法 | AI工具集

ConsiStory是什么 ConsiStory是由NVIDIA和特拉维夫大学的研究人员共同开发的一种无需训练的文本生成图像的方法,可以实现让图像在保持风格和主题不变的情况下...

Stable Diffusion 3 – Stability AI推出的新一代图像生成模型

Stable Diffusion 3是什么 Stable Diffusion 3 是由 Stability AI 开发的一款先进的文本到图像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通过...

SDXL-Lightning – 字节跳动推出的文本到图像生成模型 | AI工具集

SDXL-Lightning是什么 SDXL-Lightning是由字节跳动的研究团队推出的一种基于扩散模型的文本到图像生成技术,旨在解决传统扩散模型在图像生成速度和计算成本上...

VideoPoet – 谷歌推出的AI视频生成模型 | AI工具集

VideoPoet是什么 VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案,支持从文本、图像或视频输入中合成高质量的视频内容,并生成匹配的音频...

DiT – 基于Transfomer架构的扩散模型

DiT – 基于Transfomer架构的扩散模型

Boximator – 字节推出的控制视频生成中对象运动的框架 | AI工具集

Boximator是什么? Boximator是由字节跳动的研究团队开发的一种视频合成技术,旨在生成丰富且可控的运动,以增强视频合成的质量和可控性。该技术通过引入两种...
1808182838492