Snap Video – Snapchat公司推出的AI视频生成模型 | AI工具集

Snap Video是什么 Snap Video是由Snap(社交媒体Snapchat所属的公司)研究团队开发的一个AI视频生成模型,目标是通过文本描述来合成视频,即用户可以输入一段...

MeloTTS – MyShell AI推出的多语言文本到语音转换工具 | AI工具集

MeloTTS是什么 MeloTTS 是一个由 MyShell AI 开发的开源的高质量多语言文本转语音(TTS)库,能够将文本转换成自然流畅的语音输出,支持多种语言,包括但不限...

StarCoder 2 – BigCode推出的第二代开源代码大模型 | AI工具集

StarCoder 2是什么 StarCoder 2是由BigCode项目(Hugging Face和ServiceNow支持)联合Nvidia的团队开发的新一代大型代码语言模型,使用来自 The Stack v2 数...

ChatMusician – 可理解和生成音乐的大模型 | AI工具集

ChatMusician是什么 ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员推出的,一个开源的用于理解和生成...

OpenCodeInterpreter – 开源的代码解释器,可生成和执行代码 | AI工具集

OpenCodeInterpreter是什么 OpenCodeInterpreter是一个开源的代码解释器系统,旨在通过利用大模型结合代码生成、执行和迭代精炼的能力,可以辅助开发者在软件...

Mistral Large – Mistral AI发布的一款先进的大语言模型

Mistral Large是什么 Mistral Large是由法国人工智能公司Mistral AI开发的一款先进的大型语言模型(LLM),具备顶级的推理能力,能够处理复杂的多语言推理任...

GPT-SoVITS – 开源的声音克隆项目,只需少量数据即可合成声音 | AI工具集

GPT-SoVITS是什么 GPT-SoVITS是一个开源的声音克隆项目,由B站UP主、RVC变声器创始人花儿不哭推出,该语音合成工具结合了GPT(Generative Pre-trained Transf...

YOLOv9 – 新一代高效的实时目标检测系统 | AI工具集

YOLOv9是什么 YOLOv9是一个由台北中研院和台北科技大学等机构的研究团队推出的新一代先进的目标检测系统,是YOLO(You Only Look Once)算法系列的最新版本。...

VideoPrism – 谷歌研究团队推出的通用视频编码器 | AI工具集

VideoPrism是什么 VideoPrism是一个由谷歌研究团队开发的通用视频编码器,旨在通过一个单一的预训练模型来处理多种视频理解任务。该模型能够从视频中提取丰富...

ScreenAgent – 基于视觉语言模型的计算机控制智能体 | AI工具集

ScreenAgent是什么 ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算...