AI工具
书生·筑梦2.0(Vchitect 2.0) – 上海人工智能实验室推出升级版视频生成模型,支持20秒+长视频 | AI工具集
书生·筑梦2.0是什么 书生·筑梦2.0(Vchitect 2.0)是由上海人工智能实验室推出的升级版视频生成开源大模型,旨在生成符合中国文化和东方审美的视频内容。模型...
QA-MDT – 中科大联合科大讯飞推出开源音乐生成模型 | AI工具集
QA-MDT是什么 QA-MDT(Quality-aware Masked Diffusion Transformer)是由中国科学技术大学和科大讯飞联合推出的开源音乐生成模型。模型基于文本描述生成高质...
SleepFM – 斯坦福大学开源的多模态睡眠分析模型 | AI工具集
SleepFM 是斯坦福大学开源的多模态睡眠分析模型,基于超过14,000名参与者的100,000小时睡眠数据,通过融合大脑活动、心电图和呼吸信号,提供全面的睡眠健康评...
mPLUG-DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token | AI工具集
mPLUG-DocOwl2是什么 mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别(OCR)技术的情况...
GameGen-O – 腾讯推出游戏视频生成模型,专门生成开放世界视频游戏 | AI工具集
GameGen-O是什么 GameGen-O 是腾讯推出的一款基于 Transformer 架构的游戏视频生成模型,专门用于生成开放世界视频游戏。模型能模拟游戏引擎的多种功能,包括...
CSGO AI – 小红书联合南理工推出的AI文生图项目 | AI工具集
CSGO是什么 CSGO(Content-Style Composition in Text-to-Image Generation)是南京理工大学、小红书等机构合作推出的图像风格迁移和文本到图像生成的研究项...
新汉语新解 – 生成创意性文本的prompt,新时代的AI汉语老师
新汉语新解 – 生成创意性文本的prompt,新时代的AI汉语老师
小乖记账 – AI智能记账应用,语音输入自动分类和整理财务数据 | AI工具集
小乖记账是什么 小乖记账是基于AI技术的智能记账应用,通过语音识别技术简化记账流程,用户通过语音输入快速记录财务信息。应用的自动分类功能智能分析交易性...
LongCite – 清华推出的开源模型,提升LLMs的精准引用减少幻觉 | AI工具集
LongCite是什么 LongCite是由清华大学推出的项目,旨在提升大型语言模型(LLMs)在长文本问答任务中的可信度和可验证性。项目通过生成细粒度的句子级引用,使...
PyVideoTrans – 开源的视频翻译和配音工具,支持多种语言 | AI工具集
PyVideoTrans 是开源的视频翻译配音工具,将视频内容从一种语言自动翻译成另一种语言,并添加相应的字幕和配音。PyVideoTrans支持多语言,具备高效的语音识别...