🤖

vision-agent

AI Tools

Vision Agent 是一个通过代理系统自动生成代码解决视觉任务的库。

🤖

vision-parse

AI Tools

Vision Parse 是一个基于视觉语言模型的工具,可以将 PDF 文档智能转换为格式化的 Markdown 内容。

🤖

visionreward

AI Tools

VisionReward 是一种多维度人类偏好学习模型,用于图像和视频生成的精细化评估。

🤖

vita

AI Tools

VITA是首个开源的交互式多模态大语言模型,能同时处理视频、图像、文本和音频。

🤖

vita-15

AI Tools

VITA-1.5是一款强大的开源交互式多模态大语言模型,支持实时视觉与语音交互。

🤖

vivid

AI Tools

阿里巴巴ViViD是一种利用扩散模型实现视频虚拟试穿的新框架。

🤖

vlogger

AI Tools

从单个人物图像生成文本和音频驱动的说话视频

🤖

voice-engine

AI Tools

OpenAI推出了名为Voice Engine的模型,可根据文本和15秒音频样本生成自然发音

🤖

voicechat2

AI Tools

voicechat2是一款使用WebSockets进行快速、本地化AI语音聊天的软件。

🤖

void

AI Tools

Void是一个开源的Cursor替代品,欢迎新用户参与开发和贡献。

🤖

wan21

AI Tools

Wan2.1是一款开源的视频生成模型,支持多种任务和分辨率,性能领先于现有模型。

🤖

watercrawl

AI Tools

WaterCrawl: 强大的自托管网络爬虫与数据提取工具

🤖

Watermark-Removal项目使用机器学习方法去除图片水印,效果与原图无区别。

🤖

Web Agent Protocol(WAP)是一种标准化框架,通过记录和重放浏览器行为,实现用户、Web代理和浏览器之间的无缝交互。

🤖

webrl

AI Tools

WebRL是一个自我进化的在线课程学习框架,用于训练Web代理,目标是WebArena环境。

🤖

webwalker

AI Tools

WebWalker 是一个基准工具,旨在评估大型语言模型在网页导航任务中的表现。

🤖

weebo

AI Tools

Weebo是一款基于Whisper、Llama和Kokoro的实时语音对话聊天机器人,支持多种语音响应。

📦

WhatsApp MCP Server

Developer Tools

WhatsApp MCP Server是一个连接Claude的工具,通过它用户可以在Claude中搜索、管理和发送个人WhatsApp消息。

🤖

WhatsApp MCP Server是一个连接Claude的工具,通过它用户可以在Claude中搜索、管理和发送个人WhatsApp消息。

🤖

whisper-medusa

AI Tools

Whisper Medusa 是改进版的Whisper模型,通过每次迭代预测多个标记加速语音转录,速度比 OpenAI 的 Whisper 快 50%,由以色列公司 aiOla 推出。

Whisper-Speech-to-Text-API是一个高效的语音转文本API,支持多种音视频格式,适合语音识别和字幕生成。

📦

Whisper-Speech-to-Text-API

Developer Tools

Whisper-Speech-to-Text-API是一个高效的语音转文本API,支持多种音视频格式,适合语音识别和字幕生成。

🤖

whisper-tiktok

AI Tools

利用AI生成趣味TikTok视频的工具,支持语音识别和自然语音合成。

🤖

whisper-web

AI Tools

Whisper Web 是一个在浏览器中运行的机器学习语音识别项目。

WhisperFusion是一款基于WhisperLive和WhisperSpeech功能的产品,通过在实时语音转文字流程中集成Mistral大型语言模型(LLM)来实现与AI的无缝对话。Whisper和LLM均经过TensorRT引擎优化,以最大程度提升性能和实时处理能力。WhisperSpeech则使用torch.compile来优化。产品定位于提供超低延迟的AI实时对话体验。

🤖

wiseflow

AI Tools

WiseFlow 是一个智能信息提取工具,可从多个来源自动分类并上传数据到数据库。

🤖

workflow-use

AI Tools

Workflow Use通过录制用户操作,创建确定性、可自愈的工作流,简化RPA流程,实现浏览器自动化。

🤖

wozway

AI Tools

Wozway 是一个安全高效的服务,帮助开发者管理聊天应用与大型语言模型的通信。

🤖

wrenai

AI Tools

革命性的AI数据助手,旨在通过简化与数据互动的方式,帮助个人和企业更快地获取结果和洞见

🤖

writing-tools

AI Tools

Writing Tools是一款适用于Windows的人工智能写作助手,提供语法修正、重写和多语言支持功能,完全免费且注重隐私。

🤖

x-flux

AI Tools

该项目提供用于微调Flux模型的脚本,包括LoRA和ControlNet两种模型。

🤖

x-portrait-nodes

AI Tools

X-Portrait Nodes 可通过输入视频和参考图像,动画化人像,适用于 ComfyUI。

🤖

xata-agent

AI Tools

Xata Agent是开源AI助手,监控PostgreSQL数据库,诊断问题,并提供修复和优化建议。

🤖

xhand

AI Tools

XHand是一种实时生成高细节手部3D模型的手部虚拟形象系统。

🤖

xianyu-autoagent

AI Tools

Xianyu AutoAgent是闲鱼AI客服机器人,支持7x24小时值守、智能议价和多专家协同。

🤖

xiaoyuankousuan

AI Tools

XiaoYuanKouSuan项目通过修改答案实现安卓口算应用的秒级答题自动化,极大提升了效率。

🤖

xr-animator

AI Tools

基于视频/网络摄像头的 AI 运动捕捉应用,可用于虚拟直播和元宇宙时代

Yi-VL-34B是Yi Vision Language(Yi-VL)多模态语言大模型的一个版本,基于Yi语言模型开发。它在全新多模态基准测试MMMU中表现出色,取得了41.6%的准确率,成功超越了一系列多模态大模型,仅次于GPT-4V。Yi-VL-34B展现出强大的跨学科知识理解和应用能力,并展现了在复杂跨学科任务上的强大实力。此外,Yi-VL-34B在针对中文场景打造的CMMMU数据集上的准确率也达到了36.5%,领先于当前最前沿的开源多模态模型。Yi-VL-34B的出色表现证明了其在图文理解和对话生成能力上的卓越表现。

🤖

yolodotnet

AI Tools

YoloDotNet 是基于C#的实时目标检测库,支持分类、目标检测、OBB检测、分割和姿态估计。

🤖

yolov10

AI Tools

YOLOv10是一款高效的实时端到端目标检测模型,优化了模型结构和后处理过程。

YOLOv9是基于深度学习的一种快速、准确的对象检测算法。其主要亮点在于能够在保持较高检测精度的同时,实现快速的检测速度,适合在实时应用中使用。

🤖

yt-navigator

AI Tools

YT Navigator 是一个AI驱动的YouTube频道内容搜索工具,可高效地搜索、聊天和定位视频内容。

🤖

yt2doc

AI Tools

yt2doc 是一款将视频转录为可读Markdown文档的工具,支持YouTube和Twitter。

🤖

zero-chatgpt

AI Tools

Zero-Chatgpt是一个开源项目,旨在从零开始实现chatgpt的技术路线与模型训练。

🤖

zerosearch

AI Tools

ZeroSearch是一个强化学习框架,无需真实搜索引擎即可提升LLM的搜索能力,降低API成本。

🤖

zerox

AI Tools

Zerox OCR 是一种经济高效且准确的文档OCR工具,适用于AI数据处理。

🤖

zev

AI Tools

Zev是一个使用自然语言查询终端命令的Python工具,基于OpenAI API或Ollama实现。

🤖

zibly

AI Tools

LLM应用分析利器:Zibly,提升你的LLM表现

🤖

zola

AI Tools

Zola是一款免费开源AI聊天应用,支持多模型,提供文件上传等功能,正处于Beta测试阶段。

🤖

zonos-v01

AI Tools

Zonos-v0.1是一个多语言文本转语音模型,支持声音克隆与情感调控,音质优越。

🤖

zotero-pdf2zh

AI Tools

Zotero PDF2zh是一款用于在Zotero中翻译PDF文件并支持双栏PDF分割的插件。

创作猫是一个视频剪辑软件,也是一个全能的创作平台。它具有去水印、下载作品、抠图、剪辑视频、配音、转文字等一系列强大功能,并且还支持AI成片功能。此外,创作猫还支持批量运营和账号运营,适合个人创作者和团队运营使用。除此之外,创作猫还提供了各种变现机会,比如通过社交媒体平台引流和小程序变现功能。

哄哄模拟器源于一次争吵后的创意灵感,是一个带有数值和反馈系统的基于场景的聊天应用。它通过聊天AI处理用户输入,并根据用户的回复对情感值进行变化。在App内,用户需要在指定聊天次数内将对方(AI)哄好,以提升“原谅值”,从而解决各种常见情侣吵架场景。该模拟器并不仅限于聊天,而是结合了数值系统和各种判定,提供了一种游戏化的体验。虽然该产品具有很高的用户满意度,但因为运行成本极高,目前产品前景不太明朗。

🤖

天工skymusic

AI Tools

昆仑万维推出国内首款AI音乐生成大模型「天工SkyMusic」并开启免费邀测

海绵音乐是一款 AI 音乐创作产品,输入一句话灵感或者歌词,即可快速生成音乐,最大限度拉近每个人同音乐创作的距离。同时,海绵音乐提供了丰富的自定义功能,让每个人都可以一键创作属于自己的 AI 音乐。在这个过程中,偶遇惊喜,发现更多可能,为你打造耳目一新的音乐创作体验。

🤖

小红书笔记生成器可将视频一键转化为优质笔记,自动优化内容与配图,方便内容创作者使用。

🤖

快手版Sora「可灵」开放测试,生成超长1080p视频,模拟真实物理与复杂运动。

🤖

懒人客服

AI Tools

基于大型语言模型(如GPT-3.5/GPT-4.0)的智能对话客服工具

🤖

基于AI的日语语句分析器,为中文用户提供深入的日语语法、词义解析,以及OCR图像识别和语音朗读等功能。

🤖

一个基于本地大语言模型的智能文档问答系统,它支持PDF文档解析和自然语言问答,并新增了联网搜索增强功能。系统的主要特点包括私有数据安全、实时响应、领域适配、离线/在线双模式和成本可控。文章详细描述了系统的功能特性、安装步骤、使用方法、配置说明、技术架构和RAG优化技巧。此外,还提供了常见问题解答、API接口使用说明,以及如何通过Ollama服务来运行本地大语言模型。总的来说,这是一个全面的指南,旨在帮助用户快速搭建和优化一个本地RAG问答系统,实现文档智能化处理和高效信息检索。

🤖

梵高的世界

AI Tools

你探索 @runwayml #Gen2 过 的风格功能吗?看看这个用粘土制作的梵高作品的视频——就像走进了梵高的双手雕刻的世界。 🎨 🖌️ 关注更多将经典艺术与现代技术融合的创新方式!

海螺问问是一款以GPT-4模型为基础的人工智能聊天应用,提供联网搜索、上传文件和照片答疑的功能。最吸引人的是它的语音通话功能,用户可以选择多种声音进行语音通话,仿佛与对方面对面聊天,还可以上传自己的声音进行克隆。此外,海螺问问还提供其他AI聊天应用,让用户尽情体验AI带来的乐趣。

秒画功能是一款由商汤日日新大模型体系研发的图像生成平台“秒画SenseMirage”的移动端版本。这款平台通过深度学习技术,利用少量提示词,就能自动补全并生成高质量的图像。它的上线主要为了让用户随时随地都能够轻松进行文生图创作。秒画3.5版本已经正式上线移动端,并且是免费开放的。

红薯智语是一款专为小红书用户量身打造的智能文案生成工具。用户只需要上传一张图片,它就可以智能生成符合小红书风格的文案。无论用户想分享美食、旅行、时尚搭配还是生活方式,红薯智能可以提供个性化、吸引人的文案建议,助力用户的笔记脱颖而出。该产品拥有1500万条小红书文案库积累,可深度学习小红书用户的表达习惯和内容偏好,从而输出高质量文案。同时,它支持用户输入关键词,自定义文案风格和场景标签,实现文案高度个性化。该产品可让小红书用户轻松获取专业级文案,极大提高内容创作效率。

腾讯文档智能助手正式开启公测,可与Word、Excel、PPT等多品类文档进行智能互动,支持内容秒级生成,实现数据处理、版式美化等创作辅助功能。主要优势有:可基于标题或描述生成多类型文档内容,支持函数公式应用、数据处理、表格自动化等能力,实现 PPT 一键美化,可快速提取 PDF 文档摘要等,让文档内容实现跨品类畅通流转。

讯飞星火认知大模型是科大讯飞推出的AI大语言模型,专注于提供高精度的语音识别和超拟人化的语音合成服务。它支持多种语言和方言,具备自动语种判断和智能标点功能,能够实现流畅的语音转文字和自然口语的语音输出。该模型适用于语音搜索、聊天输入、游戏娱乐、人机交互、智能客服等多个场景,为企业和开发者提供了强大的语音交互解决方案。

🤖

语析

AI Tools

语析是基于大模型的知识库与知识图谱问答系统,支持多模型、灵活知识库和智能体拓展。

🤖

谷歌-io-2024

AI Tools

谷歌 I/O 2024 发布了众多新技术,包括 Gemini AI、大语言模型和通用 AI 智能体等,全面颠覆搜索体验。

🤖

跟gpt聊天

AI Tools

原生多模态跟GPT聊天部分测试,大家都用他来做什么。