vision-agent
AI ToolsVision Agent 是一个通过代理系统自动生成代码解决视觉任务的库。
发现最好的 AI 开发工具,涵盖 AI 编程助手、MCP 服务器、图像生成工具等。
Vision Agent 是一个通过代理系统自动生成代码解决视觉任务的库。
Vision Parse 是一个基于视觉语言模型的工具,可以将 PDF 文档智能转换为格式化的 Markdown 内容。
VisionReward 是一种多维度人类偏好学习模型,用于图像和视频生成的精细化评估。
VITA是首个开源的交互式多模态大语言模型,能同时处理视频、图像、文本和音频。
VITA-1.5是一款强大的开源交互式多模态大语言模型,支持实时视觉与语音交互。
阿里巴巴ViViD是一种利用扩散模型实现视频虚拟试穿的新框架。
vLLM大模型服务CLI
从单个人物图像生成文本和音频驱动的说话视频
用AI通过声音与用户进行实时交流
OpenAI推出了名为Voice Engine的模型,可根据文本和15秒音频样本生成自然发音
voicechat2是一款使用WebSockets进行快速、本地化AI语音聊天的软件。
Void是一个开源的Cursor替代品,欢迎新用户参与开发和贡献。
元代理旅行助手:智能工具与验证
Wan2.1是一款开源的视频生成模型,支持多种任务和分辨率,性能领先于现有模型。
Wan2.2:高效高清视频生成大模型
WaterCrawl: 强大的自托管网络爬虫与数据提取工具
Watermark-Removal项目使用机器学习方法去除图片水印,效果与原图无区别。
Web Agent Protocol(WAP)是一种标准化框架,通过记录和重放浏览器行为,实现用户、Web代理和浏览器之间的无缝交互。
Web代码生成质量评估器
实时网络搜索命令行工具
Webcam Live Portrait 是一个开源项目,用于实时生成人像动态效果。
WebRL是一个自我进化的在线课程学习框架,用于训练Web代理,目标是WebArena环境。
WebWalker 是一个基准工具,旨在评估大型语言模型在网页导航任务中的表现。
Weebo是一款基于Whisper、Llama和Kokoro的实时语音对话聊天机器人,支持多种语音响应。
WhatsApp MCP Server是一个连接Claude的工具,通过它用户可以在Claude中搜索、管理和发送个人WhatsApp消息。
WhatsApp MCP Server是一个连接Claude的工具,通过它用户可以在Claude中搜索、管理和发送个人WhatsApp消息。
Whishper Whishper100 is an AI-powered tool designed for developers and creators.
音频转录与文本转换
Whisper Medusa 是改进版的Whisper模型,通过每次迭代预测多个标记加速语音转录,速度比 OpenAI 的 Whisper 快 50%,由以色列公司 aiOla 推出。
Whisper-Speech-to-Text-API是一个高效的语音转文本API,支持多种音视频格式,适合语音识别和字幕生成。
Whisper-Speech-to-Text-API是一个高效的语音转文本API,支持多种音视频格式,适合语音识别和字幕生成。
利用AI生成趣味TikTok视频的工具,支持语音识别和自然语音合成。
Whisper Web 是一个在浏览器中运行的机器学习语音识别项目。
WhisperFusion是一款基于WhisperLive和WhisperSpeech功能的产品,通过在实时语音转文字流程中集成Mistral大型语言模型(LLM)来实现与AI的无缝对话。Whisper和LLM均经过TensorRT引擎优化,以最大程度提升性能和实时处理能力。WhisperSpeech则使用torch.compile来优化。产品定位于提供超低延迟的AI实时对话体验。
AI代理人数据智能DePIN
WhiteRabbitNeo-7B-v1.5a 是WhiteRabbitNeo系列的一个版本,这是一系列大规模、面向自然语言处理任务的预训练语言模型。该模型能够支持文本生成、摘要、翻译等多种任务。
智能体广域信息搜集基准
AI自动化Windows
Windrecorder Windows is an AI-powered tool designed for developers and creators.
WiseFlow 是一个智能信息提取工具,可从多个来源自动分类并上传数据到数据库。
AI图片背景去除
Workflow Use通过录制用户操作,创建确定性、可自愈的工作流,简化RPA流程,实现浏览器自动化。
World Labs的人工智能系统能从单张照片生成可互动的3D场景,为用户提供沉浸式体验。
Wozway 是一个安全高效的服务,帮助开发者管理聊天应用与大型语言模型的通信。
革命性的AI数据助手,旨在通过简化与数据互动的方式,帮助个人和企业更快地获取结果和洞见
Writing Tools是一款适用于Windows的人工智能写作助手,提供语法修正、重写和多语言支持功能,完全免费且注重隐私。
自然语言FFmpeg命令生成
AI智能运维管理平台
该项目提供用于微调Flux模型的脚本,包括LoRA和ControlNet两种模型。
X-Portrait Nodes 可通过输入视频和参考图像,动画化人像,适用于 ComfyUI。
Xata Agent是开源AI助手,监控PostgreSQL数据库,诊断问题,并提供修复和优化建议。
XHand是一种实时生成高细节手部3D模型的手部虚拟形象系统。
Xianyu AutoAgent是闲鱼AI客服机器人,支持7x24小时值守、智能议价和多专家协同。
XiaoYuanKouSuan项目通过修改答案实现安卓口算应用的秒级答题自动化,极大提升了效率。
小智客户端:AI MCP统一接入
基于视频/网络摄像头的 AI 运动捕捉应用,可用于虚拟直播和元宇宙时代
AI多模态内容生成系统
李开复01.AI开源9B大型语言模型
Yi-VL-34B是Yi Vision Language(Yi-VL)多模态语言大模型的一个版本,基于Yi语言模型开发。它在全新多模态基准测试MMMU中表现出色,取得了41.6%的准确率,成功超越了一系列多模态大模型,仅次于GPT-4V。Yi-VL-34B展现出强大的跨学科知识理解和应用能力,并展现了在复杂跨学科任务上的强大实力。此外,Yi-VL-34B在针对中文场景打造的CMMMU数据集上的准确率也达到了36.5%,领先于当前最前沿的开源多模态模型。Yi-VL-34B的出色表现证明了其在图文理解和对话生成能力上的卓越表现。
YoloDotNet 是基于C#的实时目标检测库,支持分类、目标检测、OBB检测、分割和姿态估计。
YOLOv10是一款高效的实时端到端目标检测模型,优化了模型结构和后处理过程。
YOLOv9是基于深度学习的一种快速、准确的对象检测算法。其主要亮点在于能够在保持较高检测精度的同时,实现快速的检测速度,适合在实时应用中使用。
Openator是一款开源浏览器代理工具,能够执行自然语言制定的操作。
开源高效智能体框架
AI引导式提示词生成
YT Navigator 是一个AI驱动的YouTube频道内容搜索工具,可高效地搜索、聊天和定位视频内容。
yt2doc 是一款将视频转录为可读Markdown文档的工具,支持YouTube和Twitter。
YouTube 转录 MCP 服务器
Zero-Chatgpt是一个开源项目,旨在从零开始实现chatgpt的技术路线与模型训练。
极简TypeScript LLM智能体框架
ZeroSearch是一个强化学习框架,无需真实搜索引擎即可提升LLM的搜索能力,降低API成本。
Zerox OCR 是一种经济高效且准确的文档OCR工具,适用于AI数据处理。
Zev是一个使用自然语言查询终端命令的Python工具,基于OpenAI API或Ollama实现。
LLM应用分析利器:Zibly,提升你的LLM表现
轻量级CLI MCP客户端:桥接本地LLM与MCP服务器
极简 AI 智能体框架
Zola是一款免费开源AI聊天应用,支持多模型,提供文件上传等功能,正处于Beta测试阶段。
Zonos-v0.1是一个多语言文本转语音模型,支持声音克隆与情感调控,音质优越。
Zotero PDF2zh是一款用于在Zotero中翻译PDF文件并支持双栏PDF分割的插件。
提示词注入的原因:
创作猫是一个视频剪辑软件,也是一个全能的创作平台。它具有去水印、下载作品、抠图、剪辑视频、配音、转文字等一系列强大功能,并且还支持AI成片功能。此外,创作猫还支持批量运营和账号运营,适合个人创作者和团队运营使用。除此之外,创作猫还提供了各种变现机会,比如通过社交媒体平台引流和小程序变现功能。
哄哄模拟器源于一次争吵后的创意灵感,是一个带有数值和反馈系统的基于场景的聊天应用。它通过聊天AI处理用户输入,并根据用户的回复对情感值进行变化。在App内,用户需要在指定聊天次数内将对方(AI)哄好,以提升“原谅值”,从而解决各种常见情侣吵架场景。该模拟器并不仅限于聊天,而是结合了数值系统和各种判定,提供了一种游戏化的体验。虽然该产品具有很高的用户满意度,但因为运行成本极高,目前产品前景不太明朗。
AI全流程自动化开发平台
昆仑万维推出国内首款AI音乐生成大模型「天工SkyMusic」并开启免费邀测
海绵音乐是一款 AI 音乐创作产品,输入一句话灵感或者歌词,即可快速生成音乐,最大限度拉近每个人同音乐创作的距离。同时,海绵音乐提供了丰富的自定义功能,让每个人都可以一键创作属于自己的 AI 音乐。在这个过程中,偶遇惊喜,发现更多可能,为你打造耳目一新的音乐创作体验。
小智 AI 聊天机器人是基于ESP32开发的开源项目,旨在帮助用户学习AI硬件开发。
小红书笔记生成器可将视频一键转化为优质笔记,自动优化内容与配图,方便内容创作者使用。
快手版Sora「可灵」开放测试,生成超长1080p视频,模拟真实物理与复杂运动。
基于大型语言模型(如GPT-3.5/GPT-4.0)的智能对话客服工具
手撸Claude Code:LLM Agent开发教程
吴恩达新写的提示工程技巧
这是一个无需代理的LLM网络搜索引擎,支持多引擎搜索、智能解析和异步处理,适用于大模型外部知识调用。
基于AI的日语语句分析器,为中文用户提供深入的日语语法、词义解析,以及OCR图像识别和语音朗读等功能。
一个基于本地大语言模型的智能文档问答系统,它支持PDF文档解析和自然语言问答,并新增了联网搜索增强功能。系统的主要特点包括私有数据安全、实时响应、领域适配、离线/在线双模式和成本可控。文章详细描述了系统的功能特性、安装步骤、使用方法、配置说明、技术架构和RAG优化技巧。此外,还提供了常见问题解答、API接口使用说明,以及如何通过Ollama服务来运行本地大语言模型。总的来说,这是一个全面的指南,旨在帮助用户快速搭建和优化一个本地RAG问答系统,实现文档智能化处理和高效信息检索。
@fabianstelzer 在Glif做的一个超强meme生成器
你探索 @runwayml #Gen2 过 的风格功能吗?看看这个用粘土制作的梵高作品的视频——就像走进了梵高的双手雕刻的世界。 🎨 🖌️ 关注更多将经典艺术与现代技术融合的创新方式!
海螺问问是一款以GPT-4模型为基础的人工智能聊天应用,提供联网搜索、上传文件和照片答疑的功能。最吸引人的是它的语音通话功能,用户可以选择多种声音进行语音通话,仿佛与对方面对面聊天,还可以上传自己的声音进行克隆。此外,海螺问问还提供其他AI聊天应用,让用户尽情体验AI带来的乐趣。
神秘的gpt2-chatbot 表现和GPT4不分上下
秒画功能是一款由商汤日日新大模型体系研发的图像生成平台“秒画SenseMirage”的移动端版本。这款平台通过深度学习技术,利用少量提示词,就能自动补全并生成高质量的图像。它的上线主要为了让用户随时随地都能够轻松进行文生图创作。秒画3.5版本已经正式上线移动端,并且是免费开放的。
红薯智语是一款专为小红书用户量身打造的智能文案生成工具。用户只需要上传一张图片,它就可以智能生成符合小红书风格的文案。无论用户想分享美食、旅行、时尚搭配还是生活方式,红薯智能可以提供个性化、吸引人的文案建议,助力用户的笔记脱颖而出。该产品拥有1500万条小红书文案库积累,可深度学习小红书用户的表达习惯和内容偏好,从而输出高质量文案。同时,它支持用户输入关键词,自定义文案风格和场景标签,实现文案高度个性化。该产品可让小红书用户轻松获取专业级文案,极大提高内容创作效率。
AI编码面试解题助手
腾讯文档智能助手正式开启公测,可与Word、Excel、PPT等多品类文档进行智能互动,支持内容秒级生成,实现数据处理、版式美化等创作辅助功能。主要优势有:可基于标题或描述生成多类型文档内容,支持函数公式应用、数据处理、表格自动化等能力,实现 PPT 一键美化,可快速提取 PDF 文档摘要等,让文档内容实现跨品类畅通流转。
大模型驱动的虚假新闻事实核查
开源免费中文智能语音工作流
讯飞星火认知大模型是科大讯飞推出的AI大语言模型,专注于提供高精度的语音识别和超拟人化的语音合成服务。它支持多种语言和方言,具备自动语种判断和智能标点功能,能够实现流畅的语音转文字和自然口语的语音输出。该模型适用于语音搜索、聊天输入、游戏娱乐、人机交互、智能客服等多个场景,为企业和开发者提供了强大的语音交互解决方案。
多模型智能论文生成
语析是基于大模型的知识库与知识图谱问答系统,支持多模型、灵活知识库和智能体拓展。
谷歌 I/O 2024 发布了众多新技术,包括 Gemini AI、大语言模型和通用 AI 智能体等,全面颠覆搜索体验。
原生多模态跟GPT聊天部分测试,大家都用他来做什么。
该程序利用 OCR 技术自动识别小猿口算中的数字并进行比大小操作。
AI金融研报自动生成系统
闲鱼AI监控与智能筛选平台
LLM概念动画生成器
AI多角色多情绪配音平台