napkins
AI ToolsNapkins是一个开源工具,可将线框图生成应用程序,基于Llama 3.2 Vision和Together.ai。
发现最好的 AI 开发工具,涵盖 AI 编程助手、MCP 服务器、图像生成工具等。
Napkins是一个开源工具,可将线框图生成应用程序,基于Llama 3.2 Vision和Together.ai。
私有设备端AI浏览器助手
Adobe 发布了一个简单易用的 3D 工具Project Neo
Neo AI是一款Linux终端助手,能理解用户命令、执行操作并支持网络安全任务,注重隐私保护。
Neural Gaffer 是一种2D重光模型,可在单张图像上实现多种光照效果。
AI桌面自动化助手
专为时间序列预测设计的开源库
News Agents是一个利用Amazon Q、MCP和tmux在终端运行的多Agent并行新闻聚合与摘要系统。
Next.js AI Chatbot结合Supabase,开源模板提供高效的聊天功能与数据存储解决方案。
NLWeb是一个利用Schema.org等格式,简化网站对话式界面构建,并支持人机自然语言交互的开放协议与工具集。
Node.js Sandbox MCP Server是一个用Docker隔离运行JavaScript代码并动态安装npm依赖的Node.js服务器。
NodeRAG是一个基于异构图的RAG系统,支持精细检索、可视化和高效性能,旨在提升RAG效果。
NotebookLlama是一个开源项目,旨在将PDF文档转换为播客,涵盖多个处理步骤。
NotebookLlama是一个开源项目,旨在将PDF文档转换为播客,涵盖多个处理步骤。
Notes MCP是一个连接macOS Apple Notes的MCP服务器,支持Claude和Cursor等工具调用笔记功能。
notesGPT是一款智能语音笔记应用,可以快速生成行动项,提升效率。
notion-mcp-server是Notion API的MCP服务器实现,支持通过指令或内容ID与Notion交互。
亚马逊推出的新一代基础模型Nova,旨在提升人工智能应用的智能性和成本效益。
NSFW Detector是一款基于AI的NSFW内容检测工具,支持多种文件类型,确保数据安全。
NVIDIA-Ingest是一个高性能的文档内容及元数据提取微服务,支持PDF、Word和PPT等多种格式。
本地AI代理浏览器
o1是一种实验性原型,通过提示优化大型语言模型的推理能力,支持多种模型后端。
o1是一种实验性原型,通过提示优化大型语言模型的推理能力,支持多种模型后端。
O1-CODER是一个基于强化学习和蒙特卡洛树搜索的代码生成模型,旨在提高系统化推理能力。
O1 Nano是一个简化版的O1模型,专注于算术问题解决,结合推理和强化学习。
OCode是一款终端原生AI编码助手,它基于Ollama模型,提供代码库智能分析和自动化任务执行,助力开发工作流。
多模型编程助手
Octopus v2 是一个拥有 20 亿参数的开源语言模型,专为 Android API 量身定制,能够在智能手机、汽车、个人电脑等端侧运行。与 GPT-4 相比,Octopus v2 在准确性和延迟方面表现更好,并将上下文长度减少了 95%。此外,Octopus v2 模型还比 Llama7B + RAG 方案快 36 倍。这个模型在推理速度和准确率上都表现出色,特别适用于边缘计算设备。
PowerPoint MCP Server: Python演示文稿操作工具
Oli是基于Rust的开源本地智能助手,可进行代码辅助,具有强大的代理功能。
Oliva是一个多代理助手,利用Langchain和Superlinked在Qdrant数据库中查找产品。
Ollama App 是一款现代易用的客户端,为您提供本地网络隐私保护的极佳体验。
Ollama-GUI 是一个无需其他依赖的Python Tkinter实现的简易Ollama图形界面。
OllamaYTSumm 是一个使用本地AI服务器的Python脚本,用于对YouTube视频进行总结。
OLMo 2是迄今为止最优秀的完全开放语言模型,推动了开放语言模型的发展。
olmOCR是一个AI工具包,用于训练语言模型处理PDF文档,支持大规模并行处理,提供多种功能,包括文本解析、评估和过滤等。
olmOCR是一个AI工具包,用于训练语言模型处理PDF文档,支持大规模并行处理,提供多种功能,包括文本解析、评估和过滤等。
OmAgent是一个简易的Python库,用于构建支持多模态交互的语言代理,方便开发者与研究人员。
OminiControl是一种简约强大的通用控制框架,支持扩散变换器模型的多种生成任务。
OmniChain是一个自我更新的可视化工作流工具,适用于大型语言模型的自动化、机器人及集成应用。
OmniLMM是一系列面向图文理解的开源多模态大模型,接受图像和文本输入,并提供高质量的文本输出。该系列包括两个版本:OmniLMM-12B和OmniLMM-3B。其中,OmniLMM-12B具有领先性能,具备较为丰富的多模态世界知识,并实现了实时多模态交互。而OmniLMM-3B则可以高效部署在大多数GPU和个人电脑上,包括移动手机等终端设备,具有优秀性能和双语支持。
OmniParse是一个将各种非结构化数据转换为结构化、适用于生成式AI(LLM)应用的平台。
OmniSearch是首个自适应多模态检索增强生成规划代理,旨在实时动态问答中的知识获取。
OmniTalker是一个实时文本驱动的说话头生成框架,能以音视频风格复制技术生成逼真的对话视频。
OneDiffusion是一种多功能的大规模扩散模型,支持双向图像合成和理解。
OneFileLLM是命令行工具,用于聚合多种数据源并预处理成单个文本,方便LLM快速获取信息。
ONERECOVERY是一款AI驱动的工具,可以用于修复损坏或受损照片。它使用先进的AI技术来修复老旧、受损、过曝、欠曝或像素模糊的照片,甚至可以修复受损的黑白照片。此外,ONERECOVERY还可以自动去除照片上的划痕、灰尘、撕裂、褶皱等瑕疵,并且能够自动为黑白照片上色。它支持多种照片格式,如JPG、JPEG、PNG、RAW等,并能以无损质量优化图像,适合数字分享或打印。同时,ONERECOVERY还提供免费的修复和预览功能,确保用户可以在修复后满意地保存照片。此外,ONERECOVERY还注重隐私保护,保证用户上传的照片在24小时内会被从服务器上删除。最后,ONERECOVERY还承诺提供专业的售后服务,确保用户在修复照片的过程中能够得到支持和指导。
oneShotCodeGen 是一款命令行工具,可通过单一提示生成完整的全栈Web应用,提升AI代码生成的准确性。
Onit是一款Mac上的AI聊天侧边栏,可以吸附到任何应用程序,如同一个更通用的Cursor Chat。
Onit是一款Mac上的AI聊天侧边栏,可以吸附到任何应用程序,如同一个更通用的Cursor Chat。
设计师的AI驱动视觉化代码编辑器
OOTDiffusion是一种基于潜在扩散的虚拟试穿技术,其主要目的是通过实现控制性的换装融合,让用户能够在虚拟环境中试穿不同的服装。该技术通过融合最新的机器学习算法与图像处理技术,为用户提供了一种新颖的虚拟试穿体验。
深度强化学习培养双足机器人灵活的足球技能,包括踢球、追球等
Open Agent Platform是无代码Agent构建平台,支持RAG集成、Agent监督和多种工具连接,简化Agent管理。
Open Canvas是一个开源网络应用,旨在协作撰写文档,支持用户记忆和现有内容的联合编辑。
Open Codex是一款无需API密钥,基于本地语言模型的开源命令行AI助手,可将自然语言转换为Shell命令。
AI自主电脑操作平台
Open Deep Research是一个开源平台,借助AI技术高效生成精准的网络搜索报告。
AI驱动的深度研究报告生成器
Open Deep Research Web UI 是一个现代化的AI研究助手,提供直观的网页界面,支持深入主题研究。
Open Driving World Models 是一个开源项目,专注于生成可控的自动驾驶视频,提升场景多样性与生成质量。
多模型AI对话平台
Open Genmoji是一个基于开放技术的表情符号生成工具,可以在任何设备上使用,创造多样化的表情。
Open Interpreter 是一个开源工具,允许LLM在本地执行代码,支持多种编程语言。
Open O1是一个开源项目,旨在创建可与OpenAI O1模型相媲美的高级替代品,推动社区的AI创新。
Open Operator是一个概念验证工具,旨在提供构建网页代理所需的所有工具。
Open Reasoner Zero是一个开源项目,旨在提升大规模推理导向的强化学习训练的可扩展性和简便性。
AI 驱动网页智能研究
Open Scanner是一款免费快速的文档扫描应用,支持多设备同步,尊重隐私。
Open-Sora是一个开源项目,为Sora可能使用的开发流程提供高性能实现,包括数据处理、训练和部署的完整Sora复现架构解决方案。
企业级智能体应用平台
通过自然语言处理执行特定任务的AI代理
OpenAI Embedding Models新嵌入模型包括text-embedding-3-small和text-embedding-3-large。text-embedding-3-small相比前一代价格便宜5倍,性能更强,定价为$0.00002/1k tokens。而text-embedding-3-large是OpenAI最强大的嵌入模型,能够创建多达3072维的嵌入,定价为$0.00013/1k tokens。
Openai Translator Openai Translatoropenai is an AI-powered tool designed for developers and creators.
OpenAI Agents SDK是一个轻量级框架,用于构建多智能体工作流程,支持handoffs、guardrails和tracing功能。
以Next.js为基础的模板,旨在帮助开发者快速上手利用OpenAI的助手API构建各种应用
openai-captcha-detection 是一个基于 OpenAI 技术的高效验证码识别工具,准确率达100%。
OpenAI Codex CLI是轻量级终端编码助手,具备ChatGPT推理能力,可运行代码、操作文件并迭代,实现代码版本控制。
OpenAI GPT-OSS 模型优化与微调
OpenAI Realtime API与Twilio结合,构建电话AI助手,实现实时通话和消息转发功能。
macOS 平台的翻译提供翻译、润色和语法修改功能的插件
OpenAI WebRTC Shadcn Next15 Starter 是基于 WebRTC 的语音 AI 流应用,支持实时音频对话。
OpenAI推出新的精调API功能,增强自定义模型计划。
OpenAI.fm是一个基于NextJS和OpenAI API构建的交互式文本转语音演示应用。
OpenAI 第一天的发布活动已经结束,重点介绍了新的 O1 模型。该模型支持多模态输入,允许用户上传图片,并且处理速度更快。
Openalpha Evolve is an AI-powered tool designed for developers and creators.
OpenBB LLM Agents利用大型语言模型和OpenBB平台创建能够自主进行金融研究的分析代理。
语言模型开放基准
OpenChat是一个AI驱动的全栈聊天应用,支持Web、移动和桌面端,采用现代技术栈构建。
OpenCode是一个基于终端的AI助手,旨在为开发者提供智能编码辅助,支持多种AI模型、会话管理和工具集成,方便代码调试和任务处理。
OpenCoder是一款开放的代码大语言模型,支持中英文,致力于推动代码AI的发展。
OpenCoder是一款开放的代码大语言模型,支持中英文,致力于推动代码AI的发展。
OpenContracts是一个开源的企业文档分析工具,支持自动化与手动注释功能。
OpenDeepSearch是轻量级开源搜索工具,通过推理模型和智能代理,赋能AI Agent深度网络搜索和信息检索能力。
OpenDeRisk是AI原生风险智能系统,提供7*24小时的应用系统风险深度保护,并支持多智能体协作根因分析。
复制Devin,一个能够执行复杂工程任务并积极与用户在软件开发项目上合作的自主AI软件工程师
AI驱动的浏览器自动化
OpenELM是苹果机器学习研究团队发布的高效开源语言模型家族
OpenEMMA是一个开源的端到端自主驾驶多模态模型,旨在推进自动驾驶研究。
使任何普通眼镜通过不超过25美元的现成组件变成可编程的智能眼镜
OpenHands是一个基于AI的软件开发平台,旨在简化开发流程,提高生产力。
OpenHealth是一个本地运行的AI健康助手,可帮助您管理和理解个人健康数据。
OpenManus是一个开源框架,无需邀请码,即可实现各种AI Agent的想法,快来体验吧!
OpenManus是一个开源框架,无需邀请码,即可实现各种AI Agent的想法,快来体验吧!
OpenManus-RL是由UIUC和MetaGPT合作的开源项目,旨在探索基于强化学习的大语言模型智能体调优新范式。
OpenAPI 转 MCP 服务器工具
OpenPerPlex是一个使用最新技术的开源AI搜索引擎,提供强大的互联网搜索功能。
OpenPlexity Pages 是一个注重隐私的开源内容创作工具。
AI智能在线PPT全流程创作
OpenReasoningEngine是一个模块化的开源推理引擎,旨在通过开放协作提升模型能力。
Openrouter Ai is an AI-powered tool designed for developers and creators.
OpenSearch GPT是一款能够根据用户兴趣个性化学习的AI搜索引擎。
OpenSearch GPT是一款能够根据用户兴趣个性化学习的AI搜索引擎。
OpenSearch-SQL是一个无需额外训练的Text-to-SQL框架,它通过动态Few-shot和一致性对齐来增强文本到SQL的转换。
OpenVoice是一款能够精准克隆任意声音并支持多语言及情感口音控制的AI工具。
OpenVoice是一款能够精准克隆任意声音并支持多语言及情感口音控制的AI工具。
OpenVoiceChat 是一个开源项目,支持与大型语言模型进行自然语音对话。
Operator是一个新的代理人工具,可以通过其自己的浏览器执行网页上的任务。
Optexity通过人类演示训练AI模型,自动化完成网页任务,效果优于Gemini和GPT-4o。
特斯拉放出了擎天柱机器人最新训练视频
Orchestra 是一个轻量级开源框架,适用于构建基于大型语言模型的多智能体团队和复杂工作流程。
多智能体AI编程编排系统
ORION是一个端到端的自动驾驶框架,通过视觉语言模型指导动作生成,实现整体的自主驾驶。
Orpheus TTS是基于Llama-3b的开源TTS系统,具备语音克隆、情感控制和低延迟等能力。它超越了 ElevenLabs 和 OpenAI 等开源和闭源模型的能力!
AI桌面自动化
一个开源库,用于构建能自我改进的多功能计算机代理
Osam是一个开源工具,它允许本地运行“可对任何内容进行分割”的模型(Segment-Anything Models),灵感来源于Ollama。使用Osam,用户可以在本地环境中,而不是依赖于云服务,对图片进行内容分割。这种方法有助于保护数据隐私,同时也减少了因网络延迟可能产生的处理时间。
OSWorld是一款用于真实计算机环境中多模态代理开放式任务基准测试的先进平台
OTC用药推荐助手
高质量的虚拟试穿系统
OWL是一个多智能体协作框架,通过优化劳动力学习,实现现实世界任务的通用自动化辅助。
生产级智能体系统开发框架
Padel Analytics利用计算机视觉技术,从padel比赛录像中提取球员及球的运动数据和分析。
一个开源Chrome扩展,提供与本地AI模型交互的侧边栏和Web UI
个人AI生活工作编排框架
个人AI生活工作编排框架
Paints-Undo是一款模拟人类绘图行为的AI模型,展示人类绘画的步骤和过程。
使用自然语言控制生成视频的通用世界模型
PankoGPT是一个支持Discord和Telegram等平台的AI机器人管理工具,简化了自定义机器人的创建和管理。
个人化的电子邮件助手
Paper-to-Podcast是一个将学术研究论文转换为生动对话播客的工具,便于听众轻松吸收复杂信息。
Paper2Code是一个多智能体系统,利用LLM将机器学习论文自动转换为可运行的代码仓库,效果优于基线模型。
Paper2Poster是一个多模态系统,能从科研论文自动生成海报,并提供评估方法,包括视觉质量和内容连贯性等指标。
论文自动演示视频生成与评估
AI赋能的Paperless-ngx文档管理工具
PaperPiAI是一个基于Raspberry Pi Zero 2的独立艺术生成系统,能在电子墨水显示屏上生成独特图像。
并行自回归视觉生成(PAR)是一种高效的图像生成方法,旨在提升生成质量与速度。
一个轻量级的文本到语音(TTS)模型
PAR LLAMA 是一款基于 Ollama 的 TUI 应用,支持管理和使用大型语言模型,兼容各种操作系统。
单图生成多部件3D模型
一种可控人像生成框架,通过多个参考图像生成定制肖像
大模型时间感知与计算
PDF 转播客工具将 PDF 文档转换为音频播客,可以生成对话结构的 MP3 文件。
PDF-craft是一个能将扫描书籍PDF转换为多种格式(如Markdown, EPUB)的工具,利用AI技术提取内容并处理格式问题。
PDF文档布局分析是一个基于Docker的服务,用于PDF文档的OCR、分段、分类和元素排序分析。
pdf-extract-api是一个高精度的OCR工具,可将PDF和图像转换为Markdown或JSON格式。
PDF-Extract-Kit 提供高质量PDF内容提取,支持布局检测、公式识别和OCR功能
PDF Mind Map Maker是一款将PDF文档转换为互动思维导图的简单应用,内置AI分析功能。
pdf-ocr-obsidian利用Mistral AI将PDF转换为Obsidian风格的Markdown,提取文本和图像并自动组织。
PDF转音频转换器可以将PDF文件转换为音频播客、讲座和摘要,支持多种自定义选项。
PDF 转播客工具将 PDF 文档转换为音频播客,可以生成对话结构的 MP3 文件。
pdf2htmlEX 是一个将 PDF 文件转换为高质量 HTML 格式的工具,支持复杂布局和数学公式。
pdf2md是一个开源项目,可以将PDF文档转换为Markdown格式,便于编辑和分享。
PdfItDown是一个Python包,可将多种格式(如Markdown、图片等)转换为PDF,并提供命令行工具和Python API。
PDFMathTranslate是一款基于深度学习的PDF科学论文翻译工具,支持公式与图形布局保留。
PDFToChat 是一个能快速与PDF文档聊天的工具,基于Together AI与Pinecone技术。
PearAI是一个开源AI驱动的代码编辑器,旨在通过减少编码时间提升开发效率。
macOS截图与AI分析助手:Peekaboo MCP
开源的AI驱动搜索引擎工具
开源的AI驱动搜索引擎工具
开源的AI驱动搜索引擎工具
开源的AI驱动搜索引擎工具
Perplexity推出的Deep Research是一款免费的深度研究工具,性能超越多个主流AI模型。
Perplexity Pages是一款简化内容创作、轻松分享知识的全新工具。
AI持久化记忆与行为追踪
PeterCat是一个智能答疑机器人解决方案,专为社区维护者和开发者提供高效的技术支持。
微软开源phi-3-mini,能在手机上运行的高性能语言模型,参数量达38亿。
phidata是一个框架,用于构建具有记忆、知识、工具和推理能力的AI代理系统。
phidata是一个框架,用于构建具有记忆、知识、工具和推理能力的AI代理系统。
Phone MCP Plugin是一个强大的MCP插件,通过ADB命令轻松控制你的安卓手机,实现自动化操作,如通话、短信、媒体控制等。
PhoneAgent是一个基于OpenAI模型的iPhone智能助手,能够像人类用户一样操作手机应用并完成各种任务。
用户通过视频生成技术与3D对象进行互动,模拟真实世界中的物理现象
百分50%算力确达到了GPT-4水平
百分50%算力确达到了GPT-4水平
百分50%算力确达到了GPT-4水平
百分50%算力确达到了GPT-4水平
百分50%算力确达到了GPT-4水平
百分50%算力确达到了GPT-4水平
一个完全在树莓派上运行的人工智能语音助手,具备摄像和语音识别功能。
可扩展置换等变视觉几何学习
PianoMotion10M 是一个用于钢琴演奏手部动作生成的百万级数据集和基准。
picoDeepResearch是一个受OpenAI Deep Research启发,用于训练LLM迭代使用工具并合成信息生成研究报告的框架。
Picotron是一个简洁易用的Llama-like模型预训练框架,支持多维并行,适合学习和实验。
Pika推出视频加音效功能,声音效果现在可供所有用户使用
构建语音和多模态会话代理的框架
华为发布扩散变换模型,能够生成4K分辨率文本到图像的高效训练技术
PixelHacker是一个基于扩散模型的图像修复方法,具有优秀的结构和语义一致性,并在多个数据集上取得了SOTA性能。
能够在保持角色一致性的同时生成多样化场景动态视频的AI工具
PlacidDreamer是用于提升文本到3D生成效果的工具,由清华大学和快手研究团队开发。
车牌对抗扰动数据集生成