playwright-mcp
AI ToolsPlaywright MCP是利用Playwright的MCP服务器,通过结构化数据赋能LLM进行快速可靠的网页自动化操作。
发现最好的 AI 开发工具,涵盖 AI 编程助手、MCP 服务器、图像生成工具等。
Playwright MCP是利用Playwright的MCP服务器,通过结构化数据赋能LLM进行快速可靠的网页自动化操作。
Playwright MCP Server是一个使用Playwright的MCP服务器,让LLM能自动化浏览器操作,截图和执行JavaScript。
Playwright 持久化评估环境
Pleias Scholasticai is an AI-powered tool designed for developers and creators.
该项目展示了如何使用OpenAI的实时API构建个性化AI助手,支持工具链和结构化输出。
Pocket Flow是一个仅用100行代码实现的极简LLM框架,轻量且功能强大,支持Agent、Workflow、RAG等模式。
Pocket Flow是一个快速构建企业级AI系统的框架,基于嵌套有向图,模块化且不依赖特定厂商。
Pocket Flow项目模板利用100行LLM框架,配合编辑器,助你通过Agentic Coding构建LLM项目。
PodCastLM是一个将PDF内容转化为音频播客的工具,生成自然对话并输出MP3文件。
将拍摄的照片转换成诗歌并打印出来
AI聊天、交叉分析与知识管理
AI实时姿态监测与提醒
pot-desktop是一款备受欢迎的跨平台划词翻译和OCR软件,为用户提供便捷的文字翻译和识别功能。
Potpie是一个开源平台,能够为您的代码库创建AI代理,自动化代码分析、测试和开发任务。
Ppt Aippt is an AI-powered tool designed for developers and creators.
PPTAgent是一个自动从文档生成演示文稿的系统,具备内容生成和评估框架。
PPTX2MD是一个将PowerPoint文件转换为Markdown的工具,支持多种格式。
该课程教授如何构建和部署多智能体系统,应用于项目规划、数据分析等实际场景。
AI股票分析与模拟交易
ProcessPainter 是使用扩散模型生成类人绘画过程的工具,目前支持推理和部分训练功能。
ProctorAI是一款多模态AI,监督屏幕并提醒用户停止拖延,提升工作效率。
通过模拟不同的攻击场景来评估系统提示(system prompt)的安全性
帮助讲故事者和创意人士打造独特的midjourney图片提示
Prompt-Singer是一种通过自然语言提示来控制歌唱声音合成的模型。
多语言手语数据集,便捷高效用于手语研究。
文生图提示词增强
AI Prompt智能管理助手
Promptim 是一个实验性的提示优化库,旨在通过自动化流程系统地改善 AI 系统的提示效果。
PromptWizard是一种自我演变的任务感知提示优化框架,通过反馈驱动的改进技术,持续提升提示和示例的有效性。
Promptwright是一款Python库,用于通过本地大语言模型生成合成数据集,操作简单灵活。
PuLID是一种新颖的无需调整的文本至图片生成的定制方法,通过对比对齐实现高ID保真度。
Puppeteer Real Browser 是一个防止被检测为机器人的工具,支持通过验证码。
Pydfy 是一个简化生成 PDF 报告的工具,支持多种组件和自定义。
pypalettes 为Python提供超过2500种色彩映射的集合,适用于matplotlib和seaborn。
Python A2A是Google A2A协议的完整Python实现,集成MCP和LangChain,用于构建可互操作的多智能体系统。
Python A2A是Google A2A协议的完整Python实现,集成MCP和LangChain,用于构建可互操作的多智能体系统。
Python-genai是Google的Gen AI SDK,提供Python接口访问Google AI模型,支持文本生成、图像生成等功能。
Pywen:Qwen3-Coder智能开发代理
用自然语言即可完全控制用户界面
搜索优先的问答代理:RAG的替代方案
基于任何格式文件和数据库的本地知识库问答系统,支持离线安装使用
Qoder身份指纹重置工具
Qodo Cover是一个利用生成式AI自动生成合格测试用例的工具,旨在提高代码覆盖率。
Quality Prompts是一个包含58种提示技术的工具库,可以快速评估和使用提示方法。
Quantum Swarm是一个强大的多代理系统,利用协作的AI代理高效处理复杂查询。
图谱驱动Text2SQL
AI驱动的桌面应用构建
Qwen的指令跟随、工具使用、规划和记忆能力开发LLM应用的框架
Qwen代码AI命令行工具
高保真文本渲染图像生成与编辑
Qwen Mac菜单栏应用为macOS用户提供便捷的访问,支持文本生成、翻译等多种功能。
Qwen-VL 是阿里云推出的通用型视觉语言模型,具有强大的视觉理解和多模态推理能力。它支持零样本图像描述、视觉问答、文本理解、图像地标定位等任务,在多个视觉基准测试中达到或超过当前最优水平。该模型采用 Transformer 结构,以 7B 参数规模进行预训练,支持 448x448 分辨率,可以端到端处理图像与文本的多模态输入与输出。Qwen-VL 的优势包括通用性强、支持多语种、细粒度理解等。它可以广泛应用于图像理解、视觉问答、图像标注、图文生成等任务。
Qwen15 Qwen15Hugging Face is an AI-powered tool designed for developers and creators.
Qwen1.5-32B是Qwen1.5系列中性能与效率兼顾的最新语言模型,内存占用低,运行速度快。
阿里巴巴一款小型 MoE 模型,只有 27 亿个激活参数,但性能与最先进的 7B 模型(如 Mistral 7B 和 Qwen1.5-7B)相匹配
Qwen2 是一种多语言预训练和指令调优的语言模型,支持128K上下文长度并在多项基准测试中表现优异。
Qwen2.5-Coder是一款强大、丰富且实用的开源代码模型,支持多种编程语言与长文本理解。
阿里巴巴开源的全新全模态大模型Qwen2.5-Omni
Qwen3是阿里云发布的最新通义千问大模型,提供多种尺寸和专家模型,具备优秀推理、对话和工具使用能力。
Qwen ASR 语音转录工作台
Qwen ASR 超长音视频转录
Qwen3:多功能文本嵌入与排序模型
Qwen3大模型微调实战
全模态多语言实时交互大模型
QwenLong-L1是通过强化学习训练的首个长文本推理大模型,在长文本DocQA基准测试中表现卓越,优于许多同类模型。
QwQ是一个注重深度思考与探索未知领域的人工智能模型,体现了追求真理和自我反思的哲学精神。
QwQ-32B是Qwen系列推理模型,具有325亿参数,擅长解决难题,推荐使用特定参数以标准化输出格式。
QwQ-Max-Preview是Qwen系列的新进展,专注于深层推理和多领域问题解决,未来将开源。
R1-OneVision是一个开源的多模态大语言模型,具备强大的推理能力,在视觉推理任务中表现出色。
R1-V项目旨在通过强化学习提升视觉语言模型的泛化能力与训练效率,贡献开源研究。
RA.Aid是一款强大的人工智能命令行工具,可以自动化开发任务,提供智能助理支持。
RAG-Anything:一体化多模态文档处理RAG系统
RAG Logger 是一款开源日志工具,专为检索增强生成应用而设计,支持结构化日志存储。
RAG Me Up 是一款轻量级框架,方便用户在自己数据集上运行RAG。
thinkany.ai提供的,支持详细配置的搜索API服务
RAG with txtai是一款基于txtai的检索增强生成(Streamlit)应用,支持向量和图路径查询。
RAGapp 通过 Docker 实现简单易用的 Agentic RAG 部署,支持自有云基础设施。
RAGapp 通过 Docker 实现简单易用的 Agentic RAG 部署,支持自有云基础设施。
一个全面的 AI 框架,用于在 NLP 研究中对检索增强生成算法进行透明和模块化评估
RAGLite是一个用于检索增强生成(RAG)的Python工具包,支持PostgreSQL和SQLite数据库。
AI实时金融研究助手
RDAgent旨在自动化数据驱动的研发过程,通过迭代改进模型和数据,提供数据挖掘和研究助手等功能。
一个融合Python代码执行和React组件渲染的智能AI助手应用,适用于数据分析与互动网页开发。
免费且开源的简历制作工具,帮助您轻松创建、更新和分享您的简历
Reader是一个为语言模型(LLM)设计的工具,旨在改善这些模型处理网页内容时的输入质量。它通过简化的方式将任意URL的内容转换成更适合语言模型处理的格式。这种处理不仅包括提取主要内容,去除不必要的格式和杂质,还可能包括将内容分解为更容易由模型处理的形式。
ReaderLM-v2是一个支持29种语言的强大模型,专用于将HTML转换为高质量的Markdown或JSON。
这是一个基于AI的实时语音聊天项目,能让你用语音与AI进行自然对话,并获得近乎实时的语音回复。
实时直播数字人通过少样本学习在30和40系列显卡上流畅运行,提供交互体验。
该课程教授如何构建和部署适用于H&M时尚商品的实时个性化推荐系统。
该实时太阳系演示通过开放AI API,实现用户与3D场景的语音互动,展示太阳系的动态效果。
RealtimeSTT 是一款易用、低延迟的实时语音转文字库,适用于语音助手等应用。
ReasonFlux是一种层次化的大语言模型推理技术,使用500个思维模板,提升推理能力。
ReasonRank:强推理段落重排
ReCamMaster是一种通过单视频生成摄像机控制的生成渲染,可重新捕捉具有新颖相机轨迹的视频。
AI收据管理
Recommender 是一款基于 Plex 库和评分提供个性化电影与电视节目推荐的应用。
RedCache-ai 提供了一个用于大型语言模型和智能代理的动态记忆框架。
RedCache-ai 提供了一个用于大型语言模型和智能代理的动态记忆框架。
Reddit AI趋势自动化报告
使用ReaEkai工具克隆声音的方法,只需几秒钟即可生成逼真的声音。通过选择角色和输入文本,可以快速生成音频,而无需复杂的电脑配置和长时间的样本。相比传统的VITS技术,ReaEkai更先进,能够理解文本和声音的对应关系,生成类似声优角色的声音。该工具还提供了免费的点数兑换和签到奖励,免费使用。
ReflectionAnyLLM 是一个轻量级工具,可实现与多种大型语言模型的基本链思维逻辑推理,支持快速切换API。
Refly是一个开源的AI创作引擎,提供直观的界面和多线程对话功能,助力内容生成。
该研究提出了一种区域感知的文本到图像生成方法,通过硬绑定和软细化实现精确的布局组合。
Fusion 智能抠图插件
Remove Background Webgpu Webgpu is an AI-powered tool designed for developers and creators.
Remove-BG 是一个基于 WebGPU 的在线工具,可以快速去除图片背景。
Removerized是一款免费的AI工具,可轻松去除图片背景,支持离线使用。
Reply gAI 是一款基于用户推特资料生成个性化回复的人工智能工具,利用实时数据和用户风格。
Report mAIstro 是一个灵活的报告生成工具,可以根据用户提供的主题和结构快速创建定制化报告。
解决了文本到图像模型生成超出其训练域分辨率的图像的问题
ReSearch利用强化学习训练LLM,使其学会通过搜索进行推理,从而提高问答效果,无需监督数据。
ReSearch利用强化学习训练LLM,使其学会通过搜索进行推理,从而提高问答效果,无需监督数据。
ReSearch利用强化学习训练LLM,使其学会通过搜索进行推理,从而提高问答效果,无需监督数据。
ReSearch利用强化学习训练LLM,使其学会通过搜索进行推理,从而提高问答效果,无需监督数据。
Research Rabbit是一款AI驱动的网络研究助手,能自动深入用户指定主题并生成总结。
Reservoirs Lab 是一款轻量级 Electron 应用,能直连 Postgres 数据库并可视化高维向量数据。
RestorePhotos 是一个利用AI技术修复老旧人脸照片的项目,用户可上传照片进行恢复。
Rewind功能是一个个性化的人工智能工具,它能够记录和整理用户在电脑上看到、说过、或听过的所有内容。Rewind的主要优势在于,它可以帮助用户更高效地完成工作,尤其是在以下几种情况下特别有用:
思维链目标指代模型
RIFT-SVC是基于Transformer的唱歌声音转换模型,具有多项优化与改进。
Riona-AI-Agent是一款基于AI的自动化工具,可高效管理社交媒体账号并生成吸引人的内容。
rLLM是一个开源项目,旨在普及LLM的强化学习,并复现DeepSeek和OpenAI的模型性能。
RMBG v1.4是一个新的背景分割开源模型,经过在精心挑选的数据集上进行训练,包括普通图片库、电子商务、游戏和广告内容,使其适用于商业用例,为大规模的企业内容创建提供了动力。在训练过程中,模型使用了超过12,000张高质量、高分辨率、手动标记(像素精度)、完全许可的图像。目前,这个模型的准确性、效率和多功能性已经可以与领先的开源模型相媲美,受到了用户的一致好评。通过不断地优化和改进,RMBG v1.4有望成为行业内的翘楚,为用户提供更好的背景分割体验。
RMBG v2.0是一个先进的图像背景去除模型,适用于多种商业场景。
开源的基于矢量的绘图应用程序适用于草图、手写笔记及文档和图片标注
Robo Blogger通过语音记录和自动生成技术,简化博客文章的创作过程,使内容更专业、结构更清晰。
RoboBrain 2.0:更强大的具身智能大脑模型
Robot Utility Models(RUMs)是一种无需微调即可在新环境中直接应用的机器人政策训练框架。
Markdown笔记应用,它支持LLM(大型语言模型)驱动的文本完成、聊天和语义搜索等功能
Rodel Agent 是一款集成多种AI服务的Windows桌面应用。
RodinHD是一种利用扩散模型生成高保真3D虚拟头像的方法。
ROMA: 递归开放元代理框架
Roo Commander: 智能工作流编排系统
RooFlow是VS Code扩展,通过持久项目上下文和优化的模式交互,增强AI辅助开发,降低token消耗。
RoomGPT是一个基于AI的工具,可以通过上传房间照片重新设计你的房间。
ROS MCP Server利用LLM将自然语言指令转化为ROS指令控制机器人,兼容ROS/ROS2,适用于多种平台。
rStar-Math是一个小型语言模型,通过自我演化的深度思维,提升数学推理能力的研究项目。
世界首款开源的实时翻译应用,支持多人多语言对话。
跨语言AI智能体平台
s1是一个简单的测试时间缩放方法,能基于1000个示例和预算限制实现强推理性能。
能够将单张静态人像图片与音频(比如一段对话或音乐)结合,生成一段看起来这个人像在说话或表达情感的真实动态视频
AI对话电子书阅读器
Saiki是一个AI工具,利用自然语言控制你的工具、应用和服务,简化自动化工作流程和原型设计。
Meta发布SAM 2,是一种用于图像和视频的高效实时可提示分割模型。
Scenario 是一个用于端到端测试 Agent 的 Python 库,它允许你像真人一样自动化地测试 Agent 的各种场景。
SCEPTER是一个开源代码库,致力于生成式模型的训练、调优和推理,涵盖图像生成、迁移、编辑等一系列下游任务。它整合了社区主流实现以及阿里巴巴通逸实验室自研方法,为生成式领域的研究人员和从业者提供全面、通用的工具集。这个多功能库旨在促进创新,加速这个快速发展的领域的进步。
基于MCP的智能学术研究助手
SciAgents通过多智能体图推理自动化科学发现,揭示了生物启发材料领域的隐藏跨学科关系。
科学智能体构建与实验平台
Scira 是一款简约的人工智能搜索引擎,帮助用户快速获取互联网信息。
大型语言模型(LLM)和直接图逻辑来为网站、文档和XML文件创建爬取管道
Scrapling是高性能的Python网页抓取库,可自动适应网站变化,轻松高效地抓取网页。
利用大语言模型,通过屏幕内容自动生成行动或任务。
UI自动化代码生成
使用 AI 将您的粗略草图变成精致的图像
SDXL-Lightning是字节跳动开发一个快速的文本到图像生成模型,能够在几个步骤内生成高质量的1024像素图像。该模型发布用于研究目的,可以从stabilityai/stable-diffusion-xl-base-1.0中提取模型。SDXL-Lightning提供了1步、2步、4步和8步不同训练步数的模型。其中2步、4步和8步模型的生成质量非常出色,而1步模型则更多用于实验目的。
小米发布的大幅增强SD 图像生成技术SDXS
LLM智能体自进化轨迹优化
一个基于对话的搜索系统,它利用人工智能技术提高搜索的准确度和体验
Search-o1是一个增强大型推理模型的框架,通过智能检索机制提升其推理能力和准确性。
Search-R1使用强化学习训练LLM,使其具备推理能力并能调用搜索引擎,复现DeepSeek-R1方法。
一个基于对话的搜索系统,它利用人工智能技术提高搜索的准确度和体验
让 LLM API 支持联网搜索、浏览新闻和网页总结的工具,search2ai 是一种让语言模型联网并实时获取信息的解决方案,它适用于任何需要及时获取和处理最新网络数据的场合。
高效推理搜索LLM代理系统:SearchAgent-X
OpenAI 推出新的AI搜索功能SearchGPT
在浏览器中运行的私密大型语言模型(LLM)聊天机器人
AI生成代码安全基线规则文件
SEED-Story 是一种能生成包含一致性图像的多模态长篇故事的机器学习模型,配套数据集已开放。
Seed-Thinking-v1.5利用强化学习提升推理能力,在数学、编程等领域表现出色,具有广泛适用性。
强大的文本到语音转换工具
Seekout Assist Seekout Assist Chatgpt is an AI-powered tool designed for developers and creators.
如何从零开始构建一个简单但功能强大的视觉语言模型
Self-Operating Computer Framework是一个可以让多模态模型操作计算机的框架。它使用与人类操作者相同的输入和输出,观察屏幕并决定一系列鼠标和键盘操作以达成目标。
SelfyAI是一个平台,用户可以创建、拥有和货币化个性化的智能AI代理,即虚拟世界资产(VWA)。
维基百科向量搜索
LLM自然语言编程数据处理库
Sensei Search 是一款基于人工智能的问答引擎,支持本地和云端运行。
Sensei Search 是一款基于人工智能的问答引擎,支持本地和云端运行。
Serena是免费且强大的编码助手,能直接操作代码库,语义检索并编辑,兼容多种LLM。
SF-V是一种通过单步生成高质量视频的新方法,显著降低计算成本。
SF3D 是一款快速稳定的3D网格重建工具,支持UV展平和光照分离。
智能代码贡献代理
Shandu是一款AI研究系统,利用先进语言模型、智能网络爬取,自动生成全面且结构化的研究报告。
GPT-4o图像生成多模态数据集与模型
Show-Me是一个开源应用,通过可视化推理与透明化过程,增强用户与大型语言模型的互动体验。
Sidekick是一款基于CLI的开源AI工具,旨在提供灵活的LLM选择和强大的agentic工作流,助力开发者提高效率。
面向 3D 虚拟环境的多面手 AI 代理
把视频内容转换成博客文章
Simple Grpo is an AI-powered tool designed for developers and creators.
Simple subtitling利用WhisperX和说话人聚类,从音频文件生成带时间戳和说话人ID的字幕。
能够自动生成由 AI 创作的恶搞视频片段
SiYuan是一款注重隐私的个人知识管理系统,支持区块引用和Markdown所见即所得编辑。
SkyReels V1 是一款先进的开源人性化视频生成模型,支持文本与图像到视频的转换。
SkyReels V2是首个无限长度电影生成模型,利用Diffusion Forcing框架,实现故事、图像转视频等多种应用。
极其强大且易于使用的天气模型运行工具
SkyThought是一个开源项目,致力于开发和评估高性能的AI模型,如Sky-T1-32B-Preview。
使用大模型自动执行基于浏览器的工作流
Smart Composer是一款Obsidian插件,帮助用户高效地利用AI撰写内容并引用笔记库中的信息。
利用 AI 生成你所需的 Excel 公式的工具
SmartPDF利用AI(Llama 3.3)快速总结PDF并分章节,基于Together AI。