llms进行函数调用和数据提取的技能
AI ToolsDeepLearning.AI推出的一门新课程,旨在教授使用大型语言模型(LLMs)进行函数调用和数据提取的技能。
发现最好的 AI 开发工具,涵盖 AI 编程助手、MCP 服务器、图像生成工具等。
DeepLearning.AI推出的一门新课程,旨在教授使用大型语言模型(LLMs)进行函数调用和数据提取的技能。
一个完全免费、快速的聊天机器人前端,支持多种模型和并行工具调用。
提供了一系列命令来管理和操作机器学习模型
Chatbot Arena 现在支持图片上传
Chatbot Arena 现在支持图片上传
本地文件整理器利用AI技术在用户设备上自动整理文件,保护隐私,提升文件管理效率。
local-gemma 是一个可以在本地快速运行 Gemma-2 模型的 Python 库和 CLI 工具。
Local GRPO培训是一个可在本地运行GRPO策略的工具,提供简单的配置和训练指引。
本应用利用本地Llama模型处理查询,生成推理过程并可视化知识图谱,探索相关问题。
便携式离线大模型记事本
Local-NotebookLM是本地AI工具,可将PDF转换为播客,支持多种LLM和TTS模型,并提供API接口。
macOS离线语音AI助手
Local Whisper使用FastRTC和本地Whisper模型,实现快速实时的语音转录功能。
Logic RL是一个基于强化学习的逻辑推理模型,成功在2K逻辑难题数据集上复现DeepSeek R1 Zero。
Logo Diffusion是一个使用AI帮助你在几秒钟内设计出令人惊叹的标志和图形的智能设计平台。
logocreator是一款开源的AIlogo生成器,用户可快速创建专业且可自定义的商标。
长动画动态记忆生成
LongCite 是一个支持长文本问答的工具,能生成精确的逐句引用以验证信息。
LTX Studio开放测试,用户可以通过输入文本来生成超过25秒的微电影视频
LTX-Video是首个基于DiT的视频生成模型,能实时生成高质量768x512分辨率的视频。
使用AI让你从会议记录、文档或笔记中生成美观、易于浏览的文档
Lumiere是一个由谷歌研究院开发的时空扩散模型,旨在合成具有逼真、多样和连贯动作的视频。该模型引入了一种称为空间时间U-Net的架构,通过一次传递生成整个视频的整个时间段,从而与现有的视频模型形成鲜明对比。此外,Lumiere通过同时部署空间和时间下采样和上采样,并利用预训练的文本到图像扩散模型,学会了通过多个时空尺度处理全帧速率、低分辨率视频。实验结果展示了最先进的文本到视频生成结果,并表明该模型的设计轻松支持广泛的内容创作任务和视频编辑应用,包括图像到视频、视频修复和风格化生成。
Lumina-mGPT是一种多模态自回归模型,尤其擅长将文本描述生成灵活逼真的图像。
Lumina-mGPT 2.0是上海AI实验室等机构发布的自回归图像生成模型,支持多种图像生成任务。
基于文本的多功能生成模型
Luxirty Search是一个基于Google的无广告、无跟踪搜索引擎,内置内容农场屏蔽和优质网站权重提升功能。
多模态长期记忆推理智能体
MacAlverse 是一个用React构建的开源macOS风格桌面环境。
AI 操控 macOS 应用
AI研究自动化平台
Magentic-UI是一个agentic网络界面原型,它通过AutoGen代理协同解决复杂的Web任务,并提供透明可控的界面。
Magi Ocr is an AI-powered tool designed for developers and creators.
MagicAnimate利用扩散模型实现人像动画,确保时间一致性,支持多种人像动画应用。
Magic Clothing是一个以可控制的服装驱动图像合成为核心的技术项目,建立在OOTDiffusion的基础上
虚拟服装试穿技术
MagicDriveDiT是一个用于自主驾驶的视频生成模型,能够生成高分辨率和长时间的视频,具备自适应控制能力。
MagicMirror是一款即刻体验脸部交换、发型和服装的AI应用,简单易用,完全离线处理。
MagicQuill是一款智能交互的图像编辑系统,提供精准的本地编辑和AI建议。
基于文本提示生成时间流逝视频的研究项目和技术框架
Magika利用尖端深度学习的力量来增强文件类型检测的准确性,支持多种内容类型,准确率和召回率均超过了传统工具,达到了99%以上。Magika专为效率而设计,即使在单个CPU上也能快速运行,谷歌类似的模式目前每秒扫描数百万个文件。Magika采用了一种定制的、高度优化的深度学习模型,即使在CPU上运行,也能在几毫秒内实现精确的文件识别。Magika还能通过AI模型和大型训练数据集,在1M个文件基准测试中优于其他现有工具约20%,在文本文件上表现尤为突出。在谷歌内部,Magika被大规模使用,帮助提高用户的安全性,提高文件类型识别准确性50%。Magika的开源将有助于其他软件提高文件识别...
Magma是一种多模态人工智能代理的基础模型,能够在虚拟和现实环境中进行复杂交互。
使用AI技术进行图片放大、增强和变换的神奇工具,可通过自定义提示增加细节
Magnitude是一个开源AI Agent驱动的Web测试框架,能通过视觉AI适应界面变化,简化测试流程。
自动生成带有精确躯干和手部动作的主播风格视频
MangaNinja是一种基于参考图的线条艺术自动上色方法,旨在加速动漫颜色处理流程。
Marco-o1是一个模仿OpenAI o1,使用思维链,旨在解决复杂的现实问题,强调开放式答案和多语言应用。
Marimo是一个反应式Python笔记本,支持可重复性、Git友好并可部署为脚本或应用程序。
Marker是一款将PDF快速精准转换为Markdown的工具,支持多种文档格式和语言。
MarkPDFDown是利用多模态AI模型将PDF文件精准转为Markdown格式的强大工具。
零监督多智能体系统设计:MAS-Zero
增强Agent搜索能力的通用预训练框架:MaskSearch
GenAI多智能体协作扩展系统
MatAnyone是一个实用的人体视频抠像框架,具有稳定的核心区域和细节边界性能。
Material Anything是一种基于扩散模型的3D物体物理材质生成方法,适用于多种对象和光照条件。
Matrix-Game是一个170亿参数的交互式世界基础模型,用于可控的游戏世界生成。
mcp-agent是一个基于模型上下文协议(MCP)的轻量级框架,旨在简化构建有效、可组合的智能体应用。
MCP Containers提供数百个MCP服务器的容器化版本,简化部署,每日自动更新,并提供安全隔离的运行环境。
MCP Directory 是一个用于优秀 MCP 服务器的目录,提供快速启动和社区支持。
AI动态生成ECharts图表与分析
AI辅助开发的交互式反馈MCP服务器
MCP Gateway是LLM的中间层,集中管理MCP服务器,拦截请求和响应,并提供统一的接口,增强AI安全性。
mcp-hfspace是连接Hugging Face Spaces的MCP服务器,简化配置,支持图像生成、语音转录等多种功能。
MCP Manager for Claude Desktop是一款Mac应用,方便管理MCP服务器,增强Claude的上下文访问能力。
MCP-Mem0是一个集成了Mem0的MCP服务器模板,为AI代理提供长期记忆的存储、检索和语义搜索功能。
MCP Registry是一个社区驱动的MCP服务器注册服务,提供集中存储库,用于发现和管理MCP实现及其元数据。
mcp-server-chatsum 是一个MCP服务器,能通过查询和总结聊天记录来帮助用户理解对话内容。
MCP Server for Deep Research是一个深度研究工具,能够生成结构化的、引用充分的综合研究报告。
MCP Server for Milvus提供了一个桥梁,让LLM应用可以通过模型上下文协议(MCP)访问Milvus向量数据库的功能。
PostgreSQL 智能运维监控平台
MCP SuperAssistant是一个Chrome扩展,将MCP工具集成到ChatGPT等AI平台,增强其功能。
大模型工具链主动构建
MCPHub简化了AI服务中MCP服务器的集成,提供配置、管理和连接MCP服务器的统一方法,支持多种AI框架。
AI代理MCP服务注册与网关
MediaGo是一款支持m3u8视频提取和流媒体下载的多功能工具。
医疗RAG问答系统
Medical SAM 2利用SAM 2框架,实现2D和3D医学图像分割。
基于大型语言模型(LLMs)的开源医学套件
MedRAX是一款集成多种胸部X光分析工具的AI代理,能高效处理复杂的医疗查询。
知识驱动轨迹合成训练框架
Meetily 是一款开源的 AI 会议助手,能实时录音、转录并生成会议摘要,保护用户隐私。
Meeting Mind 是一款AI会议助手,可快速分析会议内容并提取关键见解,实现高效的工作管理。
Meeting Prep Agent利用Tavily搜索和MCP,实时分析会议信息,助你充分准备会议。
MegaParse支持各种文件处理,解析精准无信息丢失,且开源免费使用。
MegaTTS3是由字节跳动开发的轻量高效语音合成模型,支持中英双语,具有高音质克隆和口音控制等功能。
Melotts Cpu is an AI-powered tool designed for developers and creators.
Melty是一款开源AI代码编辑器,能在整个开发流程中与工程师协作编写高质量代码。
大模型记忆MCP服务器
提供智能记忆层,增强大型语言模型个性化AI体验,支持自适应记忆与多应用场景。
Memary 是一个模拟人类记忆、增强AI代理的开源Python库。
MemFree是一款开源的混合AI搜索引擎,可搜索个人知识库和互联网。
MemFree是一款开源的混合AI搜索引擎,可搜索个人知识库和互联网。
MemLong 是一种增强记忆的长文本建模检索方法,旨在提高文本处理效果。
Memobase是一种基于用户资料的记忆系统,使生成式AI应用能长期记住用户信息并进行个性化服务。
MemoRAG是一种基于记忆的RAG框架,提升了数据检索与响应生成的准确性和上下文丰富性。
Memoripy 是一个 Python 库,用于管理上下文感知的短期和长期记忆,支持 AI 应用的记忆管理。
该仓库提供了“Memory Layers at Scale”论文的参考实现,支持大规模分布式训练与评估。
AI知识图谱记忆服务器
AI智能体个性化记忆操作系统:MemoryOS
大模型记忆操作系统
AI伴侣智能记忆框架
Memvid是一款轻量级AI记忆解决方案,它将文本数据编码为视频,实现亚秒级的快速语义搜索,并提供高效存储。
Meta Llama 3是一个由Meta推出的大型语言模型,旨在为个人、创作者、研究人员和各种规模的企业提供强大的自然语言处理功能,使他们能够负责任地实验、创新和扩展他们的想法。这个版本包含了从8B到70B参数不等的预训练和指令调整的语言模型的模型权重和起始代码。这个存储库提供了一个加载Llama 3模型并运行推理的最小示例,更详细的示例可以在llama-recipes查看。
AI智能体动态环境评估
Meta Lingua是一个快速、简约的LLM训练和推理库,旨在促进研究和架构实验。
Meta Llama 3是一个由Meta推出的大型语言模型,旨在为个人、创作者、研究人员和各种规模的企业提供强大的自然语言处理功能,使他们能够负责任地实验、创新和扩展他们的想法。这个版本包含了从8B到70B参数不等的预训练和指令调整的语言模型的模型权重和起始代码。这个存储库提供了一个加载Llama 3模型并运行推理的最小示例,更详细的示例可以在llama-recipes查看。
土耳其法律法规 LLM 工具:Mevzuat MCP
Micro Agent是一款通过测试驱动方法自动编写和修复代码的AI小工具。
Microagent是一种轻量级框架,用于高效管理和协调多智能体系统,支持多种大型语言模型。
MICROSANDBOX是一个易于使用且安全的沙盒环境,可用于执行不受信任的用户或AI代码,具有快速启动和灵活控制的特点。
微软为财务专业人士提供的帮助工具
Microsoft Power Automate利用自动化和AI来革新工作方式,提高生产力。
midGPT是一个基于Jax和Equinox的可实验性LLM预训练仓库,支持大型模型跨多设备训练。
使人物画像在多方面高度一致成为可能。
MiGPT 结合智能家居与ChatGPT,让你的家更智能、更贴心。
MimicBrush 阿里巴巴开源无需训练即可使用参考图像编辑图像的工具
MimicMotion 腾讯开源的通过姿态指导生成高质量任意长度人类运动视频的框架
MimicMotion 腾讯开源的通过姿态指导生成高质量任意长度人类运动视频的框架
MiMo是小米从头训练的7B模型,旨在通过预训练和后训练策略,释放语言模型的推理潜力。
小样本音频语言模型
MindGeniusAI使用ChatGPT自动生成思维导图,并支持节点编辑和自定义。
MindSearch 是一个模拟人类思维的开源深度 AI 搜索引擎框架。
MindSearch 是一个模拟人类思维的开源深度 AI 搜索引擎框架。
MinerU 是一个开源的高质量数据提取工具,支持多种文件格式。
MinerU 是一个开源的高质量数据提取工具,支持多种文件格式。
Mini Qwen is an AI-powered tool designed for developers and creators.
Mini LLM Flow是一个仅用100行代码构建的极简LLM框架,支持多代理和任务分解等功能。
Mini-Omni是一款开源大型语言模型,具备实时语音对话和边思考边发声的能力。
MiniCPM-V是一系列可在手机上高效部署的多模态大模型,具备强大的图像和文本处理能力。
Minima是一个开源的本地RAG容器,可与ChatGPT和Claude集成,确保数据安全。
MiniMax-M1:首个开源混合注意力推理大模型
MiniMax-Text-01是一款强大的语言模型,具有4560亿参数,支持长达400万token的上下文处理。
Minion Agent是一个简易的代理框架,支持浏览器操作、MCP、自动规划和深度研究等功能。
MinusX是一个AI数据科学家,能在Jupyter和Metabase等工具中进行数据分析和处理。
Mira 是腾讯推出的用于长时视频生成的初步框架。
Mira 是腾讯推出的用于长时视频生成的初步框架。
Mira 是腾讯推出的用于长时视频生成的初步框架。
可复现高性能AI智能体框架
开源高级智能体模型与框架
Mistral Large 是 Mistral AI 公司最新发布的旗舰语言模型,具备顶尖水平的推理能力。它主要被设计用于处理复杂的多语言推理任务,比如文本理解、转换和代码生成等。此外,该模型在多个常用的基准测试上都取得了强劲的成绩,位居全球第二(紧随 GPT-4 之后),非常适合于通过 API 方式广泛提供使用。
Mixture-of-Agents利用多层大型语言模型来提升AI性能,并通过Gradio界面提供直观交互。
MLE-Agent是为机器学习工程师和研究人员设计的智能助手,旨在简化AI工程与研究流程。
MLX-Embeddings 是一款可在 Mac 本地运行的视觉与语言嵌入模型软件包,支持文本相似度比较。
在 iPhone 15 Pro 上运行 Llama-3.1 8B
专为 Apple 硅片设计的高效机器学习框架,支持在本地实时运行 LLM 模型(如 Llama、Mistral)
MMaDA是多模态扩散大语言模型,擅长文本推理、多模态理解和文图生成,具有统一扩散架构和混合CoT微调策略。
MMSearch是一个评估大型多模态模型作为搜索引擎潜力的工具,支持多种搜索任务。
可定制移动智能体系统框架
Mobile Next是一个MCP服务器,通过平台无关的界面,实现可扩展的移动自动化,无需特定iOS或Android知识。
手机自然语言自动化AI代理
MobileDiffusion 是一种在移动端实现亚秒级文本到图像生成的技术。它是由谷歌的团队提出的,旨在解决目前文本到图像生成模型在移动端应用中速度慢、资源消耗大的问题。MobileDiffusion 通过对扩散模型进行优化,主要包括两方面:一是对模型体积庞大的问题进行优化,主要通过精简核心组件 UNet 和优化操作,包括将计算昂贵的卷积和注意力运算放在了较低的层上,以及针对 Mobile Devices 的操作优化;二是针对扩散模型需要多步采样的问题,MobileDiffusion 探索并实践了像 Progressive Distillation 和 UFOGen 的一步推理技术。通...
Mochi 1是一个先进的视频生成模型,具有高保真度和强大的提示遵循能力。
Anthropic推出的模型上下文协议(MCP)是一种新标准,旨在连接AI助手与各种数据源,优化响应质量。
MOFA-Video是一种通过生成运动场自适应来控制图像动画的方法。
MoGe是一种强大的模型,能够从单幅图像中准确估计三维几何信息。
MoLing是一个免依赖的MCP服务器,通过系统API实现文件操作、命令执行和浏览器控制。
Moneyprinter Youtube Shorts is an AI-powered tool designed for developers and creators.
AI自然语言文件搜索
企业智能编程与安全管理平台
基于结构-识别-关系三元组的文档解析:MonkeyOCR
MooER(摩耳)是Moore Threads开发的基于LLM的语音识别与翻译模型,支持中英文转录与翻译。
Mooncake是一个以KVCache为核心的分散架构平台,专为大规模语言模型提供高效服务。
利用多智能体合作生成视频任务的多智能体框架
GPT-4o的5个使用场景
AI驱动的回答引擎
能将音乐轨道中的人声、鼓声、贝斯等音源分离出来的工具
法国 AI 实验室 Kyutai 刚刚推出了开源 复刻GPT-4o - Moshi
无文本语音到语音大模型
MotionGPT是一个统一、多功能的人体运动与语言模型,能够处理多种与运动相关的任务。
MotionLLM是一种用大模型联合视频和动作序列理解人类行为的新框架。
复旦大学和腾讯PCG团队利用AI生成长视频数据的创新框架
MTranServer是一款超低资源消耗的离线翻译服务器,速度极快,支持多语言,翻译质量与Google翻译相当。
一款多语言扩散模型框架,支持无需微调适配110多种语言
多AI代理系统:利用crewAI库,通过自然语言设计并组织AI团队来执行复杂业务任务课程
多模态研究播客生成
多智能体PPT智能生成
Multimodal Open R1项目通过开源的数学推理数据集和模型,推动多模态强化学习的发展与研究。
Muscle Memory是一个AI智能体的行为缓存SDK,通过记录和重放工具调用模式,减少LLM的使用,提高效率并降低成本。
MusePose是一个通过图像生成受控信号虚拟人视频的框架。
AI 驱动的创意彻底改变了 iPad 上的数字艺术
基于扩散模型的虚拟人视频生成框架
MusicFX是谷歌推出的AI音乐创作工具,可以通过几句话即可生成原创的音乐作品。它结合了谷歌此前发布的MusicLM模型和DeepMind的水印技术SynthID,以便在事后识别出是否由AI制作而成,并解决创作人对于版权问题的担忧。用户可以使用MusicFX创作各种类型的音乐,支持调整音调、节奏和音量,还可以添加混响、回声等效果,满足不同音乐创作者的需求。目前,MusicFX需要通过谷歌的一个AI实验性产品网站(AI Test Kitchen)进入,这是为了让用户在尽早体验其最新的AI技术的同时提供早期反馈,帮助谷歌完善技术。但是,MusicFX的出现也引发了一些争议,因为它可能会降低...
MusiConGen利用预训练的MusicGen实现文本到音乐生成并可控制节奏和和弦。
Muyan-TTS是一个预算5万美元的播客TTS模型,预训练超10万小时音频,支持高质量零样本语音合成和说话人适配。
MyTools AI是一个AI工具箱,提供聊天、图像生成、代码生成、音乐生成等功能。它使用先进的AI模型,帮助开发人员和创作者更轻松地创建内容和完成任务。MyTools AI具有简单易用的界面和强大的功能,可以提升工作效率和创作效果。无论您是开发人员、设计师、写作人员还是创意爱好者,MyTools AI都能满足您的需求。
MyCoder是一个开源的AI编程工具,基于Anthropic的Claude API,具备代码生成、迁移和重构等功能。
n8n Autoscaling System是一个基于Docker的n8n工作流自动扩容方案,它根据Redis队列长度动态调整worker容器数量。
AI赋能n8n工作流自动化与管理
n8n MCP Server 是一个模型上下文协议服务器,使AI助手能用自然语言与n8n工作流交互。
多模型AI工程代理性能评估
AI图像生成与会话编辑
nano-graphrag是一个简单易用的GraphRAG实现,具备更快、更清晰的核心功能。
nano-llama31是一个简化Llama 3.1运行环境,通过PyTorch和tiktoken实现并准备添加微调。
nano-VectorDB是一个简单易用的向量数据库实现,它只依赖于一个库(numpy)。
轻量级vLLM实现方案
Nanobrowser是一个开源的AI网络自动化工具,可在浏览器中运行,免费且注重隐私。
百元级ChatGPT全栈实现
本地优先CLI编码代理
nanoDeepResearch是一个受DeerFlow启发的Deep Research项目,旨在从零构建ReAct智能体工作流,便于理解其底层原理。
nanoPerplexityAI 是一款简洁直观的开源大语言模型服务PerplexityAI实现工具。
Nanospeech是一个基于PyTorch的文本转语音系统,简单易用且支持声纹匹配,适合研究使用。