hairfastgan
AI Tools开源AI换发型
发现最好的 AI 开发工具,涵盖 AI 编程助手、MCP 服务器、图像生成工具等。
开源AI换发型
通过音频输入来驱动人物图像,使其产生逼真的面部动画效果
Hallo2是一个基于音频驱动的长时间高分辨率肖像图像动画生成项目。
利用3D角色和人工智能将文字和音频自动翻译成手语的应用程序
本课程通过动手实践,教授谷歌量子AI的量子错误纠正基础知识,适合中级学习者。
移动设备控制Claude代码
HealthGPT是一个先进的医疗大规模视觉语言模型,整合视觉理解与生成能力,支持多种医学任务。
统一大模型API网关
向 80 亿观众问好 将您的视频翻译成 29+ 种语言
Hero 是一个集日历、待办事项、笔记和语音助手于一身的生活管理应用。
[新功能] — Avatar in Motion 1.0 🏃♂️ ✨
[新功能] — Avatar in Motion 1.0 🏃♂️ ✨
Hi3DGen通过法线桥接,从图像生成高保真3D几何体,能捕捉精细的几何细节。
扩散模型能够生成更高分辨率的图像
HiveChat是一款专为中小团队设计的AI聊天应用,支持多种先进模型,简化团队沟通。
HivisionIDPhoto是一款智能证件照制作工具,支持多种尺寸规格与美颜功能。
AI云故障智能诊断与修复
Honeybee是一种多模态LLM(大型语言模型)的局部增强投影仪,由Junbum Cha、Wooyoung Kang、Jonghwan Mun和Byungseok Roh开发。它使用PyTorch 2.0.1环境,并提供了推理代码、检查点、训练代码、模型动物园和与其他SoTA方法的比较。它还提供了严格复制官方结果的方法,以及推理和演示的示例代码。此外,Honeybee的预训练权重受CC-BY-NC 4.0许可协议保护。
Honghongai Honghongaigooglegemininextjsvercel Ai Sdktailwindcssmit is an AI-powered tool designed for developers and creators.
先进的直接文本到视频合成系统,以高清晰度和多样的比例生成视频,不带水印
Hr7 is an AI-powered tool designed for developers and creators.
HuatuoGPT-o1是一款针对复杂医疗推理的语言模型,通过可验证的医疗问题提升推理能力。
这套 HF 表情,包括特别设计的龙年 Huggy,由 Hugging Face 团队的 UI/UX 设计师 ChunTe 设计制作和发布
Huggingchat Assistants Ai is an AI-powered tool designed for developers and creators.
HumanOmni是业界首个以人为中心的多模态大语言模型,能综合理解人类相关场景中的视频与语音信息。
一种能够从单张输入图像预测3D高斯分摊属性的通用化方法
Hume 下的EVI 刚刚成为唯一能够进行本地 Web 搜索的语音 API。为了庆祝,他们推出了 Chatter,这是第一个交互式 AI 播客
混元大模型:高效长文本代理能力
高效多专家大语言模型
具备中英双语理解和多轮对话能力的多分辨率扩散式文本生成图像模型
Hunyuan-Large是腾讯发布的开源MoE大模型,拥有3890亿参数,适用于多种AI任务。
混元多语言翻译大模型
Hunyuan3D是一款先进的3D合成系统,能够高效生成高分辨率纹理3D资产。
Hunyuan3D-1是腾讯推出的统一框架,可实现文本和图像到3D的快速生成。
Hunyuan3D 2.0是腾讯研发的先进3D合成系统,可生成高分辨率带纹理的3D资产,效果超越现有模型。
腾讯混元3D 2.1:开源可扩展的3D资产生成系统
HunyuanCustom是腾讯开源的多模态定制视频生成框架,支持图像、音频、视频和文本输入,实现高一致性、可控的视频生成。
腾讯混元文生图模型发布1.1版本,同时发布了训练代码。
多模态图像生成大模型
HunyuanPortrait是一个扩散模型框架,通过解耦身份和动作,从单张人像生成逼真且时序一致的动画。
HunyuanVideo是一个开源的视频生成模型,旨在提升视频生成质量和效率,支持大型模型训练。
HunyuanVideo-Avatar是一款多模态扩散Transformer模型,可生成动态、情感可控的多角色对话视频,并已开源推理代码和模型权重。
HunyuanVideo-I2V是腾讯开源的图像到视频生成框架,加速社区对图像转视频的探索研究。
单图可控3D世界视频生成
Hyper-RAG是一个利用超图建模知识关联的检索增强生成方法,可有效提升LLM性能并减少幻觉。
Hyperagent是一款利用LLM增强Playwright的智能浏览器自动化工具,提供AI指令和防检测等功能。
iAgents是一个旨在实现人与代理协作的新型平台,支持多代理系统和信息共享。
能实现文本条件和背景条件下的图像重照明
Icons8 提供图标、插图和照片,适用于Figma设计工具。
全新的多模态生图AI工具,以其优秀的文字渲染能力和生图能力受到业界瞩目
先进的文本转图像模型,具有准确的文本渲染、逼真度和忠实度,并且拥有Magic Prompt功能,帮助用户创作美丽的创意图像
Ideogram发布1.0重大升级,引入图片描述、改善渲染质量与速度控制等新特性
一种先进的虚拟试衣技术
II-Agent是开源智能助手,通过LLM驱动,旨在简化和增强跨领域工作流程,实现复杂任务的自主执行。
II-Researcher是一款深度搜索工具,利用BAML函数智能搜索网络,生成全面的问题答案。
IMAGDressing是一款模块化交互虚拟试衣系统,支持服装的生成和自定义编辑。
Image to Music v2 是一个新版本,旨在提供透明的过程,让用户了解将图像转化为音乐的方法。 该版本使用微软/kosmos-2-patch14-224的图像标题,并通过HuggingFaceH4/zephyr-7b-beta的LLM Agent将其转化为音乐启发。 用户可以选择MAGNet、MusicGen、AudioLDM-2、Riffusion或Mustango等开源模型,调整音乐的灵感提示,以获得符合期望的音乐结果。
这是一款基于React和Vite的浏览器应用,能一键去除图像背景,处理过程完全本地化。
图片转换成音乐的工具
iMCP是macOS应用,连接你的数字生活与AI,可与Claude等AI客户端交互,提供日历、联系人等个人信息。
AI智能绘图与图表
通过对抗学习适配单步扩散模型以实现快速图像转换的方法
ChatGPT推出了数据分析的增强功能
麻省理工学院授权的 7000 种语言的文本转语音
零样本情感时长可控语音合成
Indqx PDF 翻译提供论文PDF的自动化翻译,确保格式不变并可在本地运行。
智能上下文音乐电台
InfiniteYou利用Diffusion Transformer,实现高保真、个性化图像生成与灵活编辑。
Infinity 是一种基于位的自回归建模方法,能够高效合成高分辨率图像,表现出强大的缩放能力。
基于Azure和OpenAI大型语言模型(如GPT)的集成加速器
Insight-V是一个初步探索长链视觉推理的多模态大语言模型,旨在提升视觉推理能力。
InsightExpress是一款基于AI的应用,能够生成研究报告并通过邮箱发送给用户。
AI 可穿戴设备Insight
InstantCharacter通过扩散Transformer框架,仅用单张图片即可个性化角色生成,支持多种下游任务。
InstantID是一种多风格AI写真生成工具,由来自小红书的95后团队InstantX开发并开源的。用户只需上传一张照片,InstantID就能够轻松生成多种风格的AI写真,例如古典油画、赛博朋克风格和3D雕像风格等。与其他技术相比,InstantID的工作原理包括ID嵌入、图像适配和IdentityNet三个关键部分,利用面部识别模型提取语义人脸特征,结合文本提示,实现了身份保真的同时对图像风格进行精细控制。InstantID不仅解决了训练效率与身份保真度之间的平衡问题,还具有即插即用和兼容性、无需微调、性能卓越等特点。它为个人用户提供了强大的创作工具,也为商业应用如电子商务、广告和...
30 秒内从一张图片生成 3D 模型
InstantStyle是一个旨在文本到图像生成过程中保持风格的通用框架,使用了两种简单却强大的技术来有效地从参考图像中分离风格和内容。
InstructIR是一种基于人类书面指令来指导图像恢复模型的方法。这种方法首先使用GPT-4生成了10000多个提示,然后建立了一个大型的训练数据集,包括提示和退化/干净图像的配对。最后,训练InstructIR模型,并在各种指令上对其进行评估,包括真正的人工书面提示。该方法在图像去噪、去模糊、去雾和图像增强等恢复任务上取得了最先进的结果,比以前的一体化恢复方法提高了1dB。此外,该方法还提出了一个新的数据集和结果,为文本引导图像恢复和增强的新研究提供了一个新的基准。
Integuru是一个AI工具,通过逆向工程生成平台的集成代码,自动化执行用户操作。
通过交互式3D操作创造高质量内容的技术
InternVL:GPT-4V开源替代方案
可以在光照条件未知的情况下,从单一图像中恢复出物体的材质
新型的搜索功能,可根据你的问题返回有关网络来源的快速、及时答案。
InvSR是一种基于扩散反演的新型图像超分辨率技术,支持灵活的采样步数。
iOS Simulator MCP Server是一个模型上下文协议服务器,用于与iOS模拟器交互,获取信息、控制UI和检查UI元素。
苹果推送iOS 18.1带来Apple Intelligence预览
iPhone MCP自动化服务器
开源的ChatGPT替代品,可以100%离线运行在您的电脑上。
Jarvis是一款命令行个人助理,集成Gmail、Google日历和任务管理,帮助高效管理数字生活。
Jarvis是一款命令行个人助理,集成Gmail、Google日历和任务管理,帮助高效管理数字生活。
能将你的想法转换成代码,并从中构建出代码原型
Jobber是一个AI代理,它能自动搜索并申请符合您要求的职位。
AI助手参与会议,赋能实时互动
开源通用多智能体产品
Juicy AI 是一个创新平台,利用人工智能聊天将您最喜爱的动漫角色带入生活。它提供了基于角色的 AI 游戏化版本,让用户可以与人工智能角色互动,解锁新的兴奋度和创造力。无论您是流行动漫系列的粉丝还是有原创角色,Juicy AI 都可以让您以无缝且引人入胜的方式与他们聊天和进行角色扮演。用户可以完全控制人工智能角色生成的内容,开辟了无限的创意叙事、同人小说和个人娱乐可能性。通过这个平台,用户可以释放他们的创造力,在游戏化环境中与人工智能互动,并发现娱乐的新维度。
KAG(知识增强生成)是一种框架,使大型语言模型与知识图谱高效结合,提升专业领域的知识服务能力。
KEEP是一种基于卡尔曼滤波的特征传播方法,旨在提升视频人脸超分辨率效果。
Khoj是一款开源个人AI应用,帮助用户扩展数字记忆和能力,支持各种文件和平台。
Khoj是一款开源个人AI应用,帮助用户扩展数字记忆和能力,支持各种文件和平台。
kimi chat是一款免费的AI对话聊天工具,具有多种功能点,包括:
Kimi-Audio是开源音频基础模型,擅长音频理解、生成和对话,性能卓越并提供评估工具。
Kimi驱动低成本Claude Code
Kimi-Dev-72B:用于问题解决的开源编码LLM
开放智能体智能
轻量高音质文本转语音模型
Kitten TTS:高性能轻量级语音合成服务器
Klavis AI提供生产级MCP集成,简化AI应用与多种平台连接,支持大规模用户和自定义工具。
Klee是一款开源桌面平台,可安全本地运行AI,基于Ollama和LlamaIndex,方便易用。
教育标准与学习数据知识图谱
Knowledge Graph Builder App 是一个将非结构化数据转换为结构化知识图谱的应用。
自动创建知识图谱和文档网络以提升RAG性能
《RAG中的知识图谱》课程:学习用Neo4j管理和查询知识图谱,提高LLM的检索增强生成效果。
Kokoro-82M是一个先进的文本转语音模型,参数量为8200万。
Kokoro-FastAPI是一个基于FastAPI的文本转语音API,支持多种语音组合和格式,具备高效的生成能力。
Kolors是基于潜在扩散的大规模中英双语文本生成图像模型。
快手可图推出免费一键换衣
Kotaemon是一个开源、可定制的文档聊天界面,旨在为用户和开发者提供RAG(检索增强生成)体验。
Kraken是一个开源项目,旨在提供强大的开发工具和自动化工作流程管理功能。
Google Gemini驱动的研究助手
KTransformers是一个灵活的框架,旨在通过先进的内核优化和并行策略提升大型语言模型的推理性能。
KVoiceWalk通过随机游走算法和混合评分,克隆目标声音,为Kokoro生成新的声音风格张量。
Kwai Keye-VL视频视觉推理大模型
轻量级的开源框架,旨在帮助用户高效创建基于大型语言模型(LLM)的智能代理
LAMBDA是一个本地AI邮件自动化系统,能够根据用户的邮件风格生成未读邮件的草稿回复。
AI驱动PPT生成平台
LangGraph AI Agent 可视化编排
LangBot 是一个高稳定性、大模型支持的即时通信机器人平台,适用于多种聊天工具。
.NET实现LangChain
结合了LangChain和SearXNG的开源AI搜索引擎项目
结合了LangChain和SearXNG的开源AI搜索引擎项目
为iOS、macOS、watchOS 开发的LangChain 的Swift库
LLM结构化流式输出UI同步
大模型文本信息结构化提取
LangGraph CUA是Python库,用LangGraph构建具有计算机操作能力的智能体系统,可与电脑互动完成任务。
LangGraph Multi-Agent Supervisor是一个Python库,用于创建层次化的多智能体系统,通过超级智能体协调多个专业智能体的任务与沟通。
LangGraph Multi-Agent Swarm是一个Python库,用于创建swarm风格的多智能体系统,实现智能体间的动态控制权转移和记忆。
LangGraph RAG Research Agent 模板是一个用于开发研究代理的起始项目,旨在便捷处理文档索引与查询。
LangGraph ReAct Memory Agent是一个能够保存用户记忆的智能聊天代理,使其在对话中记住用户偏好。
LangGraph WhatsApp Agent利用LangGraph和Twilio构建AI助手,实现WhatsApp消息和图像处理及平台托管。
LangManus是一个社区驱动的AI自动化框架,整合语言模型和专业工具,助力任务自动化并回馈开源社区。
LangManus Web UI是LangManus的默认Web界面,基于开源社区,提供AI自动化框架的可视化操作界面。
LangSmith是一个统一的DevOps平台,用于开发、协作、测试、部署和监控LLM应用程序。它支持LLM应用程序开发生命周期的所有阶段,为构建LLM应用提供端到端的解决方案。主要功能包括:链路追踪、提示工具、数据集、自动评估、线上部署等。适用于构建基于LLM的AI助手、 ChatGPT应用的开发者。
Languine 是一款由 AI 驱动的工具,帮助开发者自动化应用程序的多语言翻译,提升本地化效率。
Laravel React 流式AI聊天演示
LazyGraphRAG是一种用于处理大规模图数据的高效图神经网络架构。
LeetTools是一款可自定义的AI搜索助手,支持本地知识库和复杂查询工作流程。
Leffa是一种统一框架,可实现可控的人物图像生成,允许精准操控外观和姿态。
Leffa是一种统一框架,可实现可控的人物图像生成,允许精准操控外观和姿态。
Legion是一个灵活的多智能体框架,支持多种提供者,简化复杂系统的构建和管理。
Lemon AI是一款开源通用AI Agent,能独立思考、系统规划,灵活调用工具,自动化完成需求规划到结果交付的全过程。
轻松制作具有透明背景的高质量图像
Lepton Search Ai is an AI-powered tool designed for developers and creators.
抱抱脸开源了LeRobot项目针对实际机器人技术的尖端机器学习
语音驱动的多人对话视频生成:Let Them Talk
AI原生的Web应用开发平台
Light-R1-32B通过课程学习超越R1-Distill,仅用约1000美元训练成本,在数学问题上表现出色。
LightAgent是一款轻量级的主动智能框架,支持多智能体协作、工具集成及自学习,适用于多种应用场景。
基于Python的大型语言模型(LLM)推理和服务框架
小模型教大模型高效推理
LINE Bot MCP Server是一个实现了MCP协议的服务器,用于将AI Agent连接到LINE官方账号,实现消息互动。
Lingma SWE-GPT是一个开源大语言模型,专注于软件工程领域的智能辅助和改进任务。
Lingo是一款支持离线翻译任意语言的桌面应用程序
Linly-Dubbing是一款智能视频多语言配音和翻译工具,融合了AI技术,为用户提供自然流畅的多语言视频体验。
留白是一个集笔记、日程、待办清单与AI助手的综合工具,支持多设备使用与云端同步。
MCP工具智能体基准测试
LivePortrait是KwaiVGI在Hugging Face发布的一个正在运行的项目。
自动化完成一般照相馆后期流程的照片自动处理
LLaMA-Mesh通过语言模型实现3D网格生成,支持文本与3D数据的统一处理。
LLaMA-O1是一个基于PyTorch和HuggingFace的大型推理模型框架,支持训练、推断和评估。
Llama OCR 是一款npm库,利用Llama 3.2 Vision进行免费OCR图像识别处理。
LLaMA-Omni是基于Llama-3.1-8B-Instruct构建的语音语言模型,支持高质量低延迟的语音互动。
何使用LlamaIndex工作流程创建Llama-Researcher,结合Tavily API进行主题研究。
Llama-Slides是一款幻灯片生成器,可根据演讲笔记自动生成简洁美观的幻灯片。
Llama Tutor 是一个开源的AI个人导师,使用Llama 3 70B和Together.ai技术。
从头开始实现Llama3,通过加载元数据提供的模型文件中的权重一步步构建张量和矩阵乘法
llama3v模型通过结合Llama3 8B和siglip-so400m,实现了图像-文本生成的顶级性能。
Claude Artifacts的开源平替,用一句话生成小应用
本地化AI开发部署框架
自动重命名和组织文件的自组织文件管理器,支持多种文件类型
LlamaGen 由香港大学和字节跳动团队开发
高效地解析和表示文件,以便通过LlamaIndex框架进行高效检索和上下文增强
LlamaV-o1是一种大型多模态模型,专注于逐步视觉推理,已在多个基准测试中表现优异。
Llama.vscode 是一款支持本地LLM文本补全的VS Code扩展,提升编码效率。
通过整合 LLaMA-3 和 Phi-3,来扩展现有的视觉能力和语言模型的功能
LLaVA-Mini是一种高效的多模态模型,仅需一个视觉令牌即可理解图像和视频。
一个强大的多模态大语言模型,支持图像和视频任务的零样本推理
LLaVA-o1 是首款能够一步一步推理的视觉语言模型,表现出色。
大模型回测交易智能体
LLM辅助的OCR项目旨在利用大型语言模型提升光学字符识别的准确性和可读性。
LLM API通用翻译层
LLM课程分为三个部分:基础知识、科学家技术与工程应用,涵盖数学、Python、神经网络等。
比较各种大型语言模型(LLM)的定价信息
LLM-Reasoner是一款增强大型语言模型(LMM)思维能力的工具,支持逐步推理和实时进度展示。
免费课程,向你展示如何设计、训练和部署一个准备就绪的生产标准的 LLM(大型语言模型)
LLManager是一个LangGraph工作流,用于管理审批请求,通过反思和动态提示不断学习和改进。
llm.c是一个用于训练大型语言模型(LLM)的项目,特别是采用简洁的C/CUDA代码实现。它的主要卖点在于,相较于依赖庞大的PyTorch或cPython框架,llm.c提供了一个轻量级的解决方案。例如,使用CPU和fp32训练GPT-2模型,只需要大约1000行的代码,并且所有代码都在一个文件中。这不仅能即时编译运行,且完全匹配PyTorch的参考实现。选择GPT-2作为第一个示例,是因为它是现代大型语言模型的鼻祖。
LLMDocParser是一个使用大语言模型解析和分析PDF内容的工具包。
Andrej Karpathy的llm.c项目向Mojo平台的一个移植
LLMOps Python Package是一个基于Python的工具包,提供最佳实践,支持LLM模型的全生命周期管理,包含模型注册、实验追踪和部署等功能。
llm.pdf是一个概念验证项目,展示了在PDF文件中运行完整大型语言模型(LLM)的可能性。