smartread
AI ToolsSmartRead是一个AI驱动工具,可自动注释技术PDF,提供关键见解、相关资源并突出重点。
发现最好的 AI 开发工具,涵盖 AI 编程助手、MCP 服务器、图像生成工具等。
SmartRead是一个AI驱动工具,可自动注释技术PDF,提供关键见解、相关资源并突出重点。
Smolagents是一个简洁易用的库,可帮助您轻松构建和运行强大的智能代理。
Smolagents是一个简洁易用的库,可帮助您轻松构建和运行强大的智能代理。
SmolDocling-256M-preview是一个用于高效文档转换的多模态Image-Text-to-Text模型,支持多种文档元素的识别和转换。 它快如闪电,使用 < 500MB VRAM ⚡ 在消费类 GPU 上以 0.35 秒处理一个页面
Smoothrase是一种由先进的AI技术驱动的新一代图像擦除技术,可以在iPhone上进行本地处理。它可以平滑地擦除照片中的任何物体,并无缝地恢复。可以轻松擦除线条、电线、噪音、面部瑕疵、纹身、路人、建筑物等。所有处理都在手机上本地完成,无需上传图像到服务器,确保您的隐私得到保护。Premium订阅的付款模式包括月度订阅和年度订阅,其定价分别为每月6.49美元和每年14.49美元。付款将在购买确认后通过iTunes账户进行。如果不希望自动续订,用户可以在购买后转到用户的账户设置中关闭自动续订。
AI智能体操作系统
AI 应用图标生成器
自动化发布视频到各个社交媒体平台
Sol Sniper Bot 是一个自动购Token的工具,可在Solana平台快速获取新Raydium WSOL流动性池的Token。
SolGraph是Solana首个AI工作流协议,利用链上基础设施实现快速、透明且可验证的AI应用。
SOLO 是一种单一 Transformer 架构的统一视觉语言模型,接受图像和文本输入。
Solos AirGo Vision智能眼镜对抗Meta的Ray-Ban,通过支持ChatGPT-4o提供更先进的AI功能。
SoloSpeech是一个级联生成管道,通过压缩、提取、重建和校正,提升目标语音提取的清晰度和质量,泛化能力强。
Apple Intelligence提示词曝光:Do not hallucinate
SongGen是一种单阶段自回归变换器,可根据文本生成歌曲,支持多种控制方式与模式。
Day 3 OpenAI 布了 Sora
Day 3 OpenAI 布了 Sora
Day 3 OpenAI 布了 Sora
Day 3 OpenAI 布了 Sora
Sora 是 OpenAI 开发的文本到视频生成模型,能够根据文本描述生成长达1分钟的逼真图像序列。它具有理解和模拟物理世界运动的能力,目标是训练出帮助人们解决需要实物交互的问题的模型。Sora 可以解释长篇提示,根据文本输入生成各种人物、动物、景观和城市景象。它的缺点是难以准确描绘复杂场景的物理学以及理解因果关系。
Sora 2 视频生成与混编工作台
Sora泄露API
本地AI语音太空故事
Speakr是自托管的Web应用,用于转录录音、生成摘要和标题,并提供AI聊天交互,安全管理您的会议记录。
SpeechGPT2是复旦大学开发的模仿人类情感表达的语音对话模型。
脉冲类脑大模型
Spotify MCP Server 是一个轻量级服务器,让 AI 助手能控制 Spotify 播放和管理播放列表。
SPPO通过自玩偏好优化高效调整大语言模型,显著提升模型性能。
解决从复杂文本数据中检索和理解信息的强大工具,非常适合处理需要深入分析大量密集文本的场景
开源agentic搜索框架,快速高效替代方案
OSINT开源情报信息收集工具
基于对话的SQL客户端,自然语言与数据库交互实现查询、修改和删除操作。
SSH 上的 AI 聊天
AI21推出了首个生产级别的基于Mamba的模型Jamba,这是一个创新的SSM-Transformer混合架构模型。
Stable Cascade是一个高效能的文本到图像生成模型,基于Würstchen架构,它的核心优势在于能够在更小的潜在空间中工作,保持图像质量的同时实现更快的推理速度和更低的训练成本。该模型由三个部分组成:Stage A、Stage B和Stage C,分别负责图像压缩和生成潜在空间图像。Stable Cascade具有高效率、低成本训练、多样化的应用和出色的图像质量等优势,对文本到图像生成领域带来了新的活力。
Stable Diffusion Webui Forge Stable Diffusion Webui Forgestable Diffusion Webui Minecraft Forge Sd Webuiforge is an AI-powered tool designed for developers and creators.
Stable LM 2 - 1.6B是由StabilityAI发布的一个16亿参数规模的大语言模型。相比较常规的大语言模型,这个模型参数仅16亿,可以在移动端运行。但是它的性能效果与几个月前70亿参数规模差不多。该模型支持多国语言,包括英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语。此外,Stable LM 2 - 1.6B在评分上超过了70亿参数的MosaicML的MPT-7B,在MT-Bench得分上也超过了Qwen-1.8B和Phi-2模型。该模型可以免费用于科研和个人目的,但如果要商用,需加入StabilityAI的会员计划,月费用为20美元。超过一定规模的商用需要与官方...
Stable Video Ai is an AI-powered tool designed for developers and creators.
Stable Video Diffusion (SVD) 1.1 Image-to-Video 是一个扩散模型,通过将静止图像作为条件帧,生成相应的视频。该模型是一个潜在扩散模型,经过训练,能够从图像生成短视频片段。在分辨率为 1024x576 的情况下,该模型训练生成 25 帧视频,其训练基于相同大小的上下文帧,并从 SVD Image-to-Video [25 frames] 进行了微调。微调时,固定了6FPS和Motion Bucket Id 127的条件,以提高输出的一致性,而无需调整超参数。
支持生成高品质音乐并具有音频到音频转换功能的AI工具
Stable Audio Open是一个开源的文本到音频生成模型,可生成长达47秒的音频样本和音效。
Stable Diffusion 3 API现已推出,提供先进的文本到图像生成能力和改进的模型架构。
Stable Diffusion 3 Medium 开源的先进文本生成图像模型
Stable Diffusion 3.5是一个用于简单推理的参考实现,支持多种文本编码器和新型VAE解码器。
纯C/C++实现的库,用于生成图像Stable Diffusion模型
从单个物体图像生成新颖多视角的模型
StableAnimator是一个高质量的人像动画生成框架,能保持身份一致性并无需后处理。
下一代文本转语音(Text-to-Speech, TTS)模型
starline 是一款专为线条绘图设计的严格着色机器学习工具。
为视频创作提供动画插值的高级工具,属于ComfyUI的自定义节点
Step-Audio是首个具备多语言对话和情感语调生成的开源智能语音交互框架。
股票分析系统是A股专业分析工具,提供单股、批量扫描及高级技术指标分析,辅助投资决策。
该应用利用大型语言模型和数据检索技术,从新闻和财务数据中提取股票市场洞察。
根据互联网搜索来写出类似于维基百科的文章
Story-Adapter是一个无训练、迭代的长篇故事可视化框架,通过逐步优化生成图像以保持语义一致性。
该应用通过LangGraph代理帮助用户编写和编辑故事,提供多版本章节选择。
通过一致性自注意力机制的视频生成工具
StoryMaker是一种个性化解决方案,可在文本生成图像时保证多个角色在面部、服装和发型等方面的一致性。
StoryTeller是一个生成长视频描述的系统,结合视觉、音频和文本信息,提升描述的一致性和连贯性。
翻译与OCR工具
Streamer-Sales 是一款为卖货主播量身定制的智能生成商品解说文案的大模型。
StreamMultiDiffusion是首个基于区域文本提示的实时文本到图像生成框架,实现了高速且互动的图像生成。
StreamMultiDiffusion是首个基于区域文本提示的实时文本到图像生成框架,实现了高速且互动的图像生成。
RTX 4090上实现实时的视频转视频翻译和风格化功能
Stride AI Agents是一个开源平台,旨在帮助开发者和企业创建和管理自主人工智能系统,推动创新与效率。
OpenAI引入API结构化输出
Structured Outputs示例应用展示了如何利用OpenAI API的结构化输出功能构建可靠的NextJS应用。
个性化端到端自动驾驶基准
通过少量数据和生成模型提取多种风格人脸草图的技术
通过风格扩散与大型语音语言模型对抗训练实现接近人类水平的文本到语音合成
一款免费的本地AI视频转录工具,带有编辑、样式设计和渲染功能。
Sudoku-RWKV 是一款专门为解数独拼图而训练的 RWKV 模型。
Suna是开源AI助手,通过自然对话实现研究、数据分析和自动化工作流等任务,并集成多种工具。
AI创作一首属于自己的音乐
基于Python和FastAPI构建的非官方API,主要用于生成歌曲、歌词等
SuperCoder是一款终端内运行的编码助手,具备代码搜索、编辑、修复等功能,简化开发流程。
AI IDE界面设计代理
SuperGaussian 重新利用视频模型进行3D超分辨率,实现从低分辨率到高分辨率的3D模型转换。
SuperMemory帮助您保存和管理网络内容,创建属于自己的第二大脑。
Superposition Prompting是一种新方法,旨在提升和加速信息检索增强生成的效果。
实时自由地转换您的声音
强大的文档光学字符识别(OCR)工具包
允许在保持背景不变的情况下,用个性化参照物替换图片中任意对象
利用语言模型(LM),比如GPT-4,将其变成能够修复GitHub仓库中的BUG和问题的软件工程代理
基于LangGraph的AI软件工程 Agent
SwiftLLM是一个仅有2000行代码的小型强大LLM推理系统,专为研究用途设计。
开源的 Swift 包,用于简化与 OpenAI API 的交互,并支持 Azure 和 AIProxy 后端。
Syftr是一个代理优化器,使用多目标贝叶斯优化高效搜索给定预算下最佳的代理工作流组合,以达到准确性和其他目标之间的平衡。
Symbolic Scribe 是一款通过数学框架优化 AI 提示,显著降低成本并提高处理速度的工具。
AI智能交易机器人
Tabby VSCode AI 终端控制
Tabled是一个小型库,用于检测和提取PDF中的表格,支持多种输出格式。
异构文档混合RAG推理框架
Tailor3D是一种通过双面图像定制3D资产编辑和生成的新方法。
AI语音转优化提示词
支持多模态模型的私人助理应用,可一键免费部署,支持语音和图片识别
TANGO是一种通过层次音频-运动嵌入和扩散插值进行的共语手势视频重现技术。
TankWork是一个开源桌面代理框架,通过计算机视觉与系统交互,实现AI对电脑的理解和控制。
TapeAgents是一个框架,通过重放日志助力大语言模型代理的开发与优化,支持灵活配置与调试。
智能体任务自动生成与扩展
TaskMeAnything是一个生成大规模多模态语言模型(MLM)基准测试的引擎。
AI命令行代码助手
该项目利用YOLO和CNN分析网球视频中的选手和球速。
由十个自主AI代理共同创作的小说
Terminator是一款AI驱动的SDK,能高速可靠地自动化Windows和macOS上的原生GUI应用。
TextDistiller是一款AI驱动的文档摘要工具,能够高效提炼书籍的章节或整体内容。
能够将图像中的数学公式识别并转换为LaTeX风格的公式
TheoremExplainAgent是一个AI系统,能生成Manim视频解释定理,揭示文本难以发现的推理缺陷,用于研究目的。
Claude驱动的链式思维工具集成演示项目
Thinking Claude 是一个项目,结合思维协议和浏览器扩展,使 Claude 高效且透明地进行深入思考和回应。
Thyme:代码执行式高阶视觉推理
天机是SocialAI(来事儿AI)制作的一款免费使用、非商业用途的人工智能系统。它涉及传统人情世故的任务,如敬酒礼仪、请客礼仪、送礼礼仪、送祝福、如何说对话、化解尴尬场合和矛盾冲突应对等七大领域。Tianji涉及的技术路线包括纯prompt对话、Agent架构、知识库,以及模型训练。该系统的目标是提升个人情商和核心竞争能力,相信人情世故将成为未来AI的核心技术。
Tiger是一个以社区为驱动的项目,它旨在为LLM (大型语言模型) Agent Revolution开发一个可重复使用且集成的工具生态系统。Tiger可以看作是为你的AI代理提供的“神经连接”,使其能够直接通过“思考”来控制计算机做出各种操作。这包括写代码、使用搜索引擎、管理日历、控制鼠标和键盘、以音频输出与你对话等等。换句话说,你的AI代理想做什么,Tiger就帮它实现什么。
TikTok数据抓取与任务自动化
Tiny AI Client 是一个简洁易用的工具,支持快速切换和使用多种LLM模型,并具备视觉和工具功能。
Qwen多模态模型PyTorch精简复现
TinyFusion是一种用于深度修剪扩散变换器的可学习方法,显著提高了训练效率与模型性能。
TinyTroupe是一个基于大型语言模型的Python库,能够模拟个性化多代理角色,助力商业洞察与创意拓展。
AI数据科学助手
Together Open Deep Research是AI驱动的深度研究工具,能生成含引用、多阶段的综合性报告。
Toolkami是用7个工具驱动的极简AI代理,支持免手动Turbo模式和热重载自修改。
Trackers是一个统一库,提供多种目标追踪算法,可与不同对象检测器轻松集成,实现多目标追踪。
基于LLM的多智能体金融交易框架
基于LLM的多智能体金融交易框架
MCP多智能体智投决策系统
AI软件工程智能体
DeepSeek R1 通过强化学习和手绘示意图,逐步实现高效的模型训练,以提升其推理能力。
本文介绍了一种从零开始使用PyTorch训练大型语言模型(LLM)的方法,支持在单个GPU上训练千万至十亿参数的模型。
OpenAI为调查小型语言模型行为开发的工具,支持代码前快速探索与干预
TranslateBookWithLLM是基于Ollama API的Python应用,用于本地LLM驱动的大规模文本翻译,提供Web和CLI界面。
Translation Agent 吴恩达老师开源翻译工作流Agent
translation-starter是一个开源项目,它允许你很快地部署一个应用程序,这个应用可以将任何视频翻译成任何语言,并通过AI技术实现口型与声音的完美同步。如果你需要快速集成视频翻译、声音克隆和口型同步到你的业务或流程中,这个工具可以在15分钟内帮助你搭建起来。
TransPixar是一种利用扩散变换器生成RGBA视频的创新方法,提升了文本到视频生成的透明度。
TRELLIS是一个大型3D生成模型,能够根据文本或图像生成高质量的多种格式3D资产,具有灵活的编辑和输出功能。
TripoSG是基于大规模矫正流模型的高保真图像到3D形状生成基础模型,性能卓越。
stability推出的从单个图像快速生成3D对象
TryOffAnyone是一个用于从穿衣人物生成拼接衣物的项目,支持VITON-HD数据集。
ttt-lm-pytorch 是一种带有表达性隐藏状态的RNN序列模型,用于测试时训练。
TurboSeek 是一个由 Together.ai 提供支持的开源人工智能搜索引擎。
TurboSeek 是一个由 Together.ai 提供支持的开源人工智能搜索引擎。
Turbular是一个开源模型上下文协议(MCP)服务器,为LLM提供统一API,连接多种数据库,实现无缝数据交互。
AI智能Twitter推文分析与推送
twitterbio项目利用AI生成个性化Twitter简介,简化用户创建社交媒体个人资料的过程。
AI双人播客生成器
TxAgent是一个AI agent,利用多步骤推理和工具,为治疗性推理提供个性化治疗方案。
txtchat 利用检索增强生成模型和语言模型构建智能对话搜索应用。
TypeAgent是示例代码,探索利用LLM构建具有自然语言界面的个人代理架构,集成动作、记忆和计划。
由音乐和科技界重量级人物支持的强大 AI 音乐生成器,被称为音乐界的另一个 ChatGPT。
由音乐和科技界重量级人物支持的强大 AI 音乐生成器,被称为音乐界的另一个 ChatGPT。
UltraEdit是一个大规模自动生成的图像编辑指令数据集,支持区域编辑。
UltraPixel是一种推进超高分辨率图像合成的新技术。
UltraRAG框架是一个便捷的一站式解决方案,简化了RAG系统的数据构建与模型微调流程。
UMI on Legs把基于操纵的全身控制策略应用于拥有机械臂的四足机器人。
阿里新发布的UniAnimate通过统一的视频扩散模型,实现高效人像动画生成,支持长视频生成
字节跳动推出UniFL:通过统一反馈学习提高稳定扩散
uniocr是Rust通用OCR引擎,支持本地(macOS/Windows/Tesseract)和云服务,提供统一API和高性能。
AssemblyAI推出Universal-1,这是一款经过12.5百万小时多语言音频数据训练、在英语、西班牙语、法语和德语上具备业界领先准确度的强大语音识别模型。
跨协议工具调用标准
实时LLM语音对话
使用更高效的算法来优化和加速大型语言模型(LLMs)的微调
use-mcp:连接MCP服务器的React Hook
V-Express人像照片生成视频的模型,逐步训练以生成高质量的肖像视频。
VACE是集视频创作与编辑于一体的AI模型,支持参考视频生成、视频编辑等多种任务的自由组合。
Valla.ai是一个工具,它允许用户通过可视化的方式快速理解代码,减少在bug和技术债务上的时间,让用户有更多时间编写新功能。它提供了代码浏览、数据流可视化和团队协作功能。
Valley 2.0是字节跳动开发的一款先进多模态大模型,可处理文本、图像和视频数据。
北大发布新兴的图像生成方法
微软实时生成会说话的头像
AI驱动的集成开发环境
vdr-2b-multi-v1是一款多语言视觉文档检索模型,支持高效搜索丰富的多语言文档。
一个友好的人工智能助手,具备两个独特人格,相互对话并与用户实时互动
VectorVein是一款无需编程即可创建强大AI工作流程的无代码软件。
Vectorshift Ai is an AI-powered tool designed for developers and creators.
Veo 2 是谷歌最先进的视频生成模型。它能够将文本、图像或两者结合转化为视频。该模型擅长理解简单和复杂的指令,可以根据文本或图像提示生成八秒钟的视频片段。Veo 2 的强大之处在于其能够准确地模拟现实世界的物理规律,并捕捉各种视觉和电影风格。
开源的数据检索增强生成应用,支持多种数据类型和语言模型
开源的数据检索增强生成应用,支持多种数据类型和语言模型
通过React服务器组件实现了将文本和图像提示转换为React UI,并简化了设计工程流程
本地图谱RAG:多跳推理与可信溯源
Vertex AI RAG Agent with ADK:文档问答及管理
Vexa是一个实时会议转录API,支持多种平台,旨在提供企业级的数据安全保障和灵活部署方案。
Vibe Draw是一个通过涂鸦草图快速生成3D模型的工具,让创意轻松转化为3D世界。
VibeGit是一个AI驱动的Git工具,通过语义分析和AI生成提交信息,帮助开发者更高效地进行代码提交和仓库管理。
AI Git Worktree 并行开发
长时多说话人对话语音合成
video-analyzer是一个开源项目,可以用于分析和处理视频内容。
Video-Infinity利用多GPU快速生成长视频,无需额外训练。
赋予大型语言模型(LLMs)视频和音频理解能力
Video Smartcut是一款开源的命令行工具,能够快速高效地裁剪各种视频格式,保持高质量。
Video-Style-Transfer是一个支持提升图像质量的开源AI应用。
视频转音频生成方法,实现语义与时间对齐的音频内容生成。
VideoCaptioner(卡卡字幕助手)是一款基于大语言模型的智能视频字幕处理软件,支持全流程字幕生成与优化。
VideoGigaGAN是一种新型的视频超分辨率生成模型,能够在保持时间一致性的同时,生成高频细节丰富的视频。
VideoLLaMA2 是一种增强视频时空建模和音频理解的语言模型。
ViDoRAG是基于动态迭代推理Agent的视觉文档检索增强生成框架,旨在提升视觉文档理解和问答效果。
VidTok是一种先进的视频标记器,支持连续和离散标记,提升了视频处理的效率和质量。
VILA是一个预训练的视觉语言模型,具备视频理解和多图像理解等强大能力。
VILA是一个预训练的视觉语言模型,具备视频理解和多图像理解等强大能力。
VimLM是一个为Vim设计的本地AI编程助手,提供上下文理解和编码支持,安全离线工作。
ViPer通过学习个体偏好来个性化生成模型的输出,满足不同用户的视觉偏好。
一款自动提取社交媒体视频亮点的编辑工具
该项目是一个基于Flask和Twilio的虚拟试衣应用,用户可通过WhatsApp发送照片,实时试穿服装。