Chunkr

Chunkr ChunkrAPI,PDF、PPT、Word、OCR(),,RAG()LLM()。HTML、Markdown、...

1 分钟阅读

Chunkr

Chunkr是一个生产就绪的开源文档智能API服务,其核心功能在于对PDF、PPT、Word文档及图像进行布局分析、高精度OCR(包含边界框信息),并将处理后的内容进行智能语义分块,使其适配RAG(检索增强生成)和LLM(大型语言模型)应用。该项目能够输出结构化的HTML、Markdown、纯文本和JSON等多种数据格式,并支持通过VLM(视觉语言模型)进行精细处理。Chunkr提供了灵活的LLM配置选项,用户可以方便地接入各类兼容OpenAI API的语言模型,同时支持通过Docker Compose快速部署。该项目提供开源版本用于开发测试,此外还有功能更强大、支持Excel文档、提供更先进OCR和VLM模型以及专业支持的商业API和企业级解决方案,以满足不同规模和复杂度的应用需求。