Multi-Modal Researcher Multi-Modal Researcher Multi-Modal Researcher

Multi-Modal Researcher Multi-Modal Researcher LangGraph

2024-01-01 1 分钟阅读

Multi-Modal Researcher 是一个基于 LangGraph 的自动化工作流项目，旨在利用 Google Gemini 2.5 系列模型的独特能力，实现主题研究和播客生成。用户输入一个研究主题，并可选择提供一个 YouTube 视频 URL，系统便能通过 Gemini 的原生搜索工具进行网络研究，结合对视频的分析（如果提供），将这些见解整合并生成一份带引用的综合报告。此外，它还能进一步生成一份简短的、包含多扬声器（如专家与采访者）对话的播客脚本及其对应的 TTS 音频文件，提供从文本到语音的多模态输出。该项目支持模型选择、内容创作温度以及语音配置等运行时定制。