WhisperKit

WhisperKit WhisperKit WhisperKit

2024-01-01 2 分钟阅读

WhisperKit

WhisperKit简介

WhisperKit 是一个Swift软件包，它将OpenAI的热门语音识别模型 Whisper 与苹果的CoreML框架集成，旨在实现高效的本地推理，专为苹果设备设计。

你可以通过TestFlight来查看演示应用。

安装方法

Swift Package Manager ：可以通过Swift Package Manager将WhisperKit集成到你的Swift项目中:

打开项目并选择 File > Add Package Dependencies...
输入仓库地址: https://github.com/argmaxinc/whisperkit
选择版本并完成添加

Homebrew ：你可以使用Homebrew来安装命令行版本：

brew install whisperkit-cli

使用示例

初始化并转录本地音频文件：

import WhisperKit

Task { let pipe = try? await WhisperKit() let transcription = try? await pipe!.transcribe(audioPath: “path/to/your/audio.{wav,mp3,m4a,flac}”)?.text print(transcription) }

模型选择 ：可以自动下载推荐的模型，也可以指定特定的模型：

let pipe = try? await WhisperKit(model: “large-v3”)

主要使用场景

语音转文本 ：将本地存储的音频文件转换为文本，适用于语音备忘录转录、会议记录生成等场景。
实时语音识别 ：通过麦克风实时转录语音，适用于语音助手、即时语音输入等场景。

贡献与计划

WhisperKit鼓励社区贡献，欢迎在GitHub上查看贡献指南，发布issue或提交pull request，同时可以查看未来开发计划。WhisperKit的目标是不断优化和增加新功能。

授权与引用

WhisperKit基于MIT许可协议发布。如果你在学术工作中使用了WhisperKit，可以使用以下BibTeX条目进行引用：

@misc{whisperkit-argmax, title = {WhisperKit}, author = {Argmax, Inc.}, year = {2024}, URL = {https://github.com/argmaxinc/WhisperKit} }

WhisperKit

WhisperKit简介

安装方法

使用示例

主要使用场景

贡献与计划

授权与引用

本指南使用到的工具