SRT_GEN 是一个基于 OpenAI Whisper 模型和 PyQt5 的音视频字幕生成工具,旨在为用户提供简便的字幕生成体验。
- 文件导入:支持通过拖拽或文件选择对话框导入
.mp3
、.wav
、.mp4
、.mkv
等常见音视频格式文件。 - 模型选择:提供多种模型大小选项(如
tiny
、base
、small
、medium
、large
),以适应不同的硬件性能需求。 - 设备选择:允许用户选择运行设备(如
cuda
或cpu
),以优化处理效率。 - 字幕生成:利用 Whisper 模型对音频内容进行转录,生成标准的
.srt
字幕文件。 - 模型管理:自动下载所需模型,并提供删除未使用模型的功能,以节省存储空间。
- FFmpeg 检测:自动检查系统中是否安装了 FFmpeg,确保视频文件的处理顺畅。
-
克隆项目:
git clone https://github.com/wangyaominde/SRT_GEN.git cd SRT_GEN
-
安装依赖:
pip install -r requirements.txt
-
运行程序:
python subtitle_generator.py
-
操作步骤:
- 在界面中拖拽或选择音视频文件。
- 选择所需的模型大小和运行设备。
- 点击“生成字幕”按钮,等待处理完成。
- 生成的
.srt
字幕文件将保存在与源文件相同的目录下。
- FFmpeg 安装:请确保系统已安装并配置了 FFmpeg,以便正确处理视频文件。
- 模型下载:首次使用某个模型时,程序会自动从 Hugging Face 下载相应的模型文件,下载时间取决于网络状况和模型大小。
- 硬件要求:较大的模型(如
medium
、large
)可能需要更高的硬件性能,建议根据自身设备选择合适的模型。
欢迎对 SRT_GEN 项目提出建议或贡献代码。您可以通过 Fork 本仓库,创建新的分支进行修改,然后提交 Pull Request。