[NS :
花了几小时搞了个安卓端的实时字幕软件大概思路为安卓端实时捕获音频通过ws发送到服务端(fast-whisper和vllm)进行识别和翻译,再推送回安卓端通过悬浮显示使用的模型为whisper:larger-v3,vllm:tencent/HY-MT1.5-7B单卡3090单客户端:实测大概占用显存为20G左右,整体
zxcsw2] 安卓端实时字幕软件花了几小时搞了个安卓端的实时字幕软件大概思路为安卓端实时捕获音频通过ws发送到服务端(fast-whisper和vllm)进行识别和翻译,再推送回安卓端通过悬浮显示使用的模型为whisper:larger-v3,vllm:tencent/HY-MT1.5-7B单卡3090单客户端:实测大概占用显存为20G左右,整体