👁️ 多模态与音视频 (Multimodal & Vision/Audio)
计算机视觉、图像生成、语音识别(ASR)、语音合成(TTS)、视频生成等非纯文本类 AI 等领域架构。
CogVideo
文本和图像生成视频的AI模型,包含CogVideoX (2024)和CogVideo (ICLR 2023),支持高质量视频创作。
- Stars: ⭐️ 12.5k
- Tags:
text-to-videoimage-to-videovideo-generation - 最后活动时间: 2025-11-04
pcl
开源点云处理库,提供3D图像和点云数据的处理、滤波、配准、分割等功能。广泛应用于机器人、自动驾驶和三维重建等AI视觉领域。
- Stars: ⭐️ 10.9k
- Tags:
Computer VisionPoint CloudC++ - 最后活动时间: 2026-03-12
tacotron
Tacotron的TensorFlow实现,一个端到端的文本转语音合成模型。可直接从文本生成自然的语音输出。
- Stars: ⭐️ 1.8k
- Tags:
TTS语音合成TensorFlow - 最后活动时间: 2022-01-17
ai-audio-startups
AI音频与音乐技术领域初创公司精选列表,涵盖语音、音乐、音频等多个方向的创新企业。
- Stars: ⭐️ 1.7k
- Tags:
AudioMusicStartups - 最后活动时间: 2025-01-22
openai-edge-tts
免费高质量的文本转语音API端点,可替代OpenAI、Azure或ElevenLabs的TTS服务,支持自托管和OpenAI兼容接口。
- Stars: ⭐️ 1.7k
- Tags:
TTSAPIOpenAI兼容自托管 - 最后活动时间: 2025-07-01
bailing
类似GPT-4o的语音对话机器人,集成DeepSeek R1等大模型,时延低至800ms,支持打断,低配置设备也可流畅运行。
- Stars: ⭐️ 1.6k
- Tags:
语音助手ASRTTSDeepSeek - 最后活动时间: 2025-07-31
Speech-Emotion-Analyzer
基于深度学习的语音情感分析模型,能够从音频中识别五种不同的男女性情感。使用Keras和神经网络技术实现,适合学习语音处理与情感识别。
- Stars: ⭐️ 1.4k
- Tags:
深度学习语音识别情感分析 - 最后活动时间: 2023-02-07
tt-metal
Tenstorrent开发的AI加速器底层编程框架,包含TT-NN算子库和TT-Metalium内核编程模型,支持LLaMA、DeepSeek、Stable Diffusion等主流AI模型的硬件加速优化。
- Stars: ⭐️ 1.4k
- Tags:
AI加速器内核编程GPULLM - 最后活动时间: 2026-03-20
DDNM
ICLR 2023 Oral论文实现,提出零样本图像修复方法,利用去噪扩散模型在零空间建模,无需针对特定任务训练即可实现高质量图像修复。
- Stars: ⭐️ 1.3k
- Tags:
diffusion-modelsimage-restorationzero-shoticlr2023 - 最后活动时间: 2024-04-25
OpenEMMA
OpenEMMA 是 Waymo EMMA 模型的开源复现,基于多模态大语言模型实现端到端自动驾驶,为自动驾驶研究提供重要参考。
- Stars: ⭐️ 910
- Tags:
autonomous-drivingmultimodal-llmopen-source - 最后活动时间: 2025-05-13
epub2tts
将电子书或文本文件转换为有声书的AI工具,利用生成式AI和TTS技术实现高质量语音合成。
- Stars: ⭐️ 907
- Tags:
TTS有声书AI - 最后活动时间: 2026-02-08
DiffSensei
CVPR 2025 论文实现,将多模态大语言模型与扩散模型结合,实现定制化漫画生成。
- Stars: ⭐️ 904
- Tags:
Diffusion ModelsManga GenerationMulti-Modal LLM - 最后活动时间: 2025-02-05
diffusion-point-cloud
基于扩散概率模型的3D点云生成方法,发表于CVPR 2021。利用扩散模型实现高质量的三维点云生成与补全。
- Stars: ⭐️ 782
- Tags:
3D点云扩散模型生成模型CVPR2021 - 最后活动时间: 2025-11-28
sgmse
基于扩散模型的语音增强与去混响工具,利用分数生成模型实现高质量语音处理。
- Stars: ⭐️ 729
- Tags:
Diffusion ModelsSpeech EnhancementAudio Processing - 最后活动时间: 2026-02-01
speech-to-text-benchmark
语音转文字基准测试框架,支持对比 AWS、Google、Mozilla DeepSpeech、Picovoice 等多种语音识别引擎的性能表现。
- Stars: ⭐️ 687
- Tags:
语音识别基准测试边缘AI - 最后活动时间: 2026-03-19
worker-comfyui
将 ComfyUI 部署为 RunPod 无服务器 API,支持 SDXL 和 Stable Diffusion 工作流的云端托管与弹性扩展。
- Stars: ⭐️ 671
- Tags:
ComfyUIServerlessStable DiffusionRunPod - 最后活动时间: 2026-03-20
Hello-AI