Skip to content
目录

👁️ 多模态与音视频 (Multimodal & Vision/Audio)

计算机视觉、图像生成、语音识别(ASR)、语音合成(TTS)、视频生成等非纯文本类 AI 等领域架构。

CogVideo

文本和图像生成视频的AI模型,包含CogVideoX (2024)和CogVideo (ICLR 2023),支持高质量视频创作。

  • Stars: ⭐️ 12.5k
  • Tags: text-to-video image-to-video video-generation
  • 最后活动时间: 2025-11-04

pcl

开源点云处理库,提供3D图像和点云数据的处理、滤波、配准、分割等功能。广泛应用于机器人、自动驾驶和三维重建等AI视觉领域。

  • Stars: ⭐️ 10.9k
  • Tags: Computer Vision Point Cloud C++
  • 最后活动时间: 2026-03-12

tacotron

Tacotron的TensorFlow实现,一个端到端的文本转语音合成模型。可直接从文本生成自然的语音输出。

  • Stars: ⭐️ 1.8k
  • Tags: TTS 语音合成 TensorFlow
  • 最后活动时间: 2022-01-17

ai-audio-startups

AI音频与音乐技术领域初创公司精选列表,涵盖语音、音乐、音频等多个方向的创新企业。

  • Stars: ⭐️ 1.7k
  • Tags: Audio Music Startups
  • 最后活动时间: 2025-01-22

openai-edge-tts

免费高质量的文本转语音API端点,可替代OpenAI、Azure或ElevenLabs的TTS服务,支持自托管和OpenAI兼容接口。

  • Stars: ⭐️ 1.7k
  • Tags: TTS API OpenAI兼容 自托管
  • 最后活动时间: 2025-07-01

bailing

类似GPT-4o的语音对话机器人,集成DeepSeek R1等大模型,时延低至800ms,支持打断,低配置设备也可流畅运行。

  • Stars: ⭐️ 1.6k
  • Tags: 语音助手 ASR TTS DeepSeek
  • 最后活动时间: 2025-07-31

Speech-Emotion-Analyzer

基于深度学习的语音情感分析模型,能够从音频中识别五种不同的男女性情感。使用Keras和神经网络技术实现,适合学习语音处理与情感识别。

  • Stars: ⭐️ 1.4k
  • Tags: 深度学习 语音识别 情感分析
  • 最后活动时间: 2023-02-07

tt-metal

Tenstorrent开发的AI加速器底层编程框架,包含TT-NN算子库和TT-Metalium内核编程模型,支持LLaMA、DeepSeek、Stable Diffusion等主流AI模型的硬件加速优化。

  • Stars: ⭐️ 1.4k
  • Tags: AI加速器 内核编程 GPU LLM
  • 最后活动时间: 2026-03-20

DDNM

ICLR 2023 Oral论文实现,提出零样本图像修复方法,利用去噪扩散模型在零空间建模,无需针对特定任务训练即可实现高质量图像修复。

  • Stars: ⭐️ 1.3k
  • Tags: diffusion-models image-restoration zero-shot iclr2023
  • 最后活动时间: 2024-04-25

OpenEMMA

OpenEMMA 是 Waymo EMMA 模型的开源复现,基于多模态大语言模型实现端到端自动驾驶,为自动驾驶研究提供重要参考。

  • Stars: ⭐️ 910
  • Tags: autonomous-driving multimodal-llm open-source
  • 最后活动时间: 2025-05-13

epub2tts

将电子书或文本文件转换为有声书的AI工具,利用生成式AI和TTS技术实现高质量语音合成。

  • Stars: ⭐️ 907
  • Tags: TTS 有声书 AI
  • 最后活动时间: 2026-02-08

DiffSensei

CVPR 2025 论文实现,将多模态大语言模型与扩散模型结合,实现定制化漫画生成。

  • Stars: ⭐️ 904
  • Tags: Diffusion Models Manga Generation Multi-Modal LLM
  • 最后活动时间: 2025-02-05

diffusion-point-cloud

基于扩散概率模型的3D点云生成方法,发表于CVPR 2021。利用扩散模型实现高质量的三维点云生成与补全。

  • Stars: ⭐️ 782
  • Tags: 3D点云 扩散模型 生成模型 CVPR2021
  • 最后活动时间: 2025-11-28

sgmse

基于扩散模型的语音增强与去混响工具,利用分数生成模型实现高质量语音处理。

  • Stars: ⭐️ 729
  • Tags: Diffusion Models Speech Enhancement Audio Processing
  • 最后活动时间: 2026-02-01

speech-to-text-benchmark

语音转文字基准测试框架,支持对比 AWS、Google、Mozilla DeepSpeech、Picovoice 等多种语音识别引擎的性能表现。

  • Stars: ⭐️ 687
  • Tags: 语音识别 基准测试 边缘AI
  • 最后活动时间: 2026-03-19

worker-comfyui

将 ComfyUI 部署为 RunPod 无服务器 API,支持 SDXL 和 Stable Diffusion 工作流的云端托管与弹性扩展。

  • Stars: ⭐️ 671
  • Tags: ComfyUI Serverless Stable Diffusion RunPod
  • 最后活动时间: 2026-03-20