👁️ 多模态与音视频

Computer vision, image generation, audio, text-to-speech.

当前分类已收录 840 个相关项目。

Audio & Speech (TTS/STT)

Real-Time-Voice-Cloning

5秒实时语音克隆工具，可生成任意语音内容。

Stars: ⭐️ 59.9k
Tags: Voice Cloning TTS Real-time
最后活动时间: 2026-03-09

GPT-SoVITS

少样本语音克隆TTS模型，仅需1分钟语音数据即可训练高质量语音合成模型。

Stars: ⭐️ 58.6k
Tags: TTS Voice Cloning Few-shot
最后活动时间: 2026-04-30

whisper.cpp

OpenAI Whisper模型的C/C++高性能移植版本，支持本地CPU/GPU推理，适用于语音识别和语音转文字场景。

Stars: ⭐️ 50.7k
Tags: speech-recognition speech-to-text whisper inference
最后活动时间: 2026-06-09

VibeVoice

开源的前沿语音AI项目，专注于语音识别与合成技术。

Stars: ⭐️ 49.3k
Tags: voice-ai speech-synthesis speech-recognition
最后活动时间: 2026-05-06

ChatTTS

专为日常对话优化的生成式语音合成模型，支持中英双语，适合对话场景。

Stars: ⭐️ 39.4k
Tags: TTS Speech Dialogue
最后活动时间: 2026-04-10

MockingBird

5秒内克隆任意声音并实时生成语音的AI语音合成工具，支持中文和多语言。

Stars: ⭐️ 36.9k
Tags: TTS Voice Cloning Deep Learning
最后活动时间: 2026-03-03

fish-speech

开源SOTA级文本转语音项目，基于LLaMA和Transformer架构，支持高质量语音合成与克隆。

Stars: ⭐️ 30.8k
Tags: TTS 语音合成 Transformer
最后活动时间: 2026-06-09

voicebox

开源语音合成工作室，支持语音克隆和文本转语音，提供可视化界面操作。

Stars: ⭐️ 29.8k
Tags: voice-ai voice-clone tts whisper
最后活动时间: 2026-04-26

VoxCPM

无分词器的文本转语音模型，支持上下文感知的语音生成和高保真声音克隆。

Stars: ⭐️ 28.6k
Tags: TTS 声音克隆 语音合成
最后活动时间: 2026-06-10

chatterbox

开源SoTA文本转语音模型，提供高质量语音合成能力。

Stars: ⭐️ 25.0k
Tags: TTS Speech Synthesis
最后活动时间: 2026-06-10

MiniCPM-o

达到Gemini 2.5 Flash级别的多模态大语言模型，支持视觉、语音和全双工多模态实时流媒体，可在手机端运行。

Stars: ⭐️ 24.5k
Tags: multimodal llm vision speech mobile
最后活动时间: 2026-05-07

audiocraft

Meta推出的深度学习音频处理与生成库，包含业界领先的EnCodec音频压缩器和MusicGen音乐生成模型，支持文本和旋律条件控制。

Stars: ⭐️ 23.3k
Tags: audio-generation music-generation deep-learning musicgen encodec
最后活动时间: 2026-03-03

Handy

免费开源的离线语音转文字应用，支持完全离线运行保护隐私，基于Tauri v2跨平台构建。

Stars: ⭐️ 22.6k
Tags: 语音识别 离线 无障碍
最后活动时间: 2026-05-23

CosyVoice

多语言大语音生成模型，提供推理、训练和部署全栈能力。

Stars: ⭐️ 21.6k
Tags: TTS Multi-lingual Voice Cloning
最后活动时间: 2026-05-25

whisperX

基于Whisper的自动语音识别工具，支持词级时间戳和说话人分离，提供快速准确的语音转文字能力。

Stars: ⭐️ 21.5k
Tags: ASR Speech-to-Text Whisper Diarization
最后活动时间: 2026-04-04

index-tts

工业级可控高效零样本文本转语音系统，支持跨语言语音合成。

Stars: ⭐️ 21.1k
Tags: TTS Zero-shot Industrial
最后活动时间: 2026-06-12

buzz

基于OpenAI Whisper的离线音频转录与翻译工具，支持在本地电脑上运行，无需联网即可实现高质量的语音转文字。

Stars: ⭐️ 19.4k
Tags: whisper speech-to-text transcription offline-ai
最后活动时间: 2026-05-16

FunASR

阿里达摩院开源的端到端语音识别工具包，提供SOTA预训练模型。

Stars: ⭐️ 17.9k
Tags: speech-recognition asr pytorch pretrained-model vad
最后活动时间: 2026-06-11

VideoLingo

Netflix级AI视频字幕处理工具，支持一键自动切割、翻译、对齐和配音，实现全自动视频本地化。

Stars: ⭐️ 17.2k
Tags: video-translation ai-translation dubbing voice-cloning subtitle
最后活动时间: 2026-03-24

pyvideotrans

AI驱动的视频翻译工具，支持跨语言翻译并自动生成配音与字幕，集成语音识别与合成技术。

Stars: ⭐️ 17.0k
Tags: video-translation speech-to-text text-to-speech subtitle
最后活动时间: 2026-04-24

VideoCaptioner

基于LLM的智能字幕助手，支持视频字幕生成、断句、校正和翻译全流程处理，提升视频内容创作效率。

Stars: ⭐️ 15.0k
Tags: 字幕生成 视频处理 LLM应用 翻译
最后活动时间: 2026-06-06

vosk-api

离线语音识别API，支持Android、iOS、树莓派和服务器，提供Python、Java、C#和Node.js多语言SDK。

Stars: ⭐️ 14.8k
Tags: Speech Recognition Offline Deep Learning
最后活动时间: 2026-06-04

F5-TTS

基于流匹配的高质量文本转语音模型，生成流畅自然的语音。

Stars: ⭐️ 14.6k
Tags: TTS Flow Matching Research
最后活动时间: 2026-05-18

KittenTTS

体积小于25MB的SOTA文本转语音模型，适合边缘设备部署。

Stars: ⭐️ 14.0k
Tags: text-to-speech tts lightweight edge-deployment
最后活动时间: 2026-05-13

sherpa-onnx

离线语音处理神器，支持语音识别、语音合成、说话人分离、语音增强等功能，覆盖嵌入式设备到服务器的全平台部署。

Stars: ⭐️ 12.9k
Tags: Speech-to-Text Text-to-Speech ONNX Embedded
最后活动时间: 2026-06-12

PaddleSpeech

易用语音工具包，涵盖ASR、TTS、语音翻译、声纹识别等全栈能力，获NAACL2022最佳Demo奖。

Stars: ⭐️ 12.6k
Tags: ASR TTS Speech Toolkit
最后活动时间: 2026-06-12

Qwen3-TTS

阿里云Qwen团队开源的文本转语音模型，支持稳定流式语音生成、自由语音设计和生动的语音克隆功能。

Stars: ⭐️ 11.9k
Tags: TTS Speech Synthesis Voice Cloning
最后活动时间: 2026-03-17

speechbrain

基于PyTorch的开源语音处理工具包，涵盖语音识别、说话人识别、语音增强等多种任务。

Stars: ⭐️ 11.6k
Tags: Speech PyTorch ASR Speaker-Recognition
最后活动时间: 2026-05-27

supertonic

闪电般快速的设备端多语言TTS引擎，通过ONNX原生运行，支持跨平台离线语音合成。

Stars: ⭐️ 11.5k
Tags: TTS ONNX On-Device
最后活动时间: 2026-05-22

edge-tts

无需Microsoft Edge或Windows即可使用Edge在线TTS服务的Python库，无需API密钥。

Stars: ⭐️ 11.2k
Tags: text-to-speech tts speech-synthesis
最后活动时间: 2026-03-22

ACE-Step-1.5

强大的本地音乐生成模型，性能超越多数商业替代品，支持Mac、AMD、Intel和CUDA设备。

Stars: ⭐️ 10.7k
Tags: music-generation text-to-music generative-ai local-inference
最后活动时间: 2026-05-27

Whisper

OpenAI Whisper语音识别模型的高性能GPGPU推理实现，支持快速ASR处理。

Stars: ⭐️ 10.4k
Tags: whisper speech-recognition asr gpgpu audio-processing
最后活动时间: 2026-05-24

KrillinAI

基于LLM的视频翻译配音工具，支持100种语言双向翻译和一键部署。

Stars: ⭐️ 10.3k
Tags: Video Translation TTS
最后活动时间: 2026-06-09

pyannote-audio

说话人分离神经网络工具包，支持语音活动检测、说话人识别与嵌入。

Stars: ⭐️ 10.1k
Tags: speaker-diarization speech-processing pytorch
最后活动时间: 2026-06-06

moshi

语音-文本基础模型和全双工口语对话框架，支持实时流式对话，采用Mimi编解码器实现高质量神经音频压缩。

Stars: ⭐️ 10.1k
Tags: Speech Dialogue Voice AI Real-time
最后活动时间: 2026-04-23

RealtimeSTT

高性能实时语音转文本库，支持高级语音活动检测、唤醒词激活和即时转录。

Stars: ⭐️ 9.9k
Tags: speech-to-text realtime voice-activity-detection transcription
最后活动时间: 2026-06-09

espnet

端到端语音处理工具包，支持语音识别、合成、翻译和说话人分离等多种任务，基于PyTorch构建并提供丰富的预训练模型。

Stars: ⭐️ 9.9k
Tags: 语音识别 语音合成 PyTorch
最后活动时间: 2026-06-11

Amphion

音频、音乐和语音生成工具包，支持TTS、语音转换、音乐生成等多种生成任务，助力可复现研究。

Stars: ⭐️ 9.8k
Tags: Audio Generation TTS Music Generation
最后活动时间: 2026-03-25

so-vits-svc-fork

实时语音转换项目，支持歌声转换与变声功能。

Stars: ⭐️ 9.3k
Tags: voice-conversion speech-synthesis pytorch
最后活动时间: 2026-06-12

silero-vad

企业级预训练语音活动检测器，轻量高效，支持ONNX运行时，适用于语音识别前端处理。

Stars: ⭐️ 9.3k
Tags: VAD Speech-Processing ONNX
最后活动时间: 2026-03-26

speech_recognition

Python语音识别模块，支持多种引擎和API，可在线或离线进行语音转文字。

Stars: ⭐️ 9.0k
Tags: speech-recognition speech-to-text python
最后活动时间: 2026-04-24

Bert-VITS2

基于VITS2与多语言BERT的高质量语音合成项目，支持多语言文本转语音，生成自然流畅的语音效果。

Stars: ⭐️ 8.8k
Tags: TTS 语音合成 BERT
最后活动时间: 2026-06-08

SenseVoice

多语言语音理解模型，支持语音识别、情感识别和音频事件分类等多种语音理解任务。

Stars: ⭐️ 8.5k
Tags: ASR Multilingual Speech Emotion-Recognition
最后活动时间: 2026-06-09

librosa

Python音频与音乐分析核心库，提供丰富的音频特征提取和信号处理功能，广泛应用于AI音频领域。

Stars: ⭐️ 8.5k
Tags: 音频分析 信号处理 Python库
最后活动时间: 2026-06-12

moonshine

专为边缘设备设计的快速精准自动语音识别(ASR)模型，适合资源受限环境下的实时语音转文字应用。

Stars: ⭐️ 8.4k
Tags: ASR Speech Recognition Edge AI
最后活动时间: 2026-06-02

ASRT_SpeechRecognition

基于深度学习的中文语音识别系统，采用CNN和CTC架构实现语音转文字。

Stars: ⭐️ 8.4k
Tags: Speech Recognition Chinese Deep Learning
最后活动时间: 2026-04-10

higgs-audio

Boson AI开发的文本-音频基础模型，支持高质量音频生成与理解任务，在语音合成和多模态交互方面表现出色。

Stars: ⭐️ 8.1k
Tags: Audio Generation Foundation Model Multimodal
最后活动时间: 2026-01-18

audiblez

从电子书生成有声书的工具，支持EPUB格式转换为音频。

Stars: ⭐️ 7.5k
Tags: audiobooks text-to-speech tts epub
最后活动时间: 2026-02-27

mlx-audio

基于Apple MLX框架的语音处理库，支持TTS、STT和STS全流程语音能力，专为Apple Silicon优化。

Stars: ⭐️ 7.3k
Tags: TTS STT Apple Silicon MLX
最后活动时间: 2026-06-06

OmniVoice-Studio

开源的 ElevenLabs 替代方案，支持本地语音克隆、TTS/STT 和影视级配音功能。

Stars: ⭐️ 6.9k
Tags: voice-cloning text-to-speech speech-recognition voice-ai local-ai
最后活动时间: 2026-06-12

OmniVoice

支持600多种语言的高质量语音克隆TTS系统，实现多语言语音合成与克隆功能。

Stars: ⭐️ 6.7k
Tags: tts voice-cloning speech-synthesis multilingual
最后活动时间: 2026-05-28

espeak-ng

开源语音合成引擎，支持超过100种语言和口音的文本转语音系统。

Stars: ⭐️ 6.6k
Tags: text-to-speech speech-synthesis open-source
最后活动时间: 2026-04-27

wav2letter

Meta AI Research开源的端到端自动语音识别工具包。

Stars: ⭐️ 6.4k
Tags: speech-recognition asr deep-learning meta
最后活动时间: 2026-01-12

vibe

基于 Whisper 的本地语音转录工具，支持跨平台桌面使用，让你完全掌控自己的语音识别流程。

Stars: ⭐️ 6.4k
Tags: whisper transcribe audio rust desktop
最后活动时间: 2026-05-01

mediabunny

纯TypeScript媒体处理工具包，支持在浏览器中直接读取、写入和转换音视频文件，适用于多模态AI应用的媒体预处理。

Stars: ⭐️ 6.4k
Tags: audio video webcodecs media-processing
最后活动时间: 2026-05-24

podcastfy

开源的NotebookLM播客功能替代方案，可将多种模态内容转换为引人入胜的多语言音频对话。

Stars: ⭐️ 6.3k
Tags: Podcast Generation Text-to-Speech GenAI
最后活动时间: 2026-05-04

argmax-oss-swift

专为Apple Silicon设计的端侧语音AI工具包，支持语音识别、语音合成、说话人分离等功能。

Stars: ⭐️ 6.2k
Tags: speech-recognition text-to-speech whisper swift on-device
最后活动时间: 2026-06-10

pedalboard

Spotify开源的Python音频处理库，支持VST3插件和音频增强，适用于机器学习音频数据预处理。

Stars: ⭐️ 6.2k
Tags: audio-processing python machine-learning vst3
最后活动时间: 2026-05-21

tts-vue

基于微软语音服务的桌面端TTS工具，支持文本转语音合成，使用Electron+Vue构建。

Stars: ⭐️ 6.1k
Tags: TTS Speech Synthesis Desktop
最后活动时间: 2026-04-24

WhisperKit

专为Apple Silicon优化的端侧语音识别框架，支持iOS、macOS等平台。

Stars: ⭐️ 6.0k
Tags: speech-recognition whisper swift on-device apple-silicon
最后活动时间: 2026-04-14

neutts

Neuphonic开发的设备端TTS模型，优化本地推理性能。

Stars: ⭐️ 6.0k
Tags: text-to-speech tts on-device edge-ai
最后活动时间: 2026-06-11

silero-models

预训练文本转语音模型库，支持俄语、乌克兰语等10多种语言，可通过PyTorch Hub快速集成。

Stars: ⭐️ 6.0k
Tags: TTS 预训练模型 多语言
最后活动时间: 2026-06-04

FunClip

开源视频语音识别与剪辑工具，集成LLM智能剪辑功能。支持语音转文字、字幕生成，简化视频处理流程。

Stars: ⭐️ 5.8k
Tags: 语音识别 视频剪辑 AI字幕
最后活动时间: 2026-06-12

Recorder

功能强大的HTML5录音库，支持多格式音频录制并集成ASR语音识别，适用于语音交互和实时通话场景。

Stars: ⭐️ 5.6k
Tags: 音频录制 ASR WebRTC
最后活动时间: 2026-04-27

whisper-diarization

基于OpenAI Whisper的自动语音识别与说话人分离工具，支持多说话人场景下的语音转文字和身份识别。

Stars: ⭐️ 5.5k
Tags: ASR Speaker Diarization Whisper
最后活动时间: 2026-02-23

VoiceInk

macOS开源语音转文字应用，Superwhisper的免费替代方案，无需订阅。

Stars: ⭐️ 5.2k
Tags: speech-to-text voice-recognition macos
最后活动时间: 2026-06-12

wenet

生产级端到端语音识别工具包，支持Conformer和Transformer架构，专为工业部署优化。

Stars: ⭐️ 5.1k
Tags: ASR E2E Production Ready
最后活动时间: 2026-05-11

Kokoro-FastAPI

Kokoro-82M语音合成模型的FastAPI封装服务，支持CPU ONNX和GPU PyTorch推理，提供OpenAI兼容API。

Stars: ⭐️ 5.0k
Tags: TTS FastAPI ONNX Docker
最后活动时间: 2026-06-06

speech-to-speech

基于开源模型构建的本地语音代理工具，支持语音识别、合成和翻译全流程。

Stars: ⭐️ 4.9k
Tags: 语音识别 语音合成 本地部署
最后活动时间: 2026-06-11

porcupine

基于深度学习的端上唤醒词检测引擎，支持自定义唤醒词。

Stars: ⭐️ 4.9k
Tags: wake-word-detection keyword-spotting voice-activation on-device
最后活动时间: 2026-06-10

abogen

将EPUB、PDF和文本转换为有声书的开源工具，支持同步字幕和多种TTS引擎。

Stars: ⭐️ 4.8k
Tags: TTS Audiobook Kokoro
最后活动时间: 2026-05-25

WhisperSpeech

开源文本转语音系统，基于Whisper模型逆向构建。

Stars: ⭐️ 4.6k
Tags: text-to-speech speech-synthesis whisper
最后活动时间: 2025-12-14

pocket-tts

可在CPU上运行的轻量级TTS系统，适合资源受限环境。

Stars: ⭐️ 4.5k
Tags: text-to-speech tts lightweight cpu-inference
最后活动时间: 2026-05-27

ultravox

开源实时语音多模态大模型，实现低延迟的语音到语音对话交互，适用于构建智能语音助手。

Stars: ⭐️ 4.4k
Tags: Multimodal LLM Real-time Voice Speech AI
最后活动时间: 2025-12-12

pocketsphinx

轻量级语音识别引擎，适用于嵌入式设备和离线语音识别场景。

Stars: ⭐️ 4.3k
Tags: speech-recognition offline-speech lightweight-stt
最后活动时间: 2026-05-06

ace-step-ui

开源AI音乐生成专业UI界面，作为ACE-Step 1.5的前端，支持本地免费无限生成音乐。

Stars: ⭐️ 4.1k
Tags: ai ai-music music-generation local-first open-source
最后活动时间: 2026-06-04

WhisperLive

OpenAI Whisper的近实时实现，支持语音识别、翻译和听写功能。

Stars: ⭐️ 4.1k
Tags: 语音识别 Whisper 实时转录
最后活动时间: 2026-06-04

LuxTTS

高质量快速TTS语音克隆模型，推理速度可达150倍实时。

Stars: ⭐️ 4.0k
Tags: text-to-speech tts voice-cloning fast-inference
最后活动时间: 2026-03-12

SmartSub

跨平台AI字幕生成工具，支持批量处理视频音频生成字幕并翻译，集成多家AI服务。

Stars: ⭐️ 4.0k
Tags: 字幕生成 Whisper 翻译
最后活动时间: 2026-06-11

RealtimeTTS

实时文本转语音库，支持多种TTS引擎，可实现低延迟的语音合成输出。

Stars: ⭐️ 3.9k
Tags: text-to-speech speech-synthesis realtime python
最后活动时间: 2026-05-25

Qwen3-Omni

阿里云Qwen团队开发的全模态端到端大模型，支持文本、音频、图像、视频理解及实时语音生成。

Stars: ⭐️ 3.8k
Tags: Omni-Modal TTS Qwen
最后活动时间: 2026-04-23

OpenUtau

开源歌声合成平台，UTAU的现代化继任者。支持多种歌声合成引擎，提供直观的歌声编辑体验。

Stars: ⭐️ 3.8k
Tags: singing-synthesis voice-synthesis vocaloid utau open-source
最后活动时间: 2026-05-02

aubio

音频与音乐分析库，提供音符检测、音高追踪、节拍检测和MFCC特征提取功能，广泛应用于音频机器学习和音乐信息检索领域。

Stars: ⭐️ 3.7k
Tags: audio music-analysis mfcc pitch-detection onset-detection
最后活动时间: 2026-04-10

stable-audio-tools

用于条件音频生成的生成模型工具集，支持高质量音频合成与处理。

Stars: ⭐️ 3.7k
Tags: audio-generation generative-models diffusion-models
最后活动时间: 2026-02-14

auto-subs

本地 AI 字幕生成工具，支持 DaVinci Resolve 集成和说话人分离。

Stars: ⭐️ 3.6k
Tags: subtitles whisper speech-to-text transcription davinci
最后活动时间: 2026-06-10

essentia

专业的C++音频与音乐分析库，支持音乐信息检索、音频特征提取与合成，提供Python绑定接口。

Stars: ⭐️ 3.6k
Tags: audio-analysis music-information-retrieval dsp python
最后活动时间: 2026-05-20

sam-audio

Meta官方音频分割模型SAM-Audio的推理代码和预训练权重，支持音频分割任务的完整示例和Jupyter笔记本。

Stars: ⭐️ 3.5k
Tags: audio-processing segment-anything meta-ai audio-model
最后活动时间: 2026-05-26

MOSS-TTS-Nano

开源多语言轻量级语音生成模型，仅0.1B参数即可实现实时语音合成，支持CPU运行。

Stars: ⭐️ 3.5k
Tags: tts speech-synthesis multilingual realtime voice-clone
最后活动时间: 2026-06-02

Applio

简单易用的高质量语音转换工具，专注于性能优化和用户体验。

Stars: ⭐️ 3.4k
Tags: Voice Conversion RVC TTS
最后活动时间: 2026-06-11

Linly-Talker

数字人对话系统，融合大语言模型与视觉模型，集成语音识别、合成与说话人头像生成技术。

Stars: ⭐️ 3.4k
Tags: Digital Avatar Multimodal TTS
最后活动时间: 2026-02-10

speaches

基于Whisper的语音转文字服务，支持Docker部署和OpenAI API兼容接口，提供高效的音频转录能力。

Stars: ⭐️ 3.3k
Tags: Whisper Speech-to-Text Docker Transcription
最后活动时间: 2026-05-28

audioFlux

音频与音乐分析特征提取库，支持深度学习和机器学习应用，涵盖频谱分析、MFCC、音高检测等功能。

Stars: ⭐️ 3.3k
Tags: Audio Analysis Machine Learning Signal Processing
最后活动时间: 2026-03-06

TTS-WebUI

集成多种TTS模型的统一WebUI，支持GPT-SoVITS、XTTS、Bark等20+语音合成引擎。

Stars: ⭐️ 3.2k
Tags: TTS Audio Generation Gradio
最后活动时间: 2026-05-14

speakr

自托管的音频转录Web应用，支持将录音文件自动转换为文字，注重隐私保护。

Stars: ⭐️ 3.1k
Tags: transcription speech-to-text self-hosted audio
最后活动时间: 2026-05-09

stemroller

基于深度学习的音源分离工具，可从任意歌曲中提取人声、鼓点、贝斯等独立音轨。

Stars: ⭐️ 3.1k
Tags: source-separation deep-learning audio-processing demucs
最后活动时间: 2026-02-25

LiveCaptions-Translator

基于Windows LiveCaptions的轻量级实时语音翻译工具，支持音频转文字和实时翻译。

Stars: ⭐️ 3.1k
Tags: speech-to-text audio-to-text real-time-translation livecaptions
最后活动时间: 2026-04-22

willow

开源、本地自托管的智能语音助手，可作为 Amazon Echo/Google Home 的替代方案。支持 Whisper 语音识别，注重隐私保护。

Stars: ⭐️ 3.1k
Tags: voice-assistant speech-recognition whisper esp32 home-automation
最后活动时间: 2026-02-13

suno-api

Suno AI 音乐生成 API 封装，支持轻松集成到 GPTs 等 AI 智能体中。

Stars: ⭐️ 3.0k
Tags: music suno ai api typescript
最后活动时间: 2026-03-06

Bark-Voice-Cloning

基于Bark的语音克隆项目，支持中文语音合成与声音克隆功能。

Stars: ⭐️ 3.0k
Tags: Voice Cloning TTS Bark Chinese Speech
最后活动时间: 2025-12-19

delayed-streams-modeling

Kyutai开发的语音识别与合成模型框架，采用延迟流建模技术实现高质量语音转文本和文本转语音功能。

Stars: ⭐️ 2.9k
Tags: Speech-to-Text Text-to-Speech Kyutai
最后活动时间: 2026-01-26

deepjazz

基于Keras和Theano的深度学习爵士乐生成项目。

Stars: ⭐️ 2.9k
Tags: deep-learning music-generation lstm jazz
最后活动时间: 2026-03-19

lingvo

Google开源的序列建模框架，专注于语音识别、机器翻译和NLP任务，支持大规模分布式训练。

Stars: ⭐️ 2.9k
Tags: Speech Recognition Machine Translation NLP
最后活动时间: 2026-05-20

openai-fm

OpenAI Speech API 的官方演示项目，展示语音合成与识别能力的交互式示例。

Stars: ⭐️ 2.9k
Tags: openai speech-api tts demo
最后活动时间: 2026-03-03

jarvis

离线语音助手，注重隐私保护，基于Rust和Tauri构建。无需联网即可运行，适合注重隐私的用户。

Stars: ⭐️ 2.8k
Tags: voice-assistant rust offline privacy
最后活动时间: 2026-02-18

Whisper-WebUI

基于Whisper模型的字幕生成Web界面，支持轻松将音频转换为字幕文本。

Stars: ⭐️ 2.8k
Tags: whisper speech-to-text gradio subtitle
最后活动时间: 2025-12-29

Qwen3-ASR

Qwen团队开源的语音识别模型，支持多语言语音/音乐/歌曲识别及时间戳预测。

Stars: ⭐️ 2.8k
Tags: ASR Speech-Recognition Qwen
最后活动时间: 2026-01-30

Scriberr

自托管的AI音频转录工具，支持本地部署以保护数据隐私，提供高质量的语音转文字服务。

Stars: ⭐️ 2.7k
Tags: Audio Transcription Self-hosted Privacy
最后活动时间: 2026-05-12

neural-amp-modeler

神经网络吉他放大器模拟器，使用深度学习精确还原放大器音色。

Stars: ⭐️ 2.6k
Tags: neural-network audio-processing guitar-amp deep-learning
最后活动时间: 2026-05-23

NeuralAmpModelerPlugin

基于神经网络的吉他放大器建模插件，利用AI技术精准模拟真实放大器的音色特性。

Stars: ⭐️ 2.6k
Tags: Neural Network Audio Plugin
最后活动时间: 2026-04-20

DDSP-SVC

基于DDSP的实时端到端歌声转换系统，支持高质量声音克隆。

Stars: ⭐️ 2.6k
Tags: Voice Conversion DDSP Real-time
最后活动时间: 2026-02-22

AI-Video-Transcriber

开源AI视频转录与摘要工具，支持多语言视频和播客内容转录。跨平台支持，可处理YouTube、TikTok等平台视频。

Stars: ⭐️ 2.6k
Tags: transcribe ai video speech-to-text summarization
最后活动时间: 2026-04-30

asteroid

PyTorch音频源分离工具包，提供预训练模型用于语音增强和分离研究。

Stars: ⭐️ 2.6k
Tags: audio-separation speech-enhancement pytorch
最后活动时间: 2026-05-13

kokoro-onnx

基于Kokoro模型和ONNX Runtime的高效TTS推理实现。

Stars: ⭐️ 2.6k
Tags: kokoro onnxruntime tts text-to-speech
最后活动时间: 2026-01-30

pyttsx3

离线文本转语音合成库，支持多种语音引擎，无需网络连接即可运行。适用于语音助手、无障碍应用等场景。

Stars: ⭐️ 2.5k
Tags: text-to-speech tts python offline speech-synthesis
最后活动时间: 2026-05-27

alltalk_tts

基于Coqui TTS引擎的高级TTS系统，支持DeepSpeed加速、模型微调、低显存模式及JSON API调用。

Stars: ⭐️ 2.4k
Tags: tts coqui deepspeed text-to-speech voice-synthesis
最后活动时间: 2026-01-09

FluidVoice

macOS上最快的离线语音转文字应用，完全本地运行，无需联网即可实现高精度语音识别。

Stars: ⭐️ 2.4k
Tags: speech-to-text dictation offline macos voice-recognition
最后活动时间: 2026-06-12

MOSS-TTS

开源语音和声音生成模型家族，支持高保真长语音、多说话人对话、声音克隆和实时流式TTS。

Stars: ⭐️ 2.3k
Tags: TTS Voice Cloning Multimodal
最后活动时间: 2026-05-27

awesome-digital-human-live2d

数字人技术资源合集，涵盖Live2D虚拟形象、语音合成、面部动画等AI驱动的数字人相关技术与工具。

Stars: ⭐️ 2.3k
Tags: digital-human live2d avatar tts animation
最后活动时间: 2026-05-18

awesome-whisper

OpenAI Whisper语音识别模型精选资源列表，汇集工具、模型、教程和应用案例。

Stars: ⭐️ 2.3k
Tags: Whisper 语音识别 Speech-to-Text
最后活动时间: 2026-03-17

Hex

基于Whisper的macOS语音转文字应用，支持实时语音转录为文字，简洁高效的本地化语音识别工具。

Stars: ⭐️ 2.3k
Tags: whisper speech-to-text transcription macos swiftui
最后活动时间: 2026-06-04

IMS-Toucan

支持7000多种语言的快速可控文本转语音工具包，基于深度学习和PyTorch构建。

Stars: ⭐️ 2.2k
Tags: text-to-speech speech-synthesis deep-learning pytorch
最后活动时间: 2026-01-25

MMAudio

CVPR 2025接收的高质量视频到音频合成模型，通过多模态联合训练实现音视频同步生成，支持视频或文本生成音频。

Stars: ⭐️ 2.2k
Tags: Video-to-Audio Audio Synthesis Multimodal
最后活动时间: 2026-02-23

FluidAudio

基于CoreML的前沿音频模型库，支持TTS、STT、语音活动检测和说话人分离，专为iOS/macOS设计。

Stars: ⭐️ 2.2k
Tags: CoreML Speech AI iOS
最后活动时间: 2026-06-11

voice

React Native 语音识别库，支持 iOS 和 Android 平台，可在线离线使用。

Stars: ⭐️ 2.2k
Tags: speech-recognition voice-recognition react-native ios android
最后活动时间: 2026-01-31

magenta-js

浏览器端机器学习音乐与艺术生成库，支持实时音频创作和视觉艺术生成。

Stars: ⭐️ 2.1k
Tags: music-generation art-generation tensorflow-js
最后活动时间: 2026-05-19

ten-vad

高性能、低延迟的轻量级语音活动检测器，适用于实时对话AI和语音识别场景。

Stars: ⭐️ 2.1k
Tags: VAD Speech Processing Real-time
最后活动时间: 2026-02-02

epub_to_audiobook

EPUB电子书转有声书工具，支持Audiobookshelf，带WebUI界面。

Stars: ⭐️ 2.0k
Tags: audiobook tts epub openai
最后活动时间: 2026-03-24

vad

基于ONNX Runtime的高精度浏览器端语音活动检测器，提供简洁API实现实时语音识别。

Stars: ⭐️ 2.0k
Tags: voice-activity-detection silero-vad onnxruntime web-audio
最后活动时间: 2026-01-30

FireRedASR

开源工业级语音识别模型，支持普通话、方言和英语，在公开中文ASR基准上达到SOTA水平，同时具备出色的歌词识别能力。

Stars: ⭐️ 1.9k
Tags: ASR Speech Recognition LLM Multimodal
最后活动时间: 2026-02-25

SongRec

开源的Shazam客户端，使用音频指纹识别技术识别歌曲，支持Linux平台。

Stars: ⭐️ 1.8k
Tags: audio-fingerprinting shazam music-recognition rust
最后活动时间: 2026-05-27

Montreal-Forced-Aligner

基于Kaldi的强制对齐命令行工具，用于语音音频与文本的精确对齐。

Stars: ⭐️ 1.8k
Tags: forced-alignment kaldi speech acoustic-model
最后活动时间: 2026-06-11

RHVoice

免费开源的多语言语音合成引擎，支持俄语、英语、乌克兰语等多种语言，跨平台运行于Windows、Linux和Android。

Stars: ⭐️ 1.8k
Tags: TTS 语音合成 开源
最后活动时间: 2026-06-12

descript-audio-codec

最先进音频编解码器，支持90倍压缩率，适用于高质量音频生成与传输。

Stars: ⭐️ 1.8k
Tags: audio-codec deep-learning audio-compression pytorch gan
最后活动时间: 2026-01-26

parlor

本地实时多模态AI助手，支持语音和视觉对话。基于Gemma 4 E2B和Kokoro，完全在设备端运行。

Stars: ⭐️ 1.8k
Tags: multimodal voice-assistant local-llm on-device-ai text-to-speech
最后活动时间: 2026-05-16

RAVE

实时音频变分自编码器，可实现高质量音频生成与风格迁移，支持实时处理。

Stars: ⭐️ 1.7k
Tags: Audio Deep Learning Generative Model
最后活动时间: 2026-03-07

VieNeu-TTS

越南语实时文本转语音系统，支持即时语音克隆和端侧CPU实时推理，输出24kHz高质量音频。

Stars: ⭐️ 1.7k
Tags: TTS 语音克隆 端侧推理
最后活动时间: 2026-06-10

bailing

类似GPT-4o的低延迟语音对话机器人，集成DeepSeek R1等大模型，响应时延低至800ms，支持打断和低配置设备运行。

Stars: ⭐️ 1.7k
Tags: 语音助手 TTS ASR DeepSeek
最后活动时间: 2026-04-06

WhisperJAV

基于Qwen3-ASR和Whisper的日语语音识别字幕生成工具，集成TEN-VAD和本地LLM，抗噪能力强。

Stars: ⭐️ 1.7k
Tags: ASR Whisper 字幕生成 语音识别
最后活动时间: 2026-05-10

awesome-python-scientific-audio

Python音频科学研究资源精选，涵盖音频分析、处理和机器学习相关工具包。

Stars: ⭐️ 1.7k
Tags: audio python speech-processing scientific-computing
最后活动时间: 2026-06-11

read-aloud

一款优秀的浏览器扩展，一键朗读网页内容，支持多种语音引擎和语言，提升无障碍访问体验。

Stars: ⭐️ 1.7k
Tags: text-to-speech browser-extension accessibility tts
最后活动时间: 2026-05-03

voxtral.c

纯C语言实现的Mistral Voxtral Realtime 4B语音转文字模型推理引擎，专注于高性能实时语音识别。

Stars: ⭐️ 1.7k
Tags: speech-to-text inference mistral c-language
最后活动时间: 2026-02-15

subsai

基于 Whisper 的字幕生成工具，支持 Web-UI、命令行和 Python 包多种使用方式。

Stars: ⭐️ 1.7k
Tags: whisper subtitles speech-to-text video
最后活动时间: 2026-04-20

madmom

Python音频与音乐信号处理库，支持音乐信息检索。

Stars: ⭐️ 1.7k
Tags: audio-analysis signal-processing music-information-retrieval
最后活动时间: 2026-03-20

ComfyUI-Qwen-TTS

Qwen3-TTS的ComfyUI插件实现，方便在ComfyUI中使用语音合成功能。

Stars: ⭐️ 1.6k
Tags: TTS ComfyUI Qwen
最后活动时间: 2026-06-03

uLipSync

基于MFCC的Unity口型同步插件，利用Job System和Burst Compiler实现高性能音频驱动的角色口型动画，支持VRM虚拟形象。

Stars: ⭐️ 1.6k
Tags: Lip-Sync Unity VRM Audio Processing
最后活动时间: 2026-01-06

SongGeneration

LeVo高质量歌曲生成模型官方代码，采用多偏好对齐技术提升生成效果。

Stars: ⭐️ 1.6k
Tags: song-generation music-generation audio-synthesis deep-learning
最后活动时间: 2026-03-12

BirdNET-Analyzer

基于深度学习的鸟类声音识别与分析工具，可用于科学音频数据处理和生态监测。

Stars: ⭐️ 1.6k
Tags: deep-learning audio-classification bioacoustics acoustic-monitoring
最后活动时间: 2026-05-22

obs-localvocal

OBS Studio本地语音识别与字幕生成插件，基于Whisper AI实现实时语音转文字和翻译功能，支持离线运行。

Stars: ⭐️ 1.5k
Tags: 语音识别 Whisper OBS插件
最后活动时间: 2026-05-20

VibeVoice-ComfyUI

微软VibeVoice TTS模型的ComfyUI集成节点，支持高质量单/多说话人语音合成。

Stars: ⭐️ 1.5k
Tags: comfyui text-to-speech tts voice-cloning ai-audio
最后活动时间: 2026-02-18

pianotrans

ByteDance 钢琴转录工具的简洁 GUI，支持踏板检测。

Stars: ⭐️ 1.5k
Tags: ai piano transcription audio
最后活动时间: 2026-06-07

yap

基于 macOS Speech.framework 的本地语音转录命令行工具，支持设备端离线语音识别转文字。

Stars: ⭐️ 1.5k
Tags: speech-to-text macos cli transcription speech-recognition
最后活动时间: 2026-02-15

Step-Audio2

端到端多模态大语言模型，专为工业级音频理解与语音对话设计。

Stars: ⭐️ 1.5k
Tags: audio-llm multimodal speech-conversation
最后活动时间: 2026-03-16

SALMONN

字节跳动与清华联合开发的多模态大语言模型，支持音频、语音、音乐和视频理解，入选ICLR/ICML 2024。

Stars: ⭐️ 1.4k
Tags: 多模态 音频处理 视频理解
最后活动时间: 2026-05-26

video-analyzer

结合LLM、计算机视觉和语音识别的视频分析工具，支持多模态内容理解。

Stars: ⭐️ 1.4k
Tags: 视频分析 ASR 多模态
最后活动时间: 2026-04-19

OuteTTS

OuteTTS 模型的推理接口，支持 GGUF 格式和 Transformers 框架。

Stars: ⭐️ 1.4k
Tags: text-to-speech llama gguf
最后活动时间: 2026-03-23

Speech-AI-Forge

一站式语音AI平台，集成ChatTTS、CosyVoice、Fish-Speech等多种模型，提供API服务器和Gradio WebUI界面。

Stars: ⭐️ 1.4k
Tags: TTS ASR 语音合成 WebUI
最后活动时间: 2026-05-21

elevenlabs-mcp

ElevenLabs官方MCP服务器，为AI应用提供高质量的语音合成和语音克隆能力。

Stars: ⭐️ 1.4k
Tags: elevenlabs elevenlabs-api mcp tts voice-ai
最后活动时间: 2026-06-10

SoniTranslate

视频同步翻译与自动配音工具，结合ASR、TTS和翻译技术实现跨语言视频内容转换。

Stars: ⭐️ 1.4k
Tags: 视频配音 翻译 TTS ASR
最后活动时间: 2026-04-27

ThinkSound

NeurIPS 2025论文实现，基于思维链推理的多模态音频生成框架，支持文本、视频等输入生成音频。

Stars: ⭐️ 1.4k
Tags: text-to-audio video-to-audio multimodal audio-generation pytorch
最后活动时间: 2026-04-03

subgen

基于 OpenAI Whisper 模型的自动字幕生成工具，支持 Jellyfin、Plex、Emby 等媒体服务器集成。

Stars: ⭐️ 1.4k
Tags: whisper subtitle speech-to-text media-server
最后活动时间: 2026-05-09

MOSS-TTSD

支持长上下文建模、多说话人合成和零样本语音克隆的语音对话生成模型。

Stars: ⭐️ 1.4k
Tags: text-to-speech speech-synthesis voice-cloning streaming
最后活动时间: 2026-03-23

k2

可微分的FSA/FST算法库，与PyTorch兼容，专为语音识别等序列建模任务设计。

Stars: ⭐️ 1.3k
Tags: speech-recognition fst differentiable pytorch
最后活动时间: 2026-05-20

dicio-android

开源Android离线语音助手，基于Vosk实现本地语音识别与唤醒词检测，支持多种技能扩展。

Stars: ⭐️ 1.3k
Tags: 语音助手 离线STT Android Vosk
最后活动时间: 2026-04-23

wespeaker

面向研究和生产的说话人验证、识别和分割工具包。

Stars: ⭐️ 1.3k
Tags: speaker-verification speaker-recognition speaker-diarization pytorch
最后活动时间: 2026-04-10

unmute

让文本大语言模型具备听和说的能力，实现语音交互功能。为LLM添加语音输入输出接口，使其能够进行自然对话。

Stars: ⭐️ 1.3k
Tags: TTS STT Voice AI LLM
最后活动时间: 2026-06-05

Matcha-TTS

ICASSP 2024发表的快速文本转语音架构，采用条件流匹配技术实现高质量语音合成。

Stars: ⭐️ 1.3k
Tags: TTS 流匹配 语音合成
最后活动时间: 2026-05-25

whisper-ctranslate2

基于CTranslate2的Whisper语音识别命令行工具，兼容OpenAI官方客户端，提供高效的语音转文字能力。

Stars: ⭐️ 1.3k
Tags: whisper speech-recognition speech-to-text ctranslate2 openai
最后活动时间: 2026-02-14

TalkingHead

一个JavaScript类库，用于实现3D虚拟形象的实时口型同步和语音驱动动画。支持文本转语音和全身3D头像的唇形同步。

Stars: ⭐️ 1.3k
Tags: 3d-avatar lip-sync talking-avatar text-to-speech animation
最后活动时间: 2026-05-08

Chatterbox-TTS-Server

强大的TTS语音合成服务器，支持Web UI、OpenAI兼容API、声音克隆，可在NVIDIA/AMD/CPU上运行。

Stars: ⭐️ 1.3k
Tags: TTS 语音合成 声音克隆 API服务
最后活动时间: 2026-05-26

VoiceprintRecognition-Pytorch

声纹识别工具库，支持EcapaTdnn、ResNetSE、CAM++等先进模型，适用于说话人识别和验证场景。

Stars: ⭐️ 1.3k
Tags: voiceprint-recognition speaker-recognition arcface pytorch
最后活动时间: 2025-12-17

birdnet-go

实时鸟类声音识别分析系统，支持树莓派等边缘设备部署。

Stars: ⭐️ 1.3k
Tags: birdnet audio-recognition wildlife edge-ai
最后活动时间: 2026-06-12

Fun-ASR

通义实验室推出的端到端语音识别大模型，支持说话人分离等功能。

Stars: ⭐️ 1.3k
Tags: ASR Speech Recognition Audio
最后活动时间: 2026-06-12

transcribe-anything

多后端Whisper语音转文字工具，支持本地文件和URL输入，Mac ARM优化，完全私密免费。

Stars: ⭐️ 1.3k
Tags: whisper speech-to-text transcription audio
最后活动时间: 2026-03-24

soprano

即时、超逼真的文本转语音系统，提供高质量语音合成能力。

Stars: ⭐️ 1.2k
Tags: text-to-speech realistic-voice tts
最后活动时间: 2026-01-15

ASR-LLM-TTS

基于开源模型构建的语音交互系统，串联集成ASR语音识别、LLM大语言模型和TTS语音合成，实现完整的语音对话功能。

Stars: ⭐️ 1.2k
Tags: ASR LLM TTS 语音交互 Qwen
最后活动时间: 2026-06-03

speech-trident

精选语音/音频大语言模型、表示学习和编解码模型资源合集。

Stars: ⭐️ 1.2k
Tags: speech-llm audio-models codec representation-learning
最后活动时间: 2026-04-04

ekho

开源中文文本转语音引擎，支持粤语、藏语等多种中文方言。

Stars: ⭐️ 1.2k
Tags: chinese cantonese tts text-to-speech
最后活动时间: 2026-04-29

quillman

基于无服务器架构的 AI 语音聊天应用，支持语音识别和自然对话。

Stars: ⭐️ 1.2k
Tags: voice-chat speech-recognition serverless python
最后活动时间: 2026-05-28

python-audio-separator

基于预训练模型的音频分离工具，支持从音乐中提取人声、伴奏等音轨，提供命令行和Python API两种使用方式。

Stars: ⭐️ 1.2k
Tags: audio-separation stem-separation music-processing deep-learning
最后活动时间: 2026-05-18

GMTalker

由光明实验室打造的3D数字人系统，集成语音识别、语音合成、自然语言理解和嘴型动画驱动，支持多平台快速部署。

Stars: ⭐️ 1.2k
Tags: 3d-avatar digital-human speech-recognition text-to-speech lip-sync
最后活动时间: 2026-01-08

Mousai

开源歌曲识别应用，类似Shazam，可在数秒内识别正在播放的歌曲。基于GNOME/GTK的Linux桌面应用。

Stars: ⭐️ 1.2k
Tags: music-recognition shazam-like audio-fingerprinting linux gnome
最后活动时间: 2026-04-22

my-translator

实时语音翻译工具，支持macOS和Windows，本地运行无需服务器，使用用户自己的API密钥实现语音转文字和文字转语音。

Stars: ⭐️ 1.1k
Tags: speech-translation stt tts real-time tauri
最后活动时间: 2026-06-02

aTrain

离线语音转录GUI工具，支持说话人分离，基于最新机器学习模型。

Stars: ⭐️ 1.1k
Tags: speech-recognition transcription speaker-diarization
最后活动时间: 2026-05-28

lhotse

机器学习多模态数据处理工具集，专注于语音识别和音频数据处理。

Stars: ⭐️ 1.1k
Tags: audio speech-recognition pytorch deep-learning
最后活动时间: 2026-05-28

nnAudio

基于PyTorch的音频处理库，使用1D卷积网络实现高效的频谱图转换。

Stars: ⭐️ 1.1k
Tags: audio-processing spectrogram pytorch neural-network
最后活动时间: 2026-05-21

conformer

INTERSPEECH 2020论文非官方实现，卷积增强的Transformer语音识别模型，结合CNN局部建模与Transformer全局建模优势。

Stars: ⭐️ 1.1k
Tags: conformer speech-recognition asr transformer
最后活动时间: 2026-01-05

MusicRecognizer

开源Android音乐识别应用，集成AudD、ACRCloud和Shazam等多种识别服务，实现快速歌曲识别。

Stars: ⭐️ 1.1k
Tags: music-recognition shazam audd acrcloud android audio-fingerprinting
最后活动时间: 2026-05-23

faster-qwen3-tts

基于Qwen3-TTS的实时文本转语音工具，提供高效的语音合成能力。

Stars: ⭐️ 1.1k
Tags: TTS Qwen3 Real-time
最后活动时间: 2026-06-10

A-Hackers-AI-Voice-Assistant

基于 Python 和 PyTorch 构建的 AI 语音助手，适合开发者学习和定制。

Stars: ⭐️ 1.1k
Tags: voice-assistant pytorch speech-recognition python
最后活动时间: 2025-12-15

vits-simple-api

一个简洁的VITS语音合成HTTP API，支持BERT-VITS2和GPT-SoVITS等多种模型，方便快速部署TTS服务。

Stars: ⭐️ 1.0k
Tags: tts vits tts-api bert-vits2
最后活动时间: 2026-05-18

AVA-AI-Voice-Agent-for-Asterisk

集成Asterisk/FreePBX的开源AI语音智能体，使用Audiosocket/RTP技术。

Stars: ⭐️ 1.0k
Tags: voice-agent asterisk freepbx voip
最后活动时间: 2026-05-28

MiMo-Audio

音频语言模型项目，展示音频模型在少样本学习场景下的强大能力。

Stars: ⭐️ 1.0k
Tags: audio-language-model multimodal few-shot-learning
最后活动时间: 2026-03-03

ms-ra-forwarder

免费的在线文本转语音API服务，提供便捷的TTS接口。

Stars: ⭐️ 1.0k
Tags: text-to-speech tts tts-api
最后活动时间: 2026-01-21

SLAM-LLM

统一的多模态处理框架，支持语音、语言、音频和音乐处理的大语言模型集成。

Stars: ⭐️ 1.0k
Tags: audio-processing speech-processing multimodal-llm music-processing
最后活动时间: 2026-01-15

Whisperboard

开源iOS语音转文字应用，让高质量语音转录在移动设备上触手可及。基于Whisper.cpp实现，支持离线转录。

Stars: ⭐️ 1.0k
Tags: iOS 语音转录 Whisper
最后活动时间: 2025-12-18

GLM-TTS

可控情感表达的零样本TTS模型，支持多奖励强化学习优化。

Stars: ⭐️ 1.0k
Tags: tts speech-synthesis zero-shot emotion
最后活动时间: 2026-04-10

Cognitive-Speech-TTS

微软认知服务TTS API的多语言示例代码，支持自定义神经语音。

Stars: ⭐️ 1.0k
Tags: azure-tts text-to-speech speech-sdk neural-voice
最后活动时间: 2026-02-28

tada

开源语音语言模型，将语音处理与大语言模型能力相结合。

Stars: ⭐️ 991
Tags: speech-language-model audio speech llm open-source
最后活动时间: 2026-05-11

TTS-Audio-Suite

ComfyUI多引擎TTS集成节点，支持10+主流语音合成引擎，提供角色配音和时间轴功能。

Stars: ⭐️ 974
Tags: TTS ComfyUI Voice Cloning Audio Generation
最后活动时间: 2026-06-12

Fun-Audio-Chat

大型音频语言模型，专为自然、低延迟的语音交互而设计，支持流畅的实时对话体验。

Stars: ⭐️ 966
Tags: audio-language-model voice-interaction speech-ai low-latency
最后活动时间: 2026-02-27

voquill

开源的语音听写工具，WisprFlow的免费替代方案。支持本地AI语音转文字，基于Whisper技术构建。

Stars: ⭐️ 960
Tags: speech-to-text whisper local-ai dictation
最后活动时间: 2026-06-05

kapre

Keras音频预处理库，提供可GPU加速的声谱图计算层。

Stars: ⭐️ 946
Tags: audio-processing keras spectrogram
最后活动时间: 2026-05-17

Step-Audio-EditX

30亿参数的LLM音频编辑模型，支持情感、风格编辑及零样本语音合成。

Stars: ⭐️ 929
Tags: audio-editing tts voice-cloning reinforcement-learning
最后活动时间: 2026-04-09

Irodori-TTS

基于Flow Matching的文本转语音模型，支持Emoji表情驱动的风格控制，实现富有表现力的语音合成。

Stars: ⭐️ 929
Tags: text-to-speech tts flow-matching voice-cloning speech-synthesis
最后活动时间: 2026-06-04

parakeet-mlx

Nvidia Parakeet语音模型的Apple Silicon优化实现，基于MLX框架提供高效语音识别。

Stars: ⭐️ 926
Tags: parakeet mlx speech-recognition apple-silicon
最后活动时间: 2026-02-21

whisper.net

基于Whisper模型的.NET语音识别库，支持跨平台语音转文字和翻译功能，简单易用。

Stars: ⭐️ 919
Tags: speech-recognition speech-to-text whisper dotnet
最后活动时间: 2026-05-28

sokuji

实时语音翻译工具，支持本地 AI 和多种云端服务商，提供 Chrome 扩展和桌面应用。

Stars: ⭐️ 898
Tags: Translation Speech-to-Speech Real-time
最后活动时间: 2026-05-31

inaSpeechSegmenter

基于CNN的音频分割工具包，可检测语音、音乐、噪声和说话人性别。

Stars: ⭐️ 894
Tags: audio-segmentation speech-detection gender-classification cnn
最后活动时间: 2026-03-12

ccextractor

强大的字幕提取工具，支持从视频流中提取隐藏字幕，集成OCR技术识别图像字幕。

Stars: ⭐️ 889
Tags: 字幕提取 OCR 视频处理
最后活动时间: 2026-05-31

MidiTok

为深度学习模型设计的MIDI/符号音乐标记器，支持音乐生成与信息检索任务。

Stars: ⭐️ 877
Tags: deep-learning midi music-generation tokenization
最后活动时间: 2026-06-08

Easy-Voice-Toolkit

用户友好的音频工具包，支持语音识别、转录、转换等多种功能，简化音频处理流程。

Stars: ⭐️ 876
Tags: 语音识别 TTS 音频处理
最后活动时间: 2026-05-25

PPASR

基于PaddlePaddle的端到端中文语音识别项目，支持DeepSpeech2、Conformer等主流模型，提供完整教程。

Stars: ⭐️ 875
Tags: 中文ASR PaddlePaddle Conformer
最后活动时间: 2025-12-17

TypeNo

一款免费开源、隐私优先的macOS语音输入应用，支持本地语音转文字功能。

Stars: ⭐️ 871
Tags: speech-to-text macos privacy voice-input swift
最后活动时间: 2026-05-26

speech-swift

专为 Apple Silicon 设计的 AI 语音工具包，支持语音识别、语音合成、语音增强和说话人分离等功能。

Stars: ⭐️ 868
Tags: speech-recognition text-to-speech apple-silicon mlx coreml
最后活动时间: 2026-06-09

TangoFlux

基于Flow Matching的超快速文本转音频生成模型，ICLR 2026论文项目。

Stars: ⭐️ 866
Tags: text-to-audio flow-matching generative-ai audio-synthesis
最后活动时间: 2026-01-28

murmure

完全本地化、隐私优先的跨平台语音转文字工具，集成LLM后处理功能。

Stars: ⭐️ 862
Tags: Speech-to-Text Privacy Local AI
最后活动时间: 2026-06-11

local-talking-llm

完全离线运行的语音对话LLM应用，集成语音识别与语音合成功能，无需联网即可使用。

Stars: ⭐️ 862
Tags: speech-recognition speech-synthesis local-llm chatbot
最后活动时间: 2026-04-04

micro-wake-word

基于TensorFlow的唤醒词检测训练框架，支持合成样本生成，适用于微控制器部署。

Stars: ⭐️ 859
Tags: wake-word keyword-spotting tensorflow embedded-ai audio
最后活动时间: 2025-12-21

subvert

视频字幕生成工具，秒级生成字幕、摘要和章节标记。结合ChatGPT和Whisper，自动化视频内容处理流程。

Stars: ⭐️ 856
Tags: 字幕生成 视频处理 Whisper
最后活动时间: 2026-05-15

offline-translator

基于Firefox翻译模型的Android离线翻译工具，支持设备端本地翻译，无需网络连接。

Stars: ⭐️ 852
Tags: translation android offline machine-translation
最后活动时间: 2026-05-28

auditok

音频活动检测与分割工具，支持语音活动检测(VAD)，是语音识别预处理的重要组件。

Stars: ⭐️ 849
Tags: audio vad voice-activity-detection audio-segmentation
最后活动时间: 2026-05-14

whoBIRD

基于BirdNET的Android实时鸟类声音识别应用，支持全球6000+种鸟类的声音识别。

Stars: ⭐️ 844
Tags: audio-recognition birdnet android real-time
最后活动时间: 2026-05-09

pdf-to-podcast

将PDF文档转换为AI生成的播客音频，基于NVIDIA NIM构建，支持随时随地收听文档内容。

Stars: ⭐️ 843
Tags: PDF TTS 播客 音频生成
最后活动时间: 2026-05-04

BS-RoFormer

Band Split Roformer实现，ByteDance AI Labs的SOTA音乐源分离注意力网络。

Stars: ⭐️ 842
Tags: music-source-separation transformers attention pytorch
最后活动时间: 2026-02-01

CTCDecoder

CTC解码算法Python实现，包含beam search、lexicon search、prefix search等多种解码策略。

Stars: ⭐️ 836
Tags: ctc speech-recognition handwriting-recognition beam-search decoder
最后活动时间: 2026-01-31

violin

开源视频翻译技能，集成ASR语音识别与配音功能，支持多语言视频内容转换。

Stars: ⭐️ 836
Tags: video-translation asr dubbing agent-skills
最后活动时间: 2026-05-19

TheWhisper

优化版Whisper模型，专为流式和端设备语音识别设计，支持多平台硬件加速。

Stars: ⭐️ 828
Tags: whisper speech-recognition streaming on-device-ai
最后活动时间: 2026-04-23

opensmile

慕尼黑开源大规模多媒体特征提取工具，广泛用于语音识别、情感计算等音频机器学习任务。

Stars: ⭐️ 819
Tags: audio feature-extraction speech-processing
最后活动时间: 2026-01-26

voxtype

基于Whisper的Wayland语音转文字工具，支持按键说话和离线语音识别。

Stars: ⭐️ 803
Tags: speech-to-text whisper wayland rust offline
最后活动时间: 2026-05-28

GLM-ASR

开源鲁棒性语音识别模型，15亿参数，支持边缘设备部署。

Stars: ⭐️ 799
Tags: asr speech-recognition speech-to-text on-device
最后活动时间: 2026-03-06

voxtral-mini-realtime-rs

基于Rust和Burn ML框架实现的Mistral Voxtral Mini 4B实时语音识别模型，支持本地运行和浏览器WASM部署。

Stars: ⭐️ 792
Tags: speech-recognition rust mistral asr wasm realtime
最后活动时间: 2026-04-02

lobe-tts

高质量文本转语音与语音识别库，同时支持服务端和浏览器端，提供统一 API 接口。

Stars: ⭐️ 790
Tags: TTS STT Speech Recognition React
最后活动时间: 2026-03-02

TTS-Voice-Wizard

强大的语音转换工具，支持语音识别、TTS和实时翻译，可集成VRChat虚拟形象显示，适合VTuber使用。

Stars: ⭐️ 788
Tags: TTS STT VRChat VTuber
最后活动时间: 2026-05-28

Kokoros

基于Kokoro模型的Rust高性能TTS实现，提供极速、高质量的实时语音合成能力。

Stars: ⭐️ 785
Tags: TTS Rust 语音合成
最后活动时间: 2026-06-01

translate

实时手语翻译工具，利用计算机视觉技术实现无障碍沟通，支持Android、iOS和Web多平台。

Stars: ⭐️ 764
Tags: sign-language sign-language-recognition computer-vision translation
最后活动时间: 2026-03-18

AlphaAvatar

基于LiveKit的实时交互式全能虚拟化身平台，支持无缝集成各类开源虚拟角色组件，包括实时模型、视觉、语音、记忆和搜索功能。

Stars: ⭐️ 761
Tags: Avatar Real-time LiveKit
最后活动时间: 2026-05-28

PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的中文语音识别系统，支持DeepSpeech2模型，可在Windows、Linux及Jetson上运行。

Stars: ⭐️ 761
Tags: speech-recognition asr paddlepaddle deepspeech speech-to-text
最后活动时间: 2025-12-17

whisper-flow

基于OpenAI Whisper的实时音频转录框架，支持流式音频处理和增量转录输出。

Stars: ⭐️ 752
Tags: speech-to-text whisper real-time transcription
最后活动时间: 2026-04-20

vocotype-cli

本地端侧隐私安全语音输入工具，支持语音实时转文字、MCP集成、AI文本优化及自定义词典功能。

Stars: ⭐️ 748
Tags: asr speech-to-text voice-input mcp funasr
最后活动时间: 2026-05-16

dla

音频深度学习综合工具库，涵盖语音识别、说话人验证、语音合成等多种音频处理任务。

Stars: ⭐️ 747
Tags: Deep Learning Speech Recognition TTS Voice Conversion
最后活动时间: 2025-12-15

fish-diffusion

易于理解的 TTS/SVS/SVC 统一框架，基于扩散模型实现语音合成与转换。

Stars: ⭐️ 745
Tags: diffusion tts voice-conversion pytorch
最后活动时间: 2026-06-01

sgmse

基于扩散模型的语音增强与去混响工具，利用分数生成模型实现高质量语音处理。

Stars: ⭐️ 740
Tags: Diffusion 语音增强 音频处理
最后活动时间: 2026-02-01

audio-dataset

用于训练CLAP等音频-语言多模态模型的大规模音频数据集。

Stars: ⭐️ 739
Tags: audio dataset clap multimodal
最后活动时间: 2026-01-08

ttsfm

镜像OpenAI TTS服务的开源实现，提供兼容的文本转语音接口，支持多种语音选项。

Stars: ⭐️ 727
Tags: tts openai-api text-to-speech self-hosted
最后活动时间: 2026-05-20

tts

Inworld TTS 语音合成引擎，提供高质量文本转语音服务。

Stars: ⭐️ 725
Tags: tts text-to-speech voice-synthesis
最后活动时间: 2026-04-14

MASR

流式与非流式自动语音识别框架，支持Conformer、Squeezeformer等模型，兼容在线和离线识别场景。

Stars: ⭐️ 723
Tags: asr speech-recognition conformer streaming
最后活动时间: 2025-12-17

Thorsten-Voice

高质量德语 TTS 语音数据集，免费离线使用，无许可证限制。

Stars: ⭐️ 720
Tags: german-tts speech-dataset open-source
最后活动时间: 2026-05-03

ZerolanLiveRobot

集成LLM、ASR、TTS、OCR、CV等技术的AI虚拟主播，支持直播和Minecraft互动。

Stars: ⭐️ 714
Tags: ai-vtuber llm tts asr multimodal
最后活动时间: 2026-04-14

ComfyUI-Index-TTS

ComfyUI 的 IndexTTS 自定义节点，支持中英文文本转语音和声音克隆。

Stars: ⭐️ 704
Tags: comfyui index-tts voice-cloning
最后活动时间: 2026-04-14

rhino

基于深度学习的端上语音意图识别引擎，用于语音助手和命令控制。

Stars: ⭐️ 701
Tags: speech-recognition nlu voice-assistant intent-recognition on-device
最后活动时间: 2026-05-28

vui

1亿参数轻量级对话式 TTS 模型，支持呼吸声、笑声、多说话人对话、声音克隆和流式推理。

Stars: ⭐️ 700
Tags: lightweight-tts llama voice-cloning on-device
最后活动时间: 2026-06-12

CloneTTS

轻量级离线Android TTS引擎，支持系统级语音克隆和高保真朗读。

Stars: ⭐️ 690
Tags: text-to-speech voice-cloning android offline-tts
最后活动时间: 2026-05-18

SoulX-Singer

零样本歌唱语音合成项目，支持高质量歌声生成与推理。

Stars: ⭐️ 684
Tags: singing-voice-synthesis zero-shot audio-generation tts
最后活动时间: 2026-04-13

alexandria-audiobook

AI驱动的多语音有声书生成器，支持LLM脚本标注、语音克隆、LoRA训练，基于Qwen3-TTS构建，可导出MP3、M4B等多格式。

Stars: ⭐️ 677
Tags: audiobook-generator text-to-speech voice-cloning tts ai
最后活动时间: 2026-06-04

whisper_android

基于OpenAI Whisper的Android离线语音识别方案，使用TensorFlow Lite实现本地化部署，无需网络即可运行。

Stars: ⭐️ 668
Tags: 语音识别 Android 离线推理
最后活动时间: 2026-03-18

BiBi-Keyboard

基于Kotlin的Android语音输入法键盘，集成LLM与ASR语音识别，支持智能语音输入。

Stars: ⭐️ 666
Tags: Android ASR Keyboard Speech-to-Text
最后活动时间: 2026-06-11

voice-ai

端到端语音AI编排平台，支持构建实时对话语音智能体，集成STT、TTS、VAD和多通道能力。

Stars: ⭐️ 664
Tags: Voice AI STT/TTS Voice Agents Real-time Audio
最后活动时间: 2026-06-11

cheetah

基于深度学习的端上流式语音转文字引擎，支持实时转录。

Stars: ⭐️ 663
Tags: speech-recognition asr speech-to-text on-device streaming
最后活动时间: 2026-05-28

LLaSA_training

基于LLaMA的语音合成模型，通过扩展训练与推理计算提升效果。

Stars: ⭐️ 660
Tags: text-to-speech llama llm speech-synthesis
最后活动时间: 2026-01-21

openlrc

使用Whisper和LLM进行语音转录与翻译，自动生成LRC字幕文件。

Stars: ⭐️ 658
Tags: Whisper Transcription Subtitle
最后活动时间: 2026-05-25

hear

undefined

Stars: ⭐️ 657
Tags: speech-recognition transcription macos cli
最后活动时间: 2026-05-19

mlx-audio-swift

基于Apple Silicon的模块化Swift音频处理SDK，支持语音识别、语音合成和端到端语音处理。

Stars: ⭐️ 634
Tags: mlx speech-to-text text-to-speech swift apple-silicon
最后活动时间: 2026-05-19

tts

基于Go语言开发的文本转语音(TTS)服务，提供语音合成能力。

Stars: ⭐️ 625
Tags: tts go speech-synthesis
最后活动时间: 2026-04-28

expo-speech-recognition

React Native Expo 语音识别库，支持语音转文字功能，适用于移动端语音交互应用开发。

Stars: ⭐️ 620
Tags: speech-recognition speech-to-text react-native expo voice-recognition
最后活动时间: 2026-05-17

chatterbox-tts-api

本地OpenAI兼容的文本转语音API，支持语音克隆，可无缝集成到各类AI应用中。

Stars: ⭐️ 613
Tags: TTS Voice Clone OpenAI API
最后活动时间: 2025-12-23

aiavatarkit

快速构建 AI 驱动的对话虚拟形象工具包。

Stars: ⭐️ 612
Tags: ai-avatar chatgpt voicevox vrchat
最后活动时间: 2026-05-23

WenetSpeech

超万小时大规模中文语音识别数据集，涵盖多种场景和说话人，适用于中文语音识别模型训练。

Stars: ⭐️ 612
Tags: speech-recognition chinese asr dataset
最后活动时间: 2026-01-09

AudioClassification-Pytorch

PyTorch音频分类工具，支持EcapaTdnn、PANNS、TDNN等多种模型，适用于环境声音识别和语音分类。

Stars: ⭐️ 597
Tags: audio-classification panns ecapa-tdnn sound-recognition
最后活动时间: 2025-12-17

MimikaStudio

macOS本地优先应用，集成MCP智能体支持、TTS语音合成与声音克隆功能。

Stars: ⭐️ 585
Tags: tts voice-cloning mcp qwen agent
最后活动时间: 2026-04-01

room-impulse-responses

房间冲激响应数据集汇总，提供公开数据集列表及下载脚本，适用于语音识别、声学模拟等音频AI研究。

Stars: ⭐️ 583
Tags: acoustics room-impulse-response speech audio-dataset
最后活动时间: 2026-05-11

CTCWordBeamSearch

带字典和语言模型的CTC解码器，专为手写文字识别和语音识别任务优化。

Stars: ⭐️ 577
Tags: ctc speech-recognition handwriting-recognition language-model decoder
最后活动时间: 2026-01-31

Pandrator

将PDF、EPUB转换为有声书，支持视频配音和翻译。使用本地模型XTTS实现语音克隆，提供友好的GUI界面。

Stars: ⭐️ 570
Tags: text-to-speech voice-cloning audiobook xtts llm
最后活动时间: 2026-06-11

offmute

利用LLM实现会议转录和说话人分离的实验性工具，探索纯LLM进行音频处理的可行性。

Stars: ⭐️ 567
Tags: transcription diarization llm meeting
最后活动时间: 2026-04-08

Qwen3-Audiobook-Converter

基于Qwen3 TTS语音模型的有声书转换工具，支持PDF、EPUB、DOCX等多种格式转换为高质量有声书。

Stars: ⭐️ 564
Tags: tts audiobook qwen3 voice-synthesis document-converter
最后活动时间: 2026-04-07

qwen-asr

基于C语言实现的Qwen3-ASR语音识别模型推理引擎，支持0.6B和1.7B参数量的转录模型，提供高效轻量的本地部署方案。

Stars: ⭐️ 554
Tags: asr speech-recognition qwen c-inference transcription
最后活动时间: 2026-02-17

GigaAM

强大的语音识别基础模型，支持语音识别、情感识别等任务，采用自监督学习方法训练。

Stars: ⭐️ 552
Tags: speech-recognition foundation-models self-supervised-learning emotion-recognition
最后活动时间: 2026-04-15

SenseVoice.cpp

FunASR SenseVoice语音识别模型的C/C++移植版本，提供高效的本地语音转文字能力。

Stars: ⭐️ 549
Tags: speech-recognition asr funasr cpp
最后活动时间: 2025-12-19

spleeter-web

可自托管的Web应用，用于分离歌曲中的人声、伴奏、贝斯和鼓声。支持Spleeter、Demucs、BS-RoFormer等多种AI分离模型。

Stars: ⭐️ 546
Tags: source-separation vocal-remover spleeter demucs audio-processing
最后活动时间: 2026-05-28

FireRedASR2S

工业级全功能ASR语音识别系统，支持ASR、VAD、语言识别和标点预测，覆盖中文方言、英文及代码切换场景。

Stars: ⭐️ 544
Tags: asr speech-recognition vad multimodal llm
最后活动时间: 2026-06-02

easy-whisper-ui

Whisper 语音识别模型的易用图形界面，针对各类 GPU 进行优化。

Stars: ⭐️ 539
Tags: whisper speech-recognition transcription gpu
最后活动时间: 2026-02-15

FlashLabs-Chroma

首个开源的实时端到端语音对话模型，支持个性化声音克隆。

Stars: ⭐️ 536
Tags: speech-to-speech voice-cloning real-time-audio
最后活动时间: 2026-04-17

pindrop

一款原生 macOS 菜单栏听写应用，使用 WhisperKit 实现本地语音转文字，保护隐私的同时提供高质量的语音识别体验。

Stars: ⭐️ 536
Tags: speech-to-text whisperkit macos dictation local-ai
最后活动时间: 2026-04-21

CleanS2S

单文件实现的流式全双工语音交互智能体，支持高质量实时语音对话。

Stars: ⭐️ 527
Tags: speech-to-speech streaming gpt-4o
最后活动时间: 2026-04-07

muesli

macOS本地会议转录与听写工具，可作为Granola和WisprFlow的替代方案。支持实时语音转文字，保护隐私的离线处理。

Stars: ⭐️ 521
Tags: speech-to-text transcription macos dictation local-ai
最后活动时间: 2026-05-27

e2-tts-pytorch

E2-TTS的PyTorch实现，一种简单高效的零样本文本转语音模型。

Stars: ⭐️ 517
Tags: text-to-speech deep-learning pytorch tts
最后活动时间: 2025-12-20

muspy

符号音乐生成工具包，支持音乐信息检索和机器学习驱动的音乐创作。

Stars: ⭐️ 516
Tags: Music Generation Symbolic Music Python
最后活动时间: 2026-03-11

knn-vc

基于最近邻匹配的语音转换方法，无需训练即可实现任意说话人之间的声音转换。

Stars: ⭐️ 516
Tags: voice-conversion speech-synthesis knn pytorch
最后活动时间: 2026-01-16

MiraTTS

高质量快速 TTS 语音合成仓库，提供高效的文本转语音解决方案。

Stars: ⭐️ 512
Tags: tts text-to-speech voice-synthesis
最后活动时间: 2025-12-22

subaligner

基于深度神经网络和Transformer的字幕自动同步、翻译与转录工具，支持多种字幕格式和语音活动检测。

Stars: ⭐️ 504
Tags: subtitle transcription transformers voice-activity-detection dnn
最后活动时间: 2026-03-17

Mediapipe4u-plugin

Unreal Engine的MediaPipe插件，支持面部、手部、姿态追踪及TTS功能。

Stars: ⭐️ 504
Tags: mediapipe motion-capture tts unreal-engine
最后活动时间: 2025-12-29

aspeak

Azure TTS API 的简洁命令行客户端，支持高质量语音合成。可快速将文本转换为自然流畅的语音输出。

Stars: ⭐️ 500
Tags: text-to-speech tts azure-cognitive-services cli
最后活动时间: 2026-04-23

whisper

语音笔记应用，支持语音录制并利用AI进行智能转换和处理。

Stars: ⭐️ 500
Tags: speech-to-text voice-notes ai-assistant productivity
最后活动时间: 2026-05-23

Image Generation

stable-diffusion-webui

最受欢迎的Stable Diffusion Web UI，提供完整的图像生成界面。支持文生图、图生图、图像放大等多种功能。

Stars: ⭐️ 163.6k
Tags: stable-diffusion image-generation gradio ai-art
最后活动时间: 2026-03-02

ComfyUI

最强大的模块化扩散模型GUI工具，基于节点的工作流界面，灵活构建复杂图像生成流程。

Stars: ⭐️ 116.7k
Tags: Stable-Diffusion GUI Image-Generation
最后活动时间: 2026-06-12

tesseract

开源OCR引擎，使用LSTM神经网络进行光学字符识别，支持多种语言。

Stars: ⭐️ 74.6k
Tags: ocr machine-learning lstm tesseract
最后活动时间: 2026-06-04

upscayl

免费开源的AI图像放大工具，基于ESRGAN模型实现高质量图像超分辨率重建，支持跨平台使用。

Stars: ⭐️ 46.0k
Tags: AI图像放大 ESRGAN 开源工具
最后活动时间: 2026-05-15

diffusers

Hugging Face推出的扩散模型库，支持图像、视频和音频生成，是生成式AI领域的核心工具。

Stars: ⭐️ 33.8k
Tags: Diffusion PyTorch HuggingFace
最后活动时间: 2026-06-12

insightface

业界领先的2D/3D人脸分析项目，支持人脸检测、识别、属性分析等任务。

Stars: ⭐️ 29.0k
Tags: face-recognition face-detection pytorch
最后活动时间: 2026-05-23

facefusion

业界领先的人脸处理平台，支持换脸、对口型等多种AI面部操作功能。

Stars: ⭐️ 28.8k
Tags: 人脸处理 换脸 深度学习
最后活动时间: 2026-06-11

InvokeAI

领先的Stable Diffusion创意引擎，提供专业级WebUI界面。支持txt2img、img2img、inpainting等多种图像生成与编辑功能。

Stars: ⭐️ 27.4k
Tags: Stable Diffusion 图像生成 AI艺术
最后活动时间: 2026-06-12

generative-models

Stability AI官方生成模型库，包含Stable Diffusion等先进图像生成模型的实现。

Stars: ⭐️ 27.2k
Tags: stable-diffusion generative-models diffusion
最后活动时间: 2025-12-16

rembg

基于深度学习的图像背景移除工具，支持多种AI模型快速精准去除图片背景。

Stars: ⭐️ 23.3k
Tags: 背景移除 图像处理 计算机视觉
最后活动时间: 2026-06-03

DeepSeek-OCR

DeepSeek推出的光学字符识别(OCR)工具，支持上下文感知的文档压缩与识别。

Stars: ⭐️ 23.2k
Tags: ocr deepseek computer-vision document-processing
最后活动时间: 2026-01-27

deepface

轻量级人脸分析库，支持年龄、性别、情绪等多属性识别。

Stars: ⭐️ 22.9k
Tags: face-recognition deep-learning face-analysis python
最后活动时间: 2026-06-10

Awesome-Nano-Banana-images

基于Gemini-2.5-flash-image模型的图像生成示例集合，展示Nano Banana系列模型的创意生成能力，并开源Nano-consistent-150K数据集支持社区开发。

Stars: ⭐️ 22.9k
Tags: image-generation gemini multimodal generative-art
最后活动时间: 2025-12-12

blender-mcp

MCP服务器，实现AI与Blender 3D建模软件的集成控制。

Stars: ⭐️ 22.1k
Tags: mcp blender 3d creative-tools
最后活动时间: 2026-01-23

surya

支持90+语言的OCR工具，提供版面分析、阅读顺序识别和表格识别功能。

Stars: ⭐️ 19.8k
Tags: ocr layout-analysis table-recognition multilingual
最后活动时间: 2026-05-27

Qwen3-VL

阿里云Qwen团队开发的多模态大语言模型系列，支持图像理解与视觉语言任务。

Stars: ⭐️ 19.3k
Tags: Multimodal Vision-Language Qwen
最后活动时间: 2026-01-30

sam2

Meta第二代图像分割模型，支持图像和视频的实时分割，性能显著提升。

Stars: ⭐️ 19.2k
Tags: segmentation video-segmentation computer-vision meta
最后活动时间: 2026-05-27

Open-Generative-AI

开源AI图像生成与视频创作工作室，支持Flux、SDXL、Midjourney等20+模型，可自托管部署。

Stars: ⭐️ 18.9k
Tags: ai-image-generation ai-video-generation generative-ai flux-1 text-to-video
最后活动时间: 2026-06-11

instant-ngp

NVIDIA开源的即时神经图形原语库，实现超快速NeRF三维重建与渲染。

Stars: ⭐️ 17.4k
Tags: nerf computer-vision 3d-reconstruction
最后活动时间: 2026-02-02

awesome-gpt-image-2-API-and-Prompts

GPT-Image-2 API 和提示词资源合集，涵盖图像生成、图像到图像转换等功能，帮助开发者快速上手 OpenAI 图像生成技术。

Stars: ⭐️ 16.6k
Tags: gpt-image-2 image-generation openai prompts text-to-image
最后活动时间: 2026-06-10

Waifu2x-Extension-GUI

强大的AI图像视频超分辨率工具，集成多种AI模型，支持图片/视频放大与帧插值。

Stars: ⭐️ 16.4k
Tags: 超分辨率 图像放大 视频处理
最后活动时间: 2026-04-19

engine

强大的Web图形运行时，支持WebGL、WebGPU、WebXR和3D高斯泼溅神经渲染技术。

Stars: ⭐️ 16.0k
Tags: 3d-gaussian-splatting webgl webgpu game-engine
最后活动时间: 2026-06-12

ddddocr

通用验证码识别OCR工具，支持多种验证码类型的自动识别。

Stars: ⭐️ 14.2k
Tags: ocr captcha python
最后活动时间: 2026-03-10

open_clip

OpenAI CLIP模型的开源实现，支持多模态对比学习和零样本分类任务。

Stars: ⭐️ 13.9k
Tags: clip multi-modal zero-shot pytorch
最后活动时间: 2026-06-11

Pillow

Python图像处理库，支持多种图像格式操作。是AI图像处理和计算机视觉任务的基础依赖库。

Stars: ⭐️ 13.6k
Tags: image-processing python pil
最后活动时间: 2026-06-09

vggt

CVPR 2025最佳论文奖获奖项目，视觉几何基础Transformer，在3D视觉理解与几何推理方面取得突破性进展。

Stars: ⭐️ 13.2k
Tags: computer-vision transformer 3d-reconstruction cvpr2025
最后活动时间: 2026-05-19

ImageToolbox

功能强大的Android图像处理应用，集成AI背景移除、OCR文字识别、图像放大等智能功能。

Stars: ⭐️ 13.1k
Tags: 图像处理 OCR 背景移除
最后活动时间: 2026-06-11

Meshroom

基于节点的视觉编程工具箱，用于3D重建和摄影测量，支持计算机视觉工作流自动化。

Stars: ⭐️ 12.8k
Tags: Computer Vision 3D Reconstruction Photogrammetry
最后活动时间: 2026-06-11

chineseocr_lite

超轻量级中文OCR识别引擎，支持竖排文字，总模型仅4.7M，支持多种推理框架。

Stars: ⭐️ 12.3k
Tags: ocr ncnn pytorch chinese
最后活动时间: 2026-05-18

DiffSynth-Studio

一站式扩散模型创作工作室，支持图像生成、视频合成等多种AI生成任务，轻松体验扩散模型的魔力。

Stars: ⭐️ 12.3k
Tags: 扩散模型 图像生成 视频合成
最后活动时间: 2026-04-24

colmap

经典的运动恢复结构与多视图立体视觉系统，用于3D重建与视觉计算研究。

Stars: ⭐️ 11.9k
Tags: structure-from-motion multi-view-stereo 3d-reconstruction computer-vision
最后活动时间: 2026-06-11

chandra

强大的OCR模型，支持复杂表格、表单和手写内容的完整版面识别。

Stars: ⭐️ 11.2k
Tags: ocr document-processing handwriting-recognition
最后活动时间: 2026-04-22

denoising-diffusion-pytorch

去噪扩散概率模型的PyTorch实现，生成模型领域核心算法库。简洁易用的扩散模型训练框架。

Stars: ⭐️ 10.6k
Tags: diffusion-models generative-model pytorch
最后活动时间: 2026-02-11

openFrameworks

跨平台创意编程工具包，支持图形、音频、计算机视觉等多媒体应用开发。

Stars: ⭐️ 10.4k
Tags: creative-coding computer-vision opencv cpp
最后活动时间: 2026-05-28

easydiffusion

一键式AI艺术创作工具，无需技术背景即可在本地生成精美图像。提供简洁的浏览器界面，支持文本生成图像。

Stars: ⭐️ 10.4k
Tags: Stable Diffusion Image Generation GUI
最后活动时间: 2026-06-12

sam3

Meta Segment Anything Model 3 (SAM 3) 的官方仓库，提供模型推理、微调代码及预训练权重下载，支持图像分割任务。

Stars: ⭐️ 10.2k
Tags: segment-anything image-segmentation computer-vision meta-ai sam
最后活动时间: 2026-05-23

krita-ai-diffusion

Krita图像编辑器的AI扩散插件，支持文生图、内补和外补功能。

Stars: ⭐️ 10.2k
Tags: stable-diffusion krita-plugin image-generation generative-ai
最后活动时间: 2026-06-08

manga-image-translator

基于深度学习的漫画/图片文字翻译工具，集成OCR文字检测、机器翻译和图像修复功能，支持一键翻译各类图片内文字。

Stars: ⭐️ 10.0k
Tags: ocr machine-translation image-processing inpainting neural-network
最后活动时间: 2026-05-24

moondream

轻量级视觉语言模型，专为边缘设备优化的多模态AI解决方案。

Stars: ⭐️ 9.7k
Tags: vision-language-model tiny-llm multimodal edge-ai
最后活动时间: 2026-04-20

supersplat

基于浏览器的3D高斯泼溅编辑器，支持编辑AI生成的3D场景重建结果。

Stars: ⭐️ 9.1k
Tags: gaussian-splatting 3d webgpu editor
最后活动时间: 2026-06-04

awesome-3D-gaussian-splatting

3D高斯泼溅技术资源精选，涵盖神经渲染、NeRF相关的前沿论文与实现，是3D视觉与AI交叉领域的热门方向。

Stars: ⭐️ 8.7k
Tags: 3d-gaussian-splatting nerf neural-rendering computer-vision
最后活动时间: 2026-06-10

nnUNet

医学图像分割领域的顶级深度学习框架，自动配置网络架构和预处理流程，在多个医学分割挑战中取得SOTA成绩。

Stars: ⭐️ 8.5k
Tags: medical-imaging segmentation deep-learning
最后活动时间: 2026-06-07

ml-sharp

快速单目视图合成技术，可在不到一秒内生成高质量的新视角图像。

Stars: ⭐️ 8.4k
Tags: computer-vision view-synthesis monocular deep-learning
最后活动时间: 2025-12-19

TRELLIS.2

用于3D内容生成的原生紧凑结构化潜变量模型，支持高质量3D资产生成与编辑。

Stars: ⭐️ 8.3k
Tags: 3d-generation latent-models image-generation deep-learning
最后活动时间: 2026-06-05

MONAI

医疗影像AI工具包，基于PyTorch提供高性能GPU加速的医学图像计算框架。

Stars: ⭐️ 8.3k
Tags: deep-learning healthcare-imaging medical-imaging pytorch
最后活动时间: 2026-06-11

Sana

基于线性扩散Transformer的高效高分辨率图像合成模型，支持文本到图像生成。

Stars: ⭐️ 8.2k
Tags: 文生图 扩散模型 Transformer
最后活动时间: 2026-06-10

imaginAIry

Pythonic AI图像和视频生成工具，提供简洁的Python接口进行AI内容创作。

Stars: ⭐️ 8.2k
Tags: ai-image-generation ai-video python
最后活动时间: 2026-02-24

backgroundremover

基于AI的背景移除工具，支持图片和视频背景一键去除，提供简洁的命令行界面，免费开源。

Stars: ⭐️ 7.9k
Tags: AI Background Removal Image Processing Video Editing
最后活动时间: 2026-06-09

face-alignment

基于PyTorch构建的2D和3D人脸对齐库，支持人脸检测与关键点定位，适用于人脸识别预处理。

Stars: ⭐️ 7.5k
Tags: face-alignment face-detection deep-learning pytorch
最后活动时间: 2026-04-06

awesome-gpt-image-2

全球最大的 GPT Image 2 提示词库，包含 2000+ 精选提示词和预览图，支持 16 种语言，涵盖像素级文本渲染和商业级插画。

Stars: ⭐️ 7.4k
Tags: gpt-image-2 ai-image-generation prompt-engineering openai
最后活动时间: 2026-06-12

ccv

基于C语言的高性能计算机视觉库，提供现代化的CV功能实现，无外部依赖。

Stars: ⭐️ 7.2k
Tags: computer-vision c-library image-processing
最后活动时间: 2026-05-28

Open-Higgsfield-AI

开源免费的AI图像生成与电影工作室，支持Flux、SDXL等20+模型。可自托管部署，提供完整的图像与视频创作功能。

Stars: ⭐️ 7.2k
Tags: AI图像生成 视频创作 开源替代
最后活动时间: 2026-04-24

lingbot-map

前馈式3D基础模型，用于从流数据中重建场景，支持实时3D场景理解与生成。

Stars: ⭐️ 7.2k
Tags: 3d-reconstruction foundation-model scene-understanding deep-learning
最后活动时间: 2026-06-02

civitai

AI 模型分享平台，汇集 Stable Diffusion 模型、文本反转等生成式 AI 资源。

Stars: ⭐️ 7.1k
Tags: stable-diffusion models image-generation ai
最后活动时间: 2026-06-12

sdnext

全能型AI图像视频生成WebUI，支持Stable Diffusion、Flux等多种模型。集成图像生成、视频创作、字幕生成等功能。

Stars: ⭐️ 7.1k
Tags: Stable Diffusion Flux WebUI Video Generation
最后活动时间: 2026-06-12

sam-3d-objects

基于 Segment Anything Model (SAM) 的3D物体分割项目，将2D分割能力扩展到3D空间。

Stars: ⭐️ 6.9k
Tags: segment-anything 3d-segmentation computer-vision sam
最后活动时间: 2026-06-02

TripoSR

从单张图像快速生成3D物体模型的高效重建模型，支持快速高质量3D内容创建。

Stars: ⭐️ 6.6k
Tags: 3d-reconstruction single-image text-to-3d
最后活动时间: 2026-06-04

scikit-image

Python生态核心图像处理库，提供丰富的图像处理算法和科学计算工具。

Stars: ⭐️ 6.5k
Tags: computer-vision image-processing python scipy
最后活动时间: 2026-06-10

VLM-R1

基于强化学习的视觉语言模型项目，将R1方法应用于多模态场景，实现视觉理解能力的突破性提升。

Stars: ⭐️ 6.0k
Tags: VLM Reinforcement Learning Multimodal DeepSeek-R1
最后活动时间: 2026-03-12

AR.js

轻量级Web增强现实框架，支持图像追踪、位置定位和标记追踪，完全在浏览器端运行。

Stars: ⭐️ 5.9k
Tags: augmented-reality webar threejs computer-vision
最后活动时间: 2026-05-08

Chinese-CLIP

中文版CLIP模型，实现跨模态图文检索与表示生成。

Stars: ⭐️ 5.9k
Tags: clip chinese multi-modal computer-vision image-text-retrieval
最后活动时间: 2026-03-31

inpaint-web

基于WebGPU和WASM的免费开源图像修复与超分辨率工具，纯浏览器端运行。

Stars: ⭐️ 5.8k
Tags: inpainting image-upscaling webgpu super-resolution
最后活动时间: 2025-12-23

chaiNNer

基于节点的图像处理 GUI 工具，支持 AI 图像放大和处理任务的灵活编排。

Stars: ⭐️ 5.8k
Tags: image-processing ai-upscaling gui node-based
最后活动时间: 2026-05-13

MobileSAM

官方MobileSAM项目，将Segment Anything Model轻量化以适配移动端应用，实现高效的图像分割能力。

Stars: ⭐️ 5.7k
Tags: segment-anything image-segmentation mobile-ai computer-vision
最后活动时间: 2025-12-19

BLIP

Salesforce BLIP模型，统一视觉-语言理解与生成的预训练框架。

Stars: ⭐️ 5.7k
Tags: vision-language image-captioning multimodal
最后活动时间: 2026-03-03

mmf

Meta AI开发的模块化多模态视觉-语言研究框架，支持VQA、图像描述、对话等多种任务，提供预训练模型。

Stars: ⭐️ 5.6k
Tags: Multimodal Vision-Language VQA PyTorch
最后活动时间: 2026-05-14

neural-style

TensorFlow实现的经典神经风格迁移算法，将艺术风格应用到普通图像上。

Stars: ⭐️ 5.5k
Tags: neural-style style-transfer tensorflow image-generation
最后活动时间: 2026-04-18

opencv-python

OpenCV 的 Python 预编译包，提供强大的计算机视觉和图像处理能力，是 AI 视觉应用开发的基础库。

Stars: ⭐️ 5.3k
Tags: opencv computer-vision image-processing python
最后活动时间: 2026-06-09

gsplat

CUDA加速的3D Gaussian Splatting光栅化库，支持高效神经渲染和3D重建。

Stars: ⭐️ 5.1k
Tags: gaussian-splatting cuda 3d-reconstruction neural-rendering
最后活动时间: 2026-05-12

trace.moe

基于向量数据库的动漫场景反向图片搜索引擎，通过截图快速追溯动漫来源。

Stars: ⭐️ 5.0k
Tags: anime image-search vector-database reverse-search
最后活动时间: 2026-04-06

unet

U-Net图像分割网络的Keras实现。经典的编码器-解码器架构，广泛应用于医学图像分割和语义分割任务。

Stars: ⭐️ 4.9k
Tags: unet image-segmentation keras deep-learning
最后活动时间: 2026-03-27

deep-person-reid

基于PyTorch的行人重识别深度学习库，支持跨域度量学习与重排序。

Stars: ⭐️ 4.8k
Tags: person-reid computer-vision metric-learning pytorch
最后活动时间: 2026-01-09

pollinations

开源生成式AI平台，提供友好的AI创作体验，支持多种生成模型。

Stars: ⭐️ 4.7k
Tags: Gen-AI Open Source Platform
最后活动时间: 2026-06-12

brush

基于高斯溅射技术的通用3D重建工具，支持快速高质量场景重建。

Stars: ⭐️ 4.6k
Tags: gaussian-splatting 3d-reconstruction nerf
最后活动时间: 2026-05-28

watermark-removal

基于深度学习的图像水印去除工具，使用图像修复技术自动移除水印。

Stars: ⭐️ 4.6k
Tags: image-inpainting deep-learning computer-vision
最后活动时间: 2026-06-05

Depixelization_poc

从像素化截图中恢复原始文本的AI技术演示，展示了一种逆向图像处理方法。

Stars: ⭐️ 4.5k
Tags: image-processing depixelization security image-recovery deep-learning
最后活动时间: 2026-04-14

flow_matching

基于PyTorch的流匹配算法库，支持连续与离散流匹配，提供文本与图像生成的实战示例。

Stars: ⭐️ 4.5k
Tags: pytorch flow-matching generative-ai
最后活动时间: 2026-01-05

gemini-watermark-remover

高性能纯浏览器端Gemini AI水印去除工具，使用数学精确的反向Alpha混合算法实现无损去水印。

Stars: ⭐️ 4.4k
Tags: watermark-removal gemini-ai image-processing javascript
最后活动时间: 2026-06-12

diffusion-models-class

Hugging Face扩散模型课程，深入讲解图像生成模型原理与实践。

Stars: ⭐️ 4.3k
Tags: diffusion-models image-generation huggingface generative-ai
最后活动时间: 2026-04-17

SwarmUI

模块化的Stable Diffusion Web界面，支持ComfyUI后端，提供高性能图像生成和强大的扩展能力。

Stars: ⭐️ 4.2k
Tags: stable-diffusion image-generation ai comfyui
最后活动时间: 2026-06-10

OmniGen2

探索高级多模态生成的统一模型，支持多种生成任务的统一架构。

Stars: ⭐️ 4.1k
Tags: multimodal-generation image-generation unified-model
最后活动时间: 2026-03-20

White-box-Cartoonization

CVPR2020论文实现，基于白盒卡通表示学习的图像卡通化转换工具。

Stars: ⭐️ 4.0k
Tags: cartoonization image-processing cvpr tensorflow
最后活动时间: 2026-01-19

modly

桌面应用程序，利用本地AI从图像生成3D模型，完全在GPU上运行，支持离线使用。

Stars: ⭐️ 3.9k
Tags: 3d-generation image-to-3d local-ai desktop-app gpu
最后活动时间: 2026-06-11

triangula

使用进化算法和遗传算法将图像转换为高质量三角剖分艺术作品，支持多边形艺术生成。

Stars: ⭐️ 3.9k
Tags: generative-art genetic-algorithm evolutionary-algorithms image-processing
最后活动时间: 2026-03-21

photon

高性能的Rust/WebAssembly图像处理库，支持多种图像操作和滤镜效果，适用于Web端和AI图像处理管道。

Stars: ⭐️ 3.8k
Tags: image-processing webassembly rust computer-vision
最后活动时间: 2026-05-29

ComfyUI-3D-Pack

ComfyUI的3D处理扩展节点套件，支持3DGS、NeRF等前沿算法处理3D网格和纹理。

Stars: ⭐️ 3.8k
Tags: comfyui 3dgs nerf machine-learning 3d-processing
最后活动时间: 2025-12-29

ComfyUI-GGUF

为ComfyUI原生模型提供GGUF量化支持，降低显存占用并加速图像生成推理。

Stars: ⭐️ 3.5k
Tags: GGUF ComfyUI Quantization
最后活动时间: 2026-01-12

roop

Stable Diffusion WebUI的人脸替换扩展插件，支持一键换脸功能。

Stars: ⭐️ 3.5k
Tags: stable-diffusion face-swap image-generation
最后活动时间: 2026-03-13

sd-webui-roop

Stable Diffusion WebUI 的 Roop 换脸扩展插件。

Stars: ⭐️ 3.5k
Tags: stable-diffusion face-swap webui-plugin
最后活动时间: 2026-03-13

map-anything

通用前馈度量3D重建模型，支持深度估计、多视角立体视觉和机器人应用场景。

Stars: ⭐️ 3.5k
Tags: 3d-reconstruction depth-estimation image-to-3d robotics
最后活动时间: 2026-06-03

waifu2x-ncnn-vulkan

基于ncnn的waifu2x图像超分辨率工具，利用Vulkan实现跨平台GPU加速，适用于动漫图像放大降噪。

Stars: ⭐️ 3.4k
Tags: Image Upscaling Vulkan Anime
最后活动时间: 2026-04-13

remove-ai-watermarks

用于移除AI生成图像水印的CLI工具，支持可见和不可见水印类型。

Stars: ⭐️ 3.3k
Tags: ai computer-vision image-processing watermark-removal synthid
最后活动时间: 2026-06-11

IQA-PyTorch

基于PyTorch的图像质量评估工具箱，支持PSNR、SSIM、LPIPS、FID等多种评估指标，涵盖全参考和无参考图像质量评估方法。

Stars: ⭐️ 3.3k
Tags: image-quality-assessment pytorch deep-learning computer-vision
最后活动时间: 2026-05-31

nunif

waifu2x最新版本及2D视频转立体3D视频转换工具集。

Stars: ⭐️ 3.2k
Tags: waifu2x super-resolution stereo-3d video-processing
最后活动时间: 2026-05-04

LichtFeld-Studio

3D高斯泼溅场景的完整解决方案，支持训练、编辑、自动化处理与导出。

Stars: ⭐️ 3.2k
Tags: gaussian-splatting 3d-reconstruction computer-vision cuda
最后活动时间: 2026-06-12

Saber-Translator

AI驱动的漫画翻译工具，智能检测气泡、识别日文文本并翻译成流畅中文。

Stars: ⭐️ 3.2k
Tags: manga-translation ocr ai-translation image-processing
最后活动时间: 2026-05-22

Skywork-R1V

Skywork AI开发的高级多模态模型系列，专注于视觉语言推理任务。

Stars: ⭐️ 3.2k
Tags: Multimodal VLM Vision-Language
最后活动时间: 2025-12-15

HunyuanImage-3.0

腾讯混元图像生成模型3.0版本，强大的原生多模态图像生成模型，支持高质量图像创作。

Stars: ⭐️ 3.1k
Tags: image-generation multimodal-model text-to-image diffusion-model
最后活动时间: 2026-02-03

awesome-virtual-try-on

虚拟试穿领域精选资源列表，汇集论文、代码、数据集，涵盖2D/3D试穿与多姿态引导技术。

Stars: ⭐️ 3.1k
Tags: 虚拟试穿 图像生成 计算机视觉
最后活动时间: 2026-06-04

QualityScaler

基于AI的图像和视频超分辨率放大应用，支持降噪和压缩伪影消除，可运行于NVIDIA/AMD/Intel GPU。

Stars: ⭐️ 3.1k
Tags: Super Resolution Image Enhancement Video Upscaling
最后活动时间: 2026-04-05

Pointcept

点云感知研究代码库，包含PTv3、Sonata等最新3D视觉研究成果。

Stars: ⭐️ 3.1k
Tags: point-cloud 3d-vision pytorch
最后活动时间: 2026-05-21

spark

基于THREE.js的高级3D高斯泼溅渲染器，支持神经辐射场风格的实时3D重建与渲染。

Stars: ⭐️ 3.1k
Tags: 3d-gaussian-splatting nerf threejs webgl
最后活动时间: 2026-05-26

GPT-Image2-Skill

GPT Image 2 提示词库与智能体技能工具，提供图像生成/编辑的CLI工具和丰富的提示词模板。

Stars: ⭐️ 3.0k
Tags: gpt-image image-generation openai agent-skills prompt-library
最后活动时间: 2026-05-23

sam-3d-body

SAM 3D人体模型推理代码，提供预训练模型和数据集，支持3D人体建模。

Stars: ⭐️ 3.0k
Tags: 3d-body-model segment-anything computer-vision
最后活动时间: 2026-02-19

swift-coreml-diffusers

基于Core ML的Stable Diffusion Swift实现，支持在Apple设备上本地运行图像生成。

Stars: ⭐️ 2.9k
Tags: stable-diffusion coreml swift image-generation apple
最后活动时间: 2026-05-27

DeepSeek-OCR-2

DeepSeek推出的视觉因果流OCR模型，专注于文档理解和文字识别任务。

Stars: ⭐️ 2.9k
Tags: ocr deepseek visual-ai document-understanding
最后活动时间: 2026-02-03

SimpleTuner

面向图像、视频和音频扩散模型的通用微调工具包，支持Stable Diffusion、Flux等主流模型的高效训练。

Stars: ⭐️ 2.9k
Tags: Diffusion Fine-tuning Stable Diffusion
最后活动时间: 2026-06-11

ComfyUI-nunchaku

Nunchaku的ComfyUI插件，提供高效的扩散模型量化推理能力。

Stars: ⭐️ 2.9k
Tags: ComfyUI 扩散模型 量化
最后活动时间: 2026-02-19

a1111-sd-webui-tagcomplete

Stable Diffusion WebUI标签自动补全扩展，提供Booru风格的智能提示词补全功能。

Stars: ⭐️ 2.8k
Tags: stable-diffusion autocompletion prompt-engineering webui-extension
最后活动时间: 2026-05-17

tribev2

TRIBE v2多模态模型，用于脑响应预测的研究项目，结合神经科学与深度学习技术。

Stars: ⭐️ 2.7k
Tags: multimodal brain-response neuroscience deep-learning
最后活动时间: 2026-05-11

voxelmorph

基于无监督学习的医学图像配准框架，支持变形场估计与图像对齐。

Stars: ⭐️ 2.7k
Tags: image-registration medical-imaging unsupervised-learning deep-learning
最后活动时间: 2026-05-18

Stable-Diffusion

全面的Stable Diffusion学习资源库，涵盖FLUX、SDXL、SD3等模型的训练教程、WebUI工具指南及多模态AI应用实践。

Stars: ⭐️ 2.7k
Tags: Stable Diffusion LoRA ComfyUI Image Generation
最后活动时间: 2026-06-07

agent-sprite-forge

一个用于生成2D精灵图、透明PNG帧和动画GIF的智能体技能工具，支持从文本提示创建游戏像素艺术资源。

Stars: ⭐️ 2.6k
Tags: agent-skills pixel-art sprite-generator image-generation game-assets
最后活动时间: 2026-05-05

local-dream

在Android设备上运行Stable Diffusion，支持骁龙NPU加速及CPU/GPU推理。

Stars: ⭐️ 2.6k
Tags: stable-diffusion android npu image-generation
最后活动时间: 2026-06-10

xDiT

可扩展的Diffusion Transformers推理引擎，支持大规模并行计算，显著提升DiT模型推理性能。

Stars: ⭐️ 2.6k
Tags: Diffusion Inference Parallelism
最后活动时间: 2026-06-08

stitching

Python图像拼接包，提供快速鲁棒的全景图像拼接功能。

Stars: ⭐️ 2.6k
Tags: image-stitching panorama computer-vision python
最后活动时间: 2026-05-25

k-diffusion

Karras等人扩散模型PyTorch实现，高质量图像生成库。

Stars: ⭐️ 2.6k
Tags: diffusion-models image-generation pytorch
最后活动时间: 2026-02-12

Stable-Diffusion-Webui-Civitai-Helper

Civitai助手扩展，简化模型下载和管理流程，自动获取模型信息和预览图。

Stars: ⭐️ 2.5k
Tags: stable-diffusion civitai model-management webui-extension
最后活动时间: 2026-04-16

OmniSVG

首个端到端多模态SVG生成器，基于预训练视觉语言模型，可生成从图标到动漫角色的复杂SVG。

Stars: ⭐️ 2.5k
Tags: SVG Generation VLM NeurIPS 2025
最后活动时间: 2026-03-01

conditional-flow-matching

条件流匹配库TorchCFM，用于生成模型训练。

Stars: ⭐️ 2.5k
Tags: flow-matching generative-models optimal-transport
最后活动时间: 2026-04-20

3DCellForge

AI驱动的交互式3D模型生成、检查和展示工作室，支持智能建模与可视化。

Stars: ⭐️ 2.5k
Tags: 3d-generation ai-3d interactive visualization
最后活动时间: 2026-05-22

PartCrafter

NeurIPS 2025论文，通过组合潜变量扩散Transformer生成结构化3D网格。

Stars: ⭐️ 2.4k
Tags: 3d-generation mesh-generation image-to-3d neurips
最后活动时间: 2026-04-16

Eagle

前沿视觉语言模型项目，采用以数据为中心的策略训练，支持多种主流大模型架构。

Stars: ⭐️ 2.4k
Tags: Vision-Language LMM LLaVA
最后活动时间: 2026-06-08

gpt_image_playground

基于 OpenAI gpt-image-2 API 的图片生成与编辑工具，支持多种图像处理功能，提供直观的 Web 界面。

Stars: ⭐️ 2.4k
Tags: gpt-image image-generation openai react typescript
最后活动时间: 2026-06-11

flux2

FLUX.2图像生成模型的官方推理仓库。

Stars: ⭐️ 2.3k
Tags: flux image-generation diffusion-model inference
最后活动时间: 2026-03-12

gpupixel

基于GPU的实时图像滤镜引擎，支持人脸检测、美颜、瘦脸等AI图像处理功能。

Stars: ⭐️ 2.3k
Tags: image-processing gpu face-detection filter
最后活动时间: 2026-02-13

bgslibrary

C++背景减除库，提供多种背景建模算法，支持Python、MATLAB和Java绑定。

Stars: ⭐️ 2.3k
Tags: background-subtraction computer-vision opencv
最后活动时间: 2026-05-28

3dgrut

高斯粒子的光线追踪与混合光栅化渲染技术，用于3D场景重建。

Stars: ⭐️ 2.3k
Tags: gaussian-splatting ray-tracing 3d-reconstruction computer-vision
最后活动时间: 2026-06-11

gowall

多功能图像处理工具，支持VLM视觉语言模型OCR识别、对抗网络图像超分辨率放大、色彩提取与主题转换等功能。

Stars: ⭐️ 2.3k
Tags: image-processing ocr upscale color-palette cli
最后活动时间: 2026-06-10

cellpose

通用细胞分割算法，支持人机交互标注，广泛应用于生物医学图像分析领域。

Stars: ⭐️ 2.2k
Tags: cell-segmentation bioimage deep-learning
最后活动时间: 2026-06-11

Step1X-Edit

SOTA级开源图像编辑模型，性能媲美GPT-4o和Gemini 2 Flash等闭源模型。

Stars: ⭐️ 2.2k
Tags: image-editing multimodal visual-reasoning open-source
最后活动时间: 2026-04-29

MambaVision

CVPR 2025论文，混合Mamba-Transformer视觉骨干网络，支持图像分类、检测和分割。

Stars: ⭐️ 2.2k
Tags: mamba vision-transformer image-classification object-detection
最后活动时间: 2026-03-11

Awesome-Image-Inpainting

图像修复与视频修复领域的精选论文和资源合集，涵盖人脸补全、图像修复等前沿研究方向。

Stars: ⭐️ 2.2k
Tags: image-inpainting video-inpainting computer-vision deep-learning
最后活动时间: 2026-02-09

JoyAI-Image

统一的多模态基础模型，支持图像理解、文本生成图像和指令引导的图像编辑功能。

Stars: ⭐️ 2.2k
Tags: multimodal image-generation image-editing text-to-image
最后活动时间: 2026-05-09

mflux

基于Apple MLX框架的原生生成图像模型实现，针对Apple Silicon优化。

Stars: ⭐️ 2.1k
Tags: mlx flux apple-silicon image-generation
最后活动时间: 2026-06-07

ICEdit

高效图像编辑工具，仅需单个LoRA即可实现高质量图像编辑。

Stars: ⭐️ 2.1k
Tags: image-editing lora diffusion
最后活动时间: 2025-12-19

ViTPose

NeurIPS 2022论文，基于Vision Transformer的人体姿态估计模型。

Stars: ⭐️ 2.1k
Tags: pose-estimation vision-transformer self-supervised pytorch
最后活动时间: 2025-12-25

leptonica

开源图像处理与分析库，广泛应用于OCR和计算机视觉领域，提供图像增强、形态学运算、边缘检测等核心功能。

Stars: ⭐️ 2.0k
Tags: image-processing computer-vision ocr c
最后活动时间: 2026-06-05

OpenSplat

生产级3D高斯泼溅重建工具，支持CPU/GPU跨平台运行，适用于神经辐射场和3D场景重建。

Stars: ⭐️ 2.0k
Tags: 3d gaussian-splatting radiance-field neural-rendering
最后活动时间: 2026-05-31

DreamOmni2

多模态指令驱动的图像编辑与生成统一模型，支持基于自然语言指令的图像处理任务。

Stars: ⭐️ 2.0k
Tags: 图像编辑 图像生成 多模态
最后活动时间: 2026-04-11

ml-hypersim

用于室内场景理解的光真实感合成数据集，提供高质量的3D场景渲染数据。

Stars: ⭐️ 2.0k
Tags: dataset synthetic-data indoor-scene computer-vision
最后活动时间: 2026-01-09

custom-diffusion

CVPR 2023论文实现，专注于文本到图像扩散模型的多概念定制化微调，支持少样本学习。

Stars: ⭐️ 2.0k
Tags: diffusion-models text-to-image fine-tuning computer-vision
最后活动时间: 2026-05-24

WorldGen

基于生成式AI的3D场景生成工具，支持文本和图像快速生成任意3D场景，实现秒级高质量三维内容创作。

Stars: ⭐️ 2.0k
Tags: 3D Generation Text-to-3D Scene Generation
最后活动时间: 2026-04-12

Show-o

统一多模态理解和生成的单一Transformer模型，ICLR/NeurIPS 2025接收，融合扩散模型与大语言模型。

Stars: ⭐️ 1.9k
Tags: 多模态 扩散模型 大语言模型
最后活动时间: 2026-01-08

ComfyUI-Prompt-Assistant

ComfyUI提示词助手插件，支持多LLM服务的提示词翻译、扩写和图片反推功能。

Stars: ⭐️ 1.9k
Tags: ComfyUI Prompt Image Generation
最后活动时间: 2026-04-25

mar

MAR+DiffLoss 的 PyTorch 实现，用于自回归图像生成的创新方法。

Stars: ⭐️ 1.9k
Tags: autoregressive-model image-generation diffusion pytorch
最后活动时间: 2026-02-20

pymatting

Python图像Alpha抠图库，用于前景提取和图像处理任务。

Stars: ⭐️ 1.9k
Tags: alpha-matting image-processing computer-vision
最后活动时间: 2026-04-07

OpenSeeFace

实时人脸与面部关键点追踪库，支持CPU运行并提供Unity集成，适用于虚拟主播等应用场景。

Stars: ⭐️ 1.9k
Tags: face-tracking face-detection onnx pytorch unity
最后活动时间: 2025-12-28

GlobalMLBuildingFootprints

从卫星图像提取的全球建筑物轮廓数据集，支持地理空间AI应用开发。

Stars: ⭐️ 1.9k
Tags: satellite-imagery building-detection dataset geospatial
最后活动时间: 2026-03-11

minimind-o

从零训练的0.1B全模态Omni模型，支持听、说、看多模态能力，适合学习多模态模型架构与训练。

Stars: ⭐️ 1.8k
Tags: multimodal omni-model training audio vision
最后活动时间: 2026-06-08

deepseek_ocr_app

基于DeepSeek模型构建的OCR文字识别应用，支持图像到文本的快速转换。

Stars: ⭐️ 1.8k
Tags: ocr deepseek image-to-text
最后活动时间: 2026-03-31

ComfyUI_frontend

ComfyUI官方前端实现，为节点式AI图像生成工作流提供现代化可视化界面，支持拖拽式构建复杂的Stable Diffusion处理流程。

Stars: ⭐️ 1.8k
Tags: Stable Diffusion Image Generation Node Editor
最后活动时间: 2026-05-29

OnnxOCR

基于PaddleOCR重构的轻量级OCR系统，脱离PaddlePaddle框架，推理速度极快。

Stars: ⭐️ 1.8k
Tags: ocr onnx deep-learning computer-vision
最后活动时间: 2026-06-11

gpt_image_2_skill

GPT Image 2 提示词库与 CLI 工具，支持图像生成、编辑及智能体技能集成。

Stars: ⭐️ 1.8k
Tags: gpt-image-2 image-generation prompt-library openai agent-skills
最后活动时间: 2026-05-08

Emu

BAAI推出的多模态生成基础模型系列，支持上下文学习和指令微调。

Stars: ⭐️ 1.8k
Tags: multimodal foundation-model generative-ai
最后活动时间: 2026-01-12

CatVTON

ICLR 2025论文，轻量级虚拟试穿扩散模型，仅需8G显存支持1024x768分辨率。

Stars: ⭐️ 1.7k
Tags: virtual-try-on diffusion-models fashion image-generation
最后活动时间: 2025-12-16

pupil

开源眼动追踪项目，利用计算机视觉技术实现眼球检测与追踪，可应用于人机交互、心理学研究等领域。

Stars: ⭐️ 1.7k
Tags: eye-tracking computer-vision open-source
最后活动时间: 2026-05-25

lightweight-gan

ICLR 2021轻量级GAN实现，支持快速训练高分辨率图像生成模型。

Stars: ⭐️ 1.7k
Tags: gan image-generation deep-learning pytorch
最后活动时间: 2026-04-26

ComfyUI-Florence2

ComfyUI的Microsoft Florence2视觉语言模型推理节点。

Stars: ⭐️ 1.7k
Tags: comfyui florence2 vlm vision-language-model
最后活动时间: 2026-05-06

BrickGPT

基于文本提示生成物理稳定的积木模型，支持NeurIPS 2025论文实现。

Stars: ⭐️ 1.7k
Tags: 3d-generation text-to-3d lego
最后活动时间: 2026-05-21

HunyuanOCR

腾讯混元 OCR 文字识别模型，提供高精度的光学字符识别能力。

Stars: ⭐️ 1.6k
Tags: ocr tencent hunyuan chinese-ocr
最后活动时间: 2026-06-02

MMaDA

开源多模态大扩散语言模型，融合块扩散、混合思维链和统一强化学习技术。

Stars: ⭐️ 1.6k
Tags: diffusion-models multimodal-llm reasoning
最后活动时间: 2026-02-14

Sa2VA

像素级大语言模型代码库，融合视觉与语言的多模态研究项目。

Stars: ⭐️ 1.6k
Tags: MLLM computer-vision pixel-llm
最后活动时间: 2026-06-11

Infinity

CVPR 2025 Oral论文，用于高分辨率图像合成的自回归模型。

Stars: ⭐️ 1.6k
Tags: text-to-image autoregressive image-generation transformers
最后活动时间: 2026-04-16

3d-ken-burns

基于PyTorch的单图3D Ken Burns效果实现，从静态图像生成动态运镜视频。

Stars: ⭐️ 1.6k
Tags: deep-learning computer-vision 3D PyTorch
最后活动时间: 2026-06-01

Pixal3D

SIGGRAPH 2026 论文项目，实现从图像生成像素对齐的3D模型，属于前沿的图像到3D生成技术。

Stars: ⭐️ 1.6k
Tags: 3d-generation image-to-3d generative-ai computer-vision
最后活动时间: 2026-05-24

ComfyUI-Docker

ComfyUI的Docker容器化部署方案，支持Stable Diffusion图像生成工作流，开箱即用。

Stars: ⭐️ 1.5k
Tags: comfyui stable-diffusion docker
最后活动时间: 2026-06-08

ml-mobileclip

MobileCLIP官方实现，CVPR 2024发表的轻量级视觉-语言模型。

Stars: ⭐️ 1.5k
Tags: mobileclip vision-language clip efficient-ml
最后活动时间: 2026-04-15

SAM-Adapter-PyTorch

通过适配器和提示将Segment Anything模型迁移到下游分割任务的PyTorch实现。

Stars: ⭐️ 1.5k
Tags: Segment Anything Adapter Fine-tuning
最后活动时间: 2026-05-17

splatviz

基于3D Gaussian Splatting技术的实时交互式3D查看器，支持实时编辑和分析高斯溅射场景。

Stars: ⭐️ 1.5k
Tags: 3d-gaussian-splatting 3dgs viewer python real-time
最后活动时间: 2026-05-20

ComfyUI_UltimateSDUpscale

ComfyUI的高质量图像放大节点扩展，支持多种放大算法，显著提升Stable Diffusion生成图像的分辨率和细节。

Stars: ⭐️ 1.5k
Tags: ComfyUI 图像放大 Stable Diffusion
最后活动时间: 2026-04-08

pyntcloud

3D点云处理Python库，支持点云可视化与深度学习应用。

Stars: ⭐️ 1.5k
Tags: 3d-point-clouds deep-learning python 3d-graphics
最后活动时间: 2026-01-28

DDColor

ICCV 2023论文，通过双解码器实现照片级真实的图像着色效果。

Stars: ⭐️ 1.5k
Tags: image-colorization computer-vision deep-learning
最后活动时间: 2026-01-17

realesrgan-gui

跨平台AI图像超分辨率放大工具GUI，支持Real-ESRGAN和Real-CUGAN模型，提供美观易用的图形界面。

Stars: ⭐️ 1.5k
Tags: real-esrgan super-resolution image-upscaling gui
最后活动时间: 2026-05-02

yomitoku

专为日语设计的 AI 文档图像分析 Python 包，集成深度学习 OCR 和版面分析功能，支持 PyTorch 框架。

Stars: ⭐️ 1.5k
Tags: OCR 文档分析 日语 PyTorch
最后活动时间: 2026-06-08

MeiGen-AI-Design-MCP

基于MCP协议的AI图像生成工具，集成ComfyUI与1400+提示词库，支持多方向并行生成。

Stars: ⭐️ 1.4k
Tags: ai-image-generation mcp comfyui claude-code prompt-engineering
最后活动时间: 2026-05-19

ComfyUI-Easy-Install

跨平台便携式ComfyUI安装器，支持Nvidia GPU，简化Stable Diffusion工作流部署。

Stars: ⭐️ 1.4k
Tags: comfyui stable-diffusion image-generation installer
最后活动时间: 2026-05-28

DLSS

NVIDIA 深度学习超级采样技术，利用神经网络提升游戏帧率并生成高质量图像。

Stars: ⭐️ 1.3k
Tags: dlss nvidia image-upscaling gaming
最后活动时间: 2026-04-21

TinyGPT-V

高效轻量级多模态大语言模型，采用小型骨干网络实现视觉语言理解与生成。

Stars: ⭐️ 1.3k
Tags: multimodal-llm vision-language efficient-model
最后活动时间: 2026-02-05

image-matching-webui

基于Gradio的图像匹配Web界面，集成多种深度学习模型如SuperGlue、LightGlue、LoFTR等，支持特征匹配和位姿估计。

Stars: ⭐️ 1.3k
Tags: image-matching deep-learning feature-matching gradio
最后活动时间: 2026-05-25

LucidFlux

ICLR 2026论文，基于大规模扩散Transformer实现无需标注的高质量图像修复。

Stars: ⭐️ 1.3k
Tags: diffusion image-restoration transformer iclr
最后活动时间: 2026-05-26

sprite-sheet-creator

基于fal.ai的2D角色和地图精灵图生成工具，支持创建可玩的像素风格游戏素材。

Stars: ⭐️ 1.3k
Tags: sprite-sheet game-assets ai-generation fal-ai
最后活动时间: 2026-04-22

FireRed-Image-Edit

开源SOTA图像编辑基础模型，支持精确指令跟随、高保真生成和优异身份一致性。

Stars: ⭐️ 1.3k
Tags: Image Editing Diffusion AIGC
最后活动时间: 2026-04-03

mvsplat

ECCV'24 Oral论文，从稀疏多视角图像高效实现3D高斯泼溅重建。

Stars: ⭐️ 1.3k
Tags: gaussian-splatting 3d-reconstruction novel-view-synthesis deep-learning
最后活动时间: 2026-05-06

ComfyUI-ReActor

ComfyUI的快速人脸替换扩展节点，支持SFW内容，简单易用的AI换脸工具。

Stars: ⭐️ 1.2k
Tags: comfyui face-swapping image-generation ai
最后活动时间: 2026-05-12

sceneview

跨平台3D与AR SDK，支持Android、iOS、Web、Desktop等多端部署，集成Filament和RealityKit渲染引擎。

Stars: ⭐️ 1.2k
Tags: 3d ar arcore arkit kotlin swift webxr
最后活动时间: 2026-06-11

flyimg

基于Docker的即时图像处理服务，支持AVIF、WebP等现代格式，内置人脸检测功能，可自动优化图像裁剪。

Stars: ⭐️ 1.2k
Tags: image-processing face-detection docker imagemagick
最后活动时间: 2026-05-20

Stable-Diffusion-Android

Android平台上的Stable Diffusion AI客户端应用，支持连接Automatic1111 WebUI进行AI图像生成。

Stars: ⭐️ 1.2k
Tags: stable-diffusion android ai-image-generation kotlin
最后活动时间: 2026-06-12

comfyui-inpaint-nodes

ComfyUI专业图像修复节点集合，支持Fooocus SDXL、LaMa、MAT等多种算法，提供强大的图像修复功能。

Stars: ⭐️ 1.2k
Tags: ComfyUI 图像修复 Inpainting
最后活动时间: 2026-05-31

comfyui-portrait-master

ComfyUI 节点插件，帮助 AI 图像创作者快速生成人物肖像的提示词，简化人像生成工作流。

Stars: ⭐️ 1.2k
Tags: ComfyUI 人像生成 提示词
最后活动时间: 2026-02-09

ComfyUI-qwenmultiangle

ComfyUI 自定义节点，提供交互式 Three.js 视口控制相机角度，用于多角度 AI 图像生成。

Stars: ⭐️ 1.2k
Tags: comfyui image-generation 3d-camera stable-diffusion
最后活动时间: 2026-05-02

CityGaussian

ECCV 2024 & ICLR 2025 系列，基于高斯泼溅的大规模场景高质量重建方法。

Stars: ⭐️ 1.2k
Tags: gaussian-splatting large-scale neural-rendering scene-reconstruction
最后活动时间: 2026-02-07

joycaption

开源免费的图像描述视觉语言模型，专为训练扩散模型而设计。

Stars: ⭐️ 1.2k
Tags: vlm image-captioning multimodal diffusion
最后活动时间: 2026-02-24

samila

基于数学算法的生成艺术工具，可创建独特的NFT艺术作品。支持多种参数配置，生成风格多样的视觉艺术。

Stars: ⭐️ 1.2k
Tags: generative-art python3 nft matplotlib
最后活动时间: 2026-05-01

SiT

探索流模型和扩散模型的可扩展插值Transformer生成模型。

Stars: ⭐️ 1.2k
Tags: diffusion-model transformer generative-model
最后活动时间: 2025-12-22

LanPaint

高质量免训练图像修复工具，支持所有Stable Diffusion模型和ComfyUI。

Stars: ⭐️ 1.2k
Tags: inpainting stable-diffusion comfyui
最后活动时间: 2026-05-21

MeanFlow

一步生成建模的PyTorch实现，探索流匹配和扩散模型的高效生成方法。

Stars: ⭐️ 1.1k
Tags: Diffusion Flow Matching Generative Model
最后活动时间: 2025-12-17

HunyuanWorld-Mirror

腾讯混元团队开发的快速通用3D重建模型，支持图像到3D、场景生成等多种任务。

Stars: ⭐️ 1.1k
Tags: 3d-reconstruction aigc image-to-3d scene-generation
最后活动时间: 2026-05-27

biniou

一个自托管的生成式AI WebUI，支持30多种AI模型，包括Stable Diffusion、FLUX、AnimateDiff、Bark、Whisper等，覆盖图像、音频、视频多模态生成。

Stars: ⭐️ 1.1k
Tags: Generative AI WebUI Stable Diffusion Multimodal
最后活动时间: 2026-06-11

Fastest_Image_Pattern_Matching

高性能图像模板匹配算法实现，基于归一化互相关算法优化。

Stars: ⭐️ 1.1k
Tags: pattern-matching template-matching opencv image-alignment
最后活动时间: 2026-01-20

vertex-ai-creative-studio

Google Cloud Vertex AI生成媒体创意工作室，集成Imagen、Veo、Gemini TTS、Chirp等多模态AI能力。提供图像、视频、音频生成的完整解决方案。

Stars: ⭐️ 1.1k
Tags: Vertex AI Imagen Veo Gemini Multimodal
最后活动时间: 2026-06-11

Awesome-Image-Composition

图像合成与物体插入领域的论文、代码和资源精选列表，涵盖图像融合、和谐化、阴影生成等生成式AI技术。

Stars: ⭐️ 1.1k
Tags: image-composition image-harmonization generative-ai computer-vision
最后活动时间: 2026-04-30

Uni-MoE

大规模多模态模型家族，基于混合专家架构实现多模态理解与生成能力。

Stars: ⭐️ 1.1k
Tags: multimodal moe large-language-model image-generation
最后活动时间: 2025-12-22

ComfyUI-Lora-Manager

ComfyUI 的 LoRA 模型管理扩展，支持模型组织、预览和元数据管理，提升工作流效率。

Stars: ⭐️ 1.1k
Tags: ComfyUI LoRA Manager Image Generation
最后活动时间: 2026-04-23

FastGS

CVPR 2026论文官方代码，将3D高斯泼溅训练时间缩短至100秒的革命性加速方法。

Stars: ⭐️ 1.1k
Tags: 3dgs gaussian-splatting cvpr2026 acceleration
最后活动时间: 2026-03-23

PowerPaint

ECCV 2024多功能图像修复模型，支持物体插入、移除、扩展等多种功能。

Stars: ⭐️ 1.1k
Tags: inpainting image-editing stable-diffusion
最后活动时间: 2025-12-20

gaussian-splatting-lightning

基于PyTorch Lightning的3D高斯泼溅框架，集成多种衍生算法与交互式Web查看器。

Stars: ⭐️ 1.1k
Tags: gaussian-splatting 3d-reconstruction pytorch-lightning nerf deep-learning
最后活动时间: 2026-05-25

TimeGAN

NeurIPS 2019论文代码，时间序列生成对抗网络，用于时序数据生成。

Stars: ⭐️ 1.1k
Tags: time-series gan neurips data-generation
最后活动时间: 2026-02-05

3dgs-render-blender-addon

KIRI Engine 出品的 3D Gaussian Splatting 渲染器 Blender 插件，支持神经渲染技术在 3D 建模中的应用。

Stars: ⭐️ 1.1k
Tags: 3d-gaussian-splatting blender neural-rendering 3d-reconstruction
最后活动时间: 2026-04-10

CNNGestureRecognizer

基于CNN的手势识别项目，使用Keras和TensorFlow实现，支持实时手势检测。

Stars: ⭐️ 1.0k
Tags: gesture-recognition cnn tensorflow keras
最后活动时间: 2026-05-21

Pixelle-MCP

基于ComfyUI + MCP + LLM的开源多模态AIGC解决方案，支持图像生成与编辑。

Stars: ⭐️ 1.0k
Tags: multimodal comfyui mcp aigc image-generation
最后活动时间: 2025-12-17

splat-transform

3D高斯泼溅格式转换与变换的CLI工具，支持多种格式互转和3D场景处理。

Stars: ⭐️ 1.0k
Tags: 3d-gaussian-splatting gaussian-splatting 3d cli
最后活动时间: 2026-05-27

ian-handdrawn-ppt

AI智能体技能，用于生成中文手绘风格的技术PPT图像，支持封面和正文配图。

Stars: ⭐️ 1.0k
Tags: ai-agent image-generation ppt handdrawn codex-skill
最后活动时间: 2026-04-25

PatchFusion

CVPR 2024高分辨率单目度量深度估计的端到端分块框架。

Stars: ⭐️ 1.0k
Tags: Depth Estimation Computer Vision CVPR 2024
最后活动时间: 2026-02-21

ConsistentID

多模态细粒度身份保持的人像生成模型，发表于TPAMI 2026。

Stars: ⭐️ 1.0k
Tags: portrait-generation identity-preserving multimodal image-generation
最后活动时间: 2026-01-02

muapi-cli

muapi.ai官方CLI工具，支持终端生成图像、视频和音频，集成MCP服务器。

Stars: ⭐️ 1.0k
Tags: ai cli image-generation video-generation mcp
最后活动时间: 2026-06-02

GaussianAvatars

CVPR 2024 Highlight 论文，基于3D高斯泼溅的逼真头部头像生成技术，支持实时渲染与动画驱动。

Stars: ⭐️ 1.0k
Tags: 3d-gaussian-splatting avatar-generation computer-vision neural-rendering
最后活动时间: 2026-02-11

Lumina-DiMOO

开源多模态大扩散语言模型，支持统一的多模态理解与生成能力。

Stars: ⭐️ 998
Tags: diffusion-model multimodal-llm image-generation
最后活动时间: 2026-05-19

DiffusionToolkit

专为AI生成图像设计的元数据索引器和查看器，支持Stable Diffusion等生成工具的PNG信息管理。

Stars: ⭐️ 994
Tags: Stable Diffusion 图像管理 元数据
最后活动时间: 2026-02-27

LLaVA-OneVision-2

完全开放的多模态训练框架，支持视觉语言模型的民主化训练与部署。

Stars: ⭐️ 977
Tags: llava llm mllm vision-language-model multimodal
最后活动时间: 2026-05-28

Lance

一个30亿活跃参数的原生统一多模态模型，支持图像和视频的理解、生成与编辑。

Stars: ⭐️ 977
Tags: multimodal image-generation video-generation image-understanding
最后活动时间: 2026-05-27

PillOCR-python

基于大模型API的OCR工具，提供智能文字识别能力。

Stars: ⭐️ 968
Tags: ocr llm python
最后活动时间: 2026-05-01

Image-processing-algorithm

图像处理算法论文实现集合，包含Retinex、去雾等经典算法。

Stars: ⭐️ 967
Tags: image-processing retinex dehazing opencv
最后活动时间: 2026-05-20

cube

Roblox开源的3D智能基础模型，支持文本到3D生成和形状生成，为3D内容创作提供AI能力。

Stars: ⭐️ 960
Tags: 3d-generation text-to-3d foundation-model shape-generation
最后活动时间: 2026-05-28

story-iter

ICLR 2026论文项目，提供无需训练的迭代框架用于长故事可视化，基于扩散模型实现高质量图像生成。

Stars: ⭐️ 958
Tags: diffusion-models image-generation storytelling visual-storytelling
最后活动时间: 2026-04-02

NoPoSplat

ICLR 2025 Oral论文，从稀疏无位姿图像生成3D高斯溅射的简单高效方法。

Stars: ⭐️ 956
Tags: 3d-gaussian-splatting 3d-reconstruction computer-vision nerf
最后活动时间: 2026-02-25

Awesome-diffusion-model-for-image-processing

基于扩散模型的图像处理资源汇总，涵盖图像修复、增强、编码和质量评估等方向。

Stars: ⭐️ 947
Tags: diffusion-models image-processing image-restoration image-enhancement
最后活动时间: 2026-04-08

OpenStereo

立体匹配领域的综合基准测试工具，用于评估和比较各种立体匹配算法的性能表现。

Stars: ⭐️ 904
Tags: stereo-matching computer-vision benchmark depth-estimation
最后活动时间: 2026-05-25

api-llm-ocr

基于视觉大模型的PDF转Markdown工具，支持表格、布局和结构保留，适用于文档AI处理场景。

Stars: ⭐️ 894
Tags: OCR Vision-LLM Document-AI PDF
最后活动时间: 2026-02-21

GLM-Image

基于自回归的高保真图像生成模型，支持文本到图像和图像到图像的生成任务。

Stars: ⭐️ 891
Tags: Text-to-Image Image Generation Auto-regressive
最后活动时间: 2026-03-20

PhysX-Anything

CVPR 2026论文，从单张图像生成具备物理仿真属性的3D资产。

Stars: ⭐️ 886
Tags: image-to-3d physical-modeling 3d-generation cvpr
最后活动时间: 2026-04-28

UpscalerJS

浏览器端AI图像增强库，支持超分辨率、去噪、修复等功能，无需后端服务。

Stars: ⭐️ 886
Tags: image-enhancement super-resolution tensorflow-js esrgan
最后活动时间: 2026-06-10

Skyfall-GS

从卫星图像合成沉浸式3D城市场景，结合3D高斯泼溅与扩散模型技术实现高质量三维重建。

Stars: ⭐️ 878
Tags: 3D重建 卫星图像 高斯泼溅
最后活动时间: 2026-03-18

UniPic

开源SOTA多图像编辑模型，支持高质量图像理解与编辑生成。

Stars: ⭐️ 868
Tags: Image Editing Diffusion VLM
最后活动时间: 2026-01-24

UniWorld

高分辨率语义编码器，统一视觉理解与生成能力，支持图像编辑与文本生成图像。

Stars: ⭐️ 866
Tags: Image Generation Diffusion VLM
最后活动时间: 2025-12-23

Image-Generation-CoT

CVPR 2025 论文，首次探索图像生成中的 Chain-of-Thought 推理，涵盖强化学习与反思机制。

Stars: ⭐️ 865
Tags: image-generation chain-of-thought diffusion reasoning
最后活动时间: 2026-03-19

stirling-image

类似Stirling-PDF的图像处理工具箱，集成30多种本地AI功能，包括调整大小、压缩、背景移除、图像放大、OCR等，完全离线运行，无云服务依赖。

Stars: ⭐️ 860
Tags: ai image-processing ocr image-upscale self-hosted
最后活动时间: 2026-04-24

spz

Niantic开源的3D高斯泼溅文件格式，压缩率比PLY格式高约10倍，几乎无视觉质量损失。

Stars: ⭐️ 851
Tags: gaussian-splatting 3dgs compression 3d-reconstruction
最后活动时间: 2026-05-18

AnySplat

SIGGRAPH Asia 2025论文，实现从无约束视角进行前馈3D高斯泼溅渲染，无需逐场景优化即可重建3D场景。

Stars: ⭐️ 851
Tags: 3d-gaussian-splatting neural-rendering 3d-reconstruction feed-forward
最后活动时间: 2025-12-22

Open-DiffusionGS

ICCV 2025论文，融合高斯泼溅与扩散模型，实现快速单阶段图像到3D生成与重建。

Stars: ⭐️ 849
Tags: 3D生成 高斯泼溅 扩散模型
最后活动时间: 2026-01-28

PoinTr

ICCV 2021 Oral论文，基于几何感知Transformer的点云补全模型，从部分点云重建完整3D几何结构。

Stars: ⭐️ 845
Tags: 3D Vision Point Cloud Transformer
最后活动时间: 2025-12-15

mesh2splat

快速将3D网格模型转换为高斯泼溅格式的工具，支持神经渲染和实时新视角合成。

Stars: ⭐️ 845
Tags: 3d-gaussian-splatting neural-rendering 3d-reconstruction
最后活动时间: 2026-04-22

jimeng-free-api-all

即梦AI免费API服务，支持文生图、图生图、视频生成等功能，兼容OpenAI接口格式，支持多账号接入与零配置Docker部署。

Stars: ⭐️ 839
Tags: ai-image-generation video-generation openai-compatible docker
最后活动时间: 2026-04-13

JarvisArt

NeurIPS 2025智能照片修图代理，基于多模态大语言模型释放人类艺术创造力。

Stars: ⭐️ 826
Tags: multimodal image-processing vision-language-models agent
最后活动时间: 2026-04-04

HVI-CIDNet

CVPR2025低光照图像增强方法，提出新型HVI颜色空间实现高质量暗光图像恢复。

Stars: ⭐️ 816
Tags: image-enhancement low-light transformer cvpr2025
最后活动时间: 2026-03-09

StableGen

强大的Blender插件，集成Stable Diffusion、ControlNet和Flux1-dev，实现智能3D纹理生成。

Stars: ⭐️ 814
Tags: Blender Stable Diffusion 3D纹理
最后活动时间: 2026-04-13

MonoScene

CVPR 2022论文，单目3D语义场景补全，从单张图像预测3D语义占用。

Stars: ⭐️ 810
Tags: 3d-scene-completion monocular semantic-segmentation pytorch
最后活动时间: 2026-03-25

RoseTTAFold-All-Atom

基于深度学习的蛋白质全原子结构预测模型，能够预测蛋白质及其配体的三维结构。

Stars: ⭐️ 809
Tags: protein-structure deep-learning bioinformatics structural-biology
最后活动时间: 2026-05-18

gemini-nanobanana-pro

基于 Google Gemini 2.5 Flash 模型构建的 AI 图像生成与编辑 Web 应用，使用 Next.js 开发。

Stars: ⭐️ 798
Tags: gemini image-generation image-editing nextjs web-app
最后活动时间: 2026-04-01

zotero-ocr

Zotero文献管理软件的OCR插件，基于Tesseract实现文档文字识别功能。

Stars: ⭐️ 795
Tags: ocr zotero tesseract
最后活动时间: 2026-06-04

SSRS

遥感图像语义分割工具箱，支持Mamba、多模态融合、Segment Anything及无监督域适应等前沿方法。

Stars: ⭐️ 793
Tags: semantic-segmentation remote-sensing transformer mamba
最后活动时间: 2026-03-14

CnSTD

基于PyTorch/MXNet的中文场景文字检测工具包，支持OCR、数学公式检测和版面分析。

Stars: ⭐️ 792
Tags: ocr text-detection deep-learning pytorch scene-text-detection
最后活动时间: 2026-05-01

midjourney-proxy

全球最大的Midjourney绘图API。日生成超百万张图，支持Discord集成。

Stars: ⭐️ 792
Tags: midjourney image-generation api-proxy discord-bot
最后活动时间: 2026-06-09

FlashWorld

ICLR 2026 Oral论文官方代码，实现秒级高质量3D场景生成的创新方法。

Stars: ⭐️ 791
Tags: 3d-generation scene-generation iclr2026
最后活动时间: 2026-03-24

scribeocr

基于Web的OCR文档识别与校对工具，支持创建完整数字化文档。

Stars: ⭐️ 785
Tags: ocr tesseract web-interface
最后活动时间: 2026-05-28

FastVGGT

ICLR 2026 论文实现，快速视觉几何Transformer模型，用于高效的视觉几何理解与重建。

Stars: ⭐️ 783
Tags: computer-vision transformer visual-geometry deep-learning
最后活动时间: 2026-01-28

ocean

Meta开源的跨平台计算机视觉与增强现实框架，C++实现，支持CV和AR应用开发。

Stars: ⭐️ 778
Tags: computer-vision augmented-reality meta cpp
最后活动时间: 2026-06-05

Awesome-AIGC-3D

精选的AI生成3D内容论文合集，涵盖最新的文本到3D、图像到3D等前沿研究方向。

Stars: ⭐️ 776
Tags: aigc 3d-generation text-to-3d image-to-3d neural-rendering
最后活动时间: 2026-05-04

ComfyUI-QwenVL

ComfyUI自定义节点，集成Qwen-VL系列视觉语言模型，支持GGUF格式，提供文本生成、图像理解和视频分析能力。

Stars: ⭐️ 771
Tags: ComfyUI Qwen-VL Multimodal
最后活动时间: 2026-02-10

ImageJ

开源科学图像处理软件，广泛应用于生物医学图像分析和科研领域。

Stars: ⭐️ 765
Tags: computer-vision image-processing scientific-imaging
最后活动时间: 2026-06-01

sapiens2

ICLR 26论文实现，在10亿人类图像上预训练的1K分辨率视觉Transformer模型，专注于人体视觉理解任务。

Stars: ⭐️ 758
Tags: vision-transformer computer-vision human-centric pretrained-model
最后活动时间: 2026-05-24

Infinite-Canvas

支持ComfyUI和ModelScope调用的无限画布工具，适用于AI图像生成工作流。

Stars: ⭐️ 757
Tags: comfyui image-generation canvas modelscope
最后活动时间: 2026-05-27

FG-CLIP

新一代CLIP模型，具备强大的细粒度识别能力，支持跨模态检索和图文匹配任务。

Stars: ⭐️ 752
Tags: clip cross-modal-retrieval fine-grained-classification text-image-retrieval
最后活动时间: 2026-05-08

UltraShape-1.0

基于可扩展几何细化方法的高保真3D形状生成模型，支持高质量三维内容创建。

Stars: ⭐️ 747
Tags: 3d-generation shape-generation generative-ai
最后活动时间: 2026-01-06

pexo-skills

开源Agent技能集合，专注于图像、音频和视频等多模态内容创作。

Stars: ⭐️ 730
Tags: agent-skills multimodal content-creation
最后活动时间: 2026-05-27

aitviewer

用于可视化和交互3D数据序列的工具集，支持SMPL人体模型、网格渲染和计算机视觉数据可视化。

Stars: ⭐️ 728
Tags: 3d-visualization computer-vision smpl meshes rendering
最后活动时间: 2026-05-07

PaddleMIX

飞桨多模态开发工具箱，支持主流多模态任务及扩散模型，提供高性能实现。

Stars: ⭐️ 724
Tags: multimodal paddlepaddle diffusion
最后活动时间: 2026-03-06

DeepMesh

ICCV 2025论文官方实现，基于强化学习的自回归3D网格生成模型。

Stars: ⭐️ 724
Tags: 3d mesh-generation generative-model aigc
最后活动时间: 2025-12-17

prope

将相机参数作为相对位置编码的研究项目，用于多视角视觉任务。

Stars: ⭐️ 715
Tags: multi-view positional-encoding transformer
最后活动时间: 2025-12-18

FastGen

NVIDIA推出的扩散模型加速生成技术，通过蒸馏方法显著提升图像生成速度，提供高效推理优化方案。

Stars: ⭐️ 713
Tags: Diffusion Distillation NVIDIA
最后活动时间: 2026-03-19

uniface

基于ONNX Runtime的统一人脸分析Python库，支持人脸检测、识别、表情分析、年龄性别估计等多种功能。

Stars: ⭐️ 712
Tags: face-detection face-recognition face-analysis onnx computer-vision
最后活动时间: 2026-05-27

Awesome-Sketch-Based-Applications

基于草图的应用论文合集，涵盖草图到图像生成、草图检索、草图建模等AI相关研究方向。

Stars: ⭐️ 706
Tags: sketch-to-image sketch-based-retrieval generative-ai computer-vision
最后活动时间: 2026-06-04

paz

Python层级感知库，支持姿态估计、目标检测、实例分割、人脸识别等多种计算机视觉任务。

Stars: ⭐️ 705
Tags: pose-estimation object-detection face-recognition instance-segmentation
最后活动时间: 2026-05-20

MHR

Meta开发的参数化全身数字人体模型，包含骨骼模型、3D网格、姿态校正和面部混合变形，专为计算机视觉和图形学社区设计。

Stars: ⭐️ 704
Tags: human-model 3d-body computer-vision parametric-model
最后活动时间: 2026-05-25

Fast-SRGAN

轻量级实时超分辨率模型，可在30fps下将低分辨率视频实时上采样为高分辨率。

Stars: ⭐️ 695
Tags: real-time srgan video-super-resolution tensorflow
最后活动时间: 2026-02-11

OmniLottie

CVPR 2026 论文项目，开源的多模态向量动画生成器，可通过指令生成 Lottie JSON 动画文件，支持 VLM 视觉语言模型驱动。

Stars: ⭐️ 694
Tags: generative-ai multi-modal vlm lottie-animation vector-graphics
最后活动时间: 2026-04-06

EDGS

3D高斯泼溅高效收敛方法PyTorch实现，消除密集化步骤。3D重建新方法。

Stars: ⭐️ 692
Tags: 3dgs 3d-reconstruction gaussian-splatting
最后活动时间: 2026-03-25

micro-sam

Segment Anything模型在显微图像领域的适配应用，支持细胞与细胞器分割。

Stars: ⭐️ 689
Tags: segment-anything microscopy cell-segmentation bioimage
最后活动时间: 2026-06-10

NextStep-1

StepFun团队开发的SOTA自回归图像生成模型，采用连续token技术实现高质量图像生成。

Stars: ⭐️ 689
Tags: image-generation autoregressive multimodal diffusion
最后活动时间: 2026-02-27

ai_gallery

AI生成内容展示平台，汇集有趣的AI生成作品，基于Next.js 14和React构建。

Stars: ⭐️ 688
Tags: ai-generated showcase nextjs visualization
最后活动时间: 2026-05-07

YOLOv11-RGBT

全面的多光谱目标检测框架，支持YOLOv3至YOLOv13全系列的RGBT检测。

Stars: ⭐️ 686
Tags: multispectral-detection yolo rgbt object-detection
最后活动时间: 2025-12-15

NanoBananaEditor

基于Gemini 2.5 Flash的AI图像生成与编辑应用，支持参考图、蒙版编辑和版本历史。

Stars: ⭐️ 683
Tags: image-generation image-editing gemini-api
最后活动时间: 2026-05-14

ComfyScript

ComfyUI的Python前端库，支持将工作流编写为Python脚本，在Jupyter中实现自动化图像生成。

Stars: ⭐️ 682
Tags: ComfyUI Stable Diffusion Python
最后活动时间: 2026-02-17

FLAME-Universe

FLAME 3D头部模型的公开资源汇总，包含代码、数据集和学术论文，适用于人脸生成和表情动画。

Stars: ⭐️ 675
Tags: 3d-face face-model computer-vision generative-ai
最后活动时间: 2026-03-03

Uni3D

ICLR 2024 Spotlight论文，BAAI推出的3D视觉表征基础模型，支持多种3D理解任务。

Stars: ⭐️ 670
Tags: 3d-representation foundation-model vision-transformer 3d-vision
最后活动时间: 2026-01-12

PaddleYOLO

飞桨YOLO系列全面实现，涵盖YOLOv3至YOLO11、RT-DETR等主流目标检测模型。

Stars: ⭐️ 667
Tags: object-detection yolo paddlepaddle instance-segmentation
最后活动时间: 2026-01-14

spectral

Python高光谱图像处理模块，支持异常检测、图像分类和目标检测等AI功能。

Stars: ⭐️ 666
Tags: hyperspectral image-processing anomaly-detection python
最后活动时间: 2026-04-12

BiomedParse

生物医学图像基础模型，支持九种模态的联合分割、检测和识别任务。

Stars: ⭐️ 662
Tags: biomedical-imaging segmentation object-detection foundation-model
最后活动时间: 2026-01-22

comfyui-tooling-nodes

ComfyUI工具节点集合，支持将其作为后端服务使用，实现外部工具与ComfyUI直接图像传输。

Stars: ⭐️ 661
Tags: ComfyUI Stable Diffusion API
最后活动时间: 2026-05-31

PixelDiT

CVPR 2026 Oral 论文项目，提出像素级扩散 Transformer 用于高质量图像生成，代表了图像生成领域的前沿研究进展。

Stars: ⭐️ 661
Tags: diffusion-models image-generation transformer computer-vision
最后活动时间: 2026-04-09

immich-automated-selfie-timelapse

自动化人脸提取、调整和对齐工具，适合制作自拍延时视频。基于Immich平台实现的人脸识别与处理工作流。

Stars: ⭐️ 658
Tags: immich face-detection timelapse self-hosted
最后活动时间: 2026-03-30

Ming

基于Ling大模型构建的多模态理解与生成框架，支持高级多模态任务处理。

Stars: ⭐️ 656
Tags: multimodal llm vision-language
最后活动时间: 2026-03-17

ComfyUI-Trellis2

Microsoft Trellis 3D生成模型的ComfyUI封装，支持从图像生成高质量3D模型。

Stars: ⭐️ 656
Tags: 3d-generation comfyui text-to-3d image-to-3d
最后活动时间: 2026-06-02

yolov7-object-tracking

基于YOLOv7的目标检测与跟踪项目，结合PyTorch、OpenCV和SORT算法实现实时多目标跟踪。

Stars: ⭐️ 652
Tags: yolo object-detection object-tracking pytorch opencv
最后活动时间: 2026-03-12

MetalSplatter

在Apple平台上使用Metal渲染高斯溅射的框架，支持iOS、macOS和visionOS，实现实时3D场景重建与渲染。

Stars: ⭐️ 649
Tags: gaussian-splatting metal 3d-rendering computer-vision
最后活动时间: 2026-05-28

gpt-image-canvas

基于 tldraw 构建的本地专业 AI 画布工具，支持图像生成与编辑。

Stars: ⭐️ 648
Tags: ai ai-tools image-generation canvas
最后活动时间: 2026-06-09

Prism

开源的跨平台壁纸应用，支持社区上传、精选合集以及AI壁纸生成功能，让用户轻松创建个性化壁纸。

Stars: ⭐️ 647
Tags: flutter wallpaper ai image-generation
最后活动时间: 2026-06-11

Liquid

IJCV收录的多模态大语言模型，实现可扩展的统一文本到图像生成。

Stars: ⭐️ 643
Tags: Multimodal LLM Text-to-Image Generative AI
最后活动时间: 2026-06-01

SeeSR

CVPR 2024论文，实现语义感知的真实世界图像超分辨率重建。

Stars: ⭐️ 639
Tags: super-resolution stable-diffusion image-enhancement
最后活动时间: 2026-04-09

Comfyui-zhenzhen

ComfyUI的平价API调用节点集合，支持Seedance2.0等多种图像生成模型。

Stars: ⭐️ 633
Tags: comfyui image-generation api-nodes
最后活动时间: 2026-06-11

pHash

开源感知哈希库，用于图像相似度检测和内容识别。支持图片指纹生成与匹配，广泛应用于图像去重、版权检测等场景。

Stars: ⭐️ 632
Tags: perceptual-hashing image-similarity computer-vision
最后活动时间: 2026-05-26

MMIF-CDDFuse

CVPR 2023 论文官方实现，提出相关性驱动的双分支特征分解方法，用于多模态图像融合任务。

Stars: ⭐️ 631
Tags: image-fusion deep-learning cvpr2023 multi-modality
最后活动时间: 2026-06-08

we-drawing

每日一句中国古诗词配AI生成图片的创意项目，融合传统文化与AI绘画技术。

Stars: ⭐️ 630
Tags: ai dalle-3 prompt image-generation
最后活动时间: 2025-12-31

LHM-plusplus

高效的大型人体重建模型，可从任意姿态图像重建3D人体模型。

Stars: ⭐️ 629
Tags: 3d-reconstruction human-model computer-vision deep-learning
最后活动时间: 2026-05-26

peinture

通用AI图像生成框架，支持Hugging Face、Model Scope等多个模型平台。

Stars: ⭐️ 619
Tags: Image Generation AI Art Framework
最后活动时间: 2026-04-19

Awesome-Face-Restoration

人脸修复方法综合资源列表，涵盖论文、代码库等计算机视觉前沿技术。

Stars: ⭐️ 608
Tags: face-restoration computer-vision image-enhancement deep-learning
最后活动时间: 2026-03-20

assets

Ultralytics官方资源库，包含YOLO系列模型权重和计算机视觉资源。

Stars: ⭐️ 606
Tags: computer-vision yolo object-detection ultralytics
最后活动时间: 2026-06-05

FakeShield

ICLR 2025论文项目，基于多模态大语言模型的可解释图像伪造检测与定位系统。

Stars: ⭐️ 604
Tags: image-forensics mllm deepfake-detection iclr2025
最后活动时间: 2026-02-21

FastSurfer

FastSurferCNN的PyTorch实现，用于脑部MRI图像快速分割。

Stars: ⭐️ 603
Tags: pytorch medical-imaging brain-segmentation mri cnn
最后活动时间: 2026-05-27

ReconViaGen

ICLR2026论文项目，通过生成式方法实现精确的多视角3D物体重建，支持图像到3D的转换和姿态估计。

Stars: ⭐️ 603
Tags: 3d-generation 3d-reconstruction image-to-3d pose-estimation generative-ai
最后活动时间: 2026-04-04

aot-benchmark

基于Transformer的视频目标分割高效模块化实现，支持多对象关联追踪。

Stars: ⭐️ 594
Tags: video-segmentation transformer object-tracking
最后活动时间: 2026-04-07

huobao-canvas

无限画布工具，支持文生图、图生图、图生视频及多模型切换，兼容OpenAI标准格式。

Stars: ⭐️ 593
Tags: image-generation text-to-image video-generation
最后活动时间: 2026-03-18

ComfyUI_tinyterraNodes

ComfyUI自定义节点集合，为Stable Diffusion提供扩展功能和工作流增强。

Stars: ⭐️ 592
Tags: comfyui stable-diffusion nodes
最后活动时间: 2026-05-17

LLMDet

CVPR 2025亮点论文，利用大语言模型监督学习强大的开放词汇目标检测器。

Stars: ⭐️ 589
Tags: object-detection llm computer-vision cvpr
最后活动时间: 2026-02-04

Awesome-Deep-Stereo-Matching

深度立体匹配资源精选合集，涵盖立体视觉、深度估计和相关深度学习算法。

Stars: ⭐️ 587
Tags: stereo-vision depth-estimation computer-vision deep-learning
最后活动时间: 2026-06-08

tessera

剑桥大学开发的卫星时序图像基础模型，支持土地分类和树冠高度预测等遥感应用。

Stars: ⭐️ 586
Tags: Satellite Remote Sensing Foundation Models
最后活动时间: 2026-05-20

Visual-Tracking-Development

视觉目标跟踪相关的深度学习基准测试项目，涵盖多种跟踪算法和评估方法。

Stars: ⭐️ 586
Tags: visual-tracking deep-learning computer-vision benchmark
最后活动时间: 2026-05-26

fast-plate-ocr

轻量级高速车牌OCR识别模型，支持PyTorch、TensorFlow、JAX和ONNX运行时。

Stars: ⭐️ 585
Tags: ocr license-plate-recognition computer-vision onnx deep-learning
最后活动时间: 2026-03-14

deepgen

轻量级统一多模态模型，专注于图像生成与编辑任务，提供高效的视觉创作能力。

Stars: ⭐️ 580
Tags: multimodal image-generation image-editing deep-learning
最后活动时间: 2026-03-02

imgpilot

基于实时潜在一致性模型(LCM)的图像生成工具，将草图转化为精美艺术作品。

Stars: ⭐️ 577
Tags: AI Image Generation LCM
最后活动时间: 2026-01-31

3dgsconverter

3D Gaussian Splatting 模型转换工具，支持多种格式互转及 GPU 加速滤波处理。

Stars: ⭐️ 568
Tags: gaussian-splatting 3d-reconstruction neural-rendering converter
最后活动时间: 2026-05-22

TRIDENT

大规模全切片图像处理工具包，支持病理学基础模型，用于组织病理学图像的深度学习分析和处理。

Stars: ⭐️ 566
Tags: deep-learning pathology whole-slide-image foundation-model
最后活动时间: 2026-05-27

Awesome-Sketch-Synthesis

草图生成与合成领域的论文合集，涵盖矢量草图生成、笔画级处理等研究方向。

Stars: ⭐️ 566
Tags: sketch-generation sketch-synthesis vector-sketch generative-ai
最后活动时间: 2026-05-17

WildDet3D

Allen AI开源的可提示3D目标检测模型，支持在开放场景中进行可扩展的3D检测。

Stars: ⭐️ 563
Tags: 3d-detection computer-vision object-detection promptable
最后活动时间: 2026-05-21

MistoLine

专为SDXL设计的ControlNet模型，支持多样化的线稿条件控制，生成高质量艺术图像。

Stars: ⭐️ 555
Tags: controlnet sdxl stable-diffusion line-art
最后活动时间: 2026-01-06

character_select_stand_alone_app

角色选择独立应用，支持AI提示词和ComfyUI/WebUI API，用于AI图像生成工作流。

Stars: ⭐️ 548
Tags: comfyui image-generation electron stable-diffusion
最后活动时间: 2026-05-20

ComfyUI-OpenClaw

基于ComfyUI的个人AIGC工厂，支持多平台机器人集成，可生成任意图片和视频内容。

Stars: ⭐️ 546
Tags: comfyui image-generation agent bot aigc
最后活动时间: 2026-05-13

segmenteverygrain

基于SAM的颗粒图像实例分割模型，适用于地质和材料科学领域。

Stars: ⭐️ 543
Tags: sam instance-segmentation grain-analysis geoscience
最后活动时间: 2026-06-03

FaceLift

ICCV 2025论文，从单张图像学习可泛化的3D人脸重建方法，基于合成头部数据训练。

Stars: ⭐️ 542
Tags: 3d-face-reconstruction computer-vision iccv2025
最后活动时间: 2026-03-25

facefusion-docker

业界领先的人脸处理平台，支持人脸替换、唇形同步等多种AI视频处理功能。

Stars: ⭐️ 538
Tags: ai face-swap lip-sync docker deepfake
最后活动时间: 2026-04-21

mmdit

Stable Diffusion 3中MMDiT（多模态扩散Transformer）层的PyTorch实现。

Stars: ⭐️ 537
Tags: stable-diffusion multimodal attention diffusion
最后活动时间: 2026-01-18

gemini-image-editing-nextjs-quickstart

基于Gemini 2.0和Next.js的图像生成与编辑快速入门项目，演示原生多模态能力。

Stars: ⭐️ 537
Tags: gemini gemini-api image-generation nextjs
最后活动时间: 2026-05-29

Awesome-Object-Insertion

图像合成与物体插入领域的精选资源合集，涵盖论文、代码和工具，帮助生成逼真的合成图像。

Stars: ⭐️ 535
Tags: image-composition object-insertion image-generation computer-vision
最后活动时间: 2026-04-30

VistaDream

ICCV 2025论文，从单视图重建多视角一致的场景图像。

Stars: ⭐️ 534
Tags: diffusion-models novel-view-synthesis 3d-reconstruction
最后活动时间: 2026-04-25

YOLO-Master

CVPR2026论文官方代码，基于MOE加速和专业Transformer增强的实时目标检测模型，支持分类、检测和分割任务。

Stars: ⭐️ 534
Tags: yolo object-detection moe computer-vision transformers
最后活动时间: 2026-06-12

ll3m

基于大语言模型的3D资产生成工具，可自动编写Python代码在Blender中创建3D模型。

Stars: ⭐️ 532
Tags: llm 3d-generation blender code-generation
最后活动时间: 2026-03-07

FFHQ-UV

CVPR 2023 论文，提供归一化面部UV纹理数据集，用于高质量3D人脸重建。

Stars: ⭐️ 530
Tags: face-texture uv-mapping 3d-face cvpr2023
最后活动时间: 2026-04-16

ptlflow

基于 PyTorch Lightning 的光流估计模型库，提供多种预训练模型和权重。

Stars: ⭐️ 530
Tags: optical-flow pytorch-lightning pretrained-models computer-vision
最后活动时间: 2026-05-20

Awesome-Image-Harmonization

图像和谐化领域的论文与代码资源合集，专注于使合成图像前景与背景光照色彩协调一致。

Stars: ⭐️ 528
Tags: image-harmonization image-composition computer-vision generative-ai
最后活动时间: 2026-02-24

3D-RE-GEN

基于生成式框架的室内场景3D重建项目，利用AI技术从视觉数据生成高质量的三维网格模型。

Stars: ⭐️ 526
Tags: 3d-reconstruction generative-ai computer-vision mesh
最后活动时间: 2026-02-09

handwritten-text-recognition-for-apache-mxnet

基于Apache MXNet的端到端手写文本识别神经网络训练框架，支持IAM数据集上的全页面手写识别。

Stars: ⭐️ 525
Tags: OCR Handwriting Recognition MXNet Deep Learning
最后活动时间: 2026-02-05

Concerto

NeurIPS'25 论文官方仓库，提出联合2D-3D自监督学习方法，能够自主学习空间表征，适用于计算机视觉和3D理解任务。

Stars: ⭐️ 525
Tags: self-supervised-learning 3d-vision spatial-representation neurips
最后活动时间: 2026-04-07

WiLoR

端到端的3D手部定位与重建模型，可在自然场景中实现高精度的手部姿态估计和3D重建。

Stars: ⭐️ 524
Tags: hand-pose 3d-reconstruction computer-vision deep-learning
最后活动时间: 2026-04-07

DrivAerNet

大规模多模态汽车数据集，包含计算流体动力学仿真和深度学习基准。支持图神经网络和生成式AI进行气动性能预测与设计优化。

Stars: ⭐️ 522
Tags: deep-learning generative-ai graph-neural-networks cfd surrogate-models
最后活动时间: 2026-05-14

DiffiT

ECCV 2024 论文官方实现，提出 Diffusion Vision Transformers 用于高质量图像生成，创新性地将扩散模型与视觉 Transformer 架构相结合。

Stars: ⭐️ 521
Tags: diffusion-model vision-transformer image-generation deep-learning
最后活动时间: 2026-03-09

SOTS

单目标跟踪与分割项目，结合目标检测与语义分割技术，适用于视频分析场景。

Stars: ⭐️ 518
Tags: object-tracking segmentation computer-vision
最后活动时间: 2026-04-14

XPretrain

多模态预训练框架，支持视觉与语言的联合表示学习。

Stars: ⭐️ 512
Tags: multimodal-learning pre-training deep-learning
最后活动时间: 2026-03-27

SAM2-UNet

基于SAM2的强大编码器，用于自然图像和医学图像分割的U-Net架构，支持多种分割任务如伪装目标检测、息肉分割等。

Stars: ⭐️ 511
Tags: segment-anything-model medical-image-segmentation u-net computer-vision
最后活动时间: 2026-01-16

visionary

基于WebGPU的高斯泼溅平台，支持3D/4D高斯泼溅、神经渲染和扩散模型的世界模型载体。

Stars: ⭐️ 509
Tags: gaussian-splatting webgpu neural-rendering diffusion-models computer-vision
最后活动时间: 2026-04-17

DiffSplat

ICLR 2025论文官方实现，将图像扩散模型应用于可扩展的3D高斯溅射生成，实现高质量3D内容创建。

Stars: ⭐️ 508
Tags: diffusion-model 3d-generation gaussian-splatting image-to-3d
最后活动时间: 2026-03-19

pixel3dmm

单图像3D人脸重建的官方实现，利用屏幕空间先验技术实现高保真面部3D模型生成。

Stars: ⭐️ 505
Tags: 3d-face-reconstruction computer-vision 3dmm face-tracking
最后活动时间: 2026-01-12

visionworkbench

NASA开发的通用图像处理与计算机视觉库，用于自主系统和机器人研究。

Stars: ⭐️ 502
Tags: computer-vision nasa image-processing robotics
最后活动时间: 2026-06-08

photo2pixel

将照片转换为像素风格(8-bit)艺术的算法实现，支持在线工具 photo2pixel.co。

Stars: ⭐️ 501
Tags: image-processing pixel-art pytorch style-transfer
最后活动时间: 2026-05-07

IMAGHarmony

可控图像编辑框架，在复杂多对象编辑中保持对象数量和布局一致性，实现高保真连贯的图像生成。

Stars: ⭐️ 316
Tags: Image Editing Diffusion Controllable
最后活动时间: 2026-03-24

Video Generation

Deep-Live-Cam

实时AI换脸工具，仅需单张图片即可实现一键视频深度伪造和实时摄像头换脸。

Stars: ⭐️ 93.7k
Tags: deepfake face-swap real-time video-generation gan
最后活动时间: 2026-05-31

MoneyPrinterTurbo

利用AI大模型一键生成高清短视频的自动化工具，支持批量创作和多种视频风格。

Stars: ⭐️ 86.5k
Tags: AI视频生成 短视频 自动化
最后活动时间: 2026-06-12

faceswap

开源深度学习换脸软件，支持多种模型和训练方式，适合学习和研究深度伪造技术。

Stars: ⭐️ 55.3k
Tags: 深度伪造 人脸替换 深度学习 视频处理
最后活动时间: 2026-05-29

Open-Sora

开源视频生成模型，致力于让高效视频创作技术普及化，类似Sora的视频生成方案。

Stars: ⭐️ 28.9k
Tags: video-generation open-source ai sora
最后活动时间: 2026-04-09

Pixelle-Video

AI全自动短视频生成引擎，支持从文本到视频的端到端创作。

Stars: ⭐️ 22.1k
Tags: video-generation aigc comfyui short-video
最后活动时间: 2026-06-08

video2x

基于机器学习的视频超分辨率与帧插值框架，提升视频画质。

Stars: ⭐️ 20.0k
Tags: video-upscaling super-resolution machine-learning frame-interpolation
最后活动时间: 2026-03-07

Wan2.1

阿里开源的大规模视频生成模型，支持高质量视频内容生成，是先进的AI视频生成解决方案。

Stars: ⭐️ 15.9k
Tags: Video Generation AIGC Open Source
最后活动时间: 2026-03-05

Wan2.2

开源的大规模视频生成模型，支持高质量视频内容创作与生成。

Stars: ⭐️ 15.4k
Tags: Video Generation AIGC Open Source
最后活动时间: 2026-03-17

Duix-Avatar

开源AI数字人工具包，支持离线视频生成与数字人克隆，适用于虚拟主播与内容创作场景。

Stars: ⭐️ 13.6k
Tags: ai-avatar digital-human video-generation open-source
最后活动时间: 2026-04-21

MoneyPrinter

使用MoviePy自动化创建YouTube短视频，结合AI生成内容。

Stars: ⭐️ 13.5k
Tags: video-generation automation youtube moviepy ai-video
最后活动时间: 2026-03-26

waoowaoo

工业级全流程AI影视生产平台，支持从短剧到真人实拍的好莱坞标准工作流，实现可控的视频内容生成。

Stars: ⭐️ 12.7k
Tags: ai-agent video-generation generative-ai film-production
最后活动时间: 2026-06-10

huobao-drama

基于AI的一站式短剧生成平台，一句话即可生成完整短剧，实现从剧本到成片的全自动化流程。

Stars: ⭐️ 12.4k
Tags: video-generation ai-video drama-generator multimodal-ai
最后活动时间: 2026-05-21

Open-Sora-Plan

开源复现OpenAI Sora视频生成模型的项目，旨在通过社区协作实现文本到视频的生成能力。

Stars: ⭐️ 12.2k
Tags: video-generation text-to-video sora open-source
最后活动时间: 2026-03-08

waoowaoo

工业级全流程 AI 影视生产平台，支持从短视频到长片的可控视频生成与好莱坞标准工作流。

Stars: ⭐️ 12.0k
Tags: ai-agent video-generation generative-ai film-production
最后活动时间: 2026-05-04

video-subtitle-remover

基于AI的视频/图片硬字幕和文本水印去除工具，本地运行无需第三方API，支持无损分辨率输出。

Stars: ⭐️ 11.4k
Tags: ai video-processing subtitle-removal deep-learning
最后活动时间: 2026-04-11

LTX-Video

LTX-Video官方仓库，提供高质量的文本到视频生成能力。

Stars: ⭐️ 10.1k
Tags: text-to-video diffusion-models video-generation
最后活动时间: 2026-01-05

Toonflow-app

AI 短剧漫剧创作工具，自动将小说转化为剧本并生成图片和视频内容。

Stars: ⭐️ 9.9k
Tags: ai-video story-generation content-creation multimodal
最后活动时间: 2026-06-08

NarratoAI

AI驱动的视频解说与剪辑工具，一键生成视频解说并自动完成剪辑处理。

Stars: ⭐️ 9.8k
Tags: Video AI Agent LLM Python
最后活动时间: 2026-06-10

ViMax

智能体驱动的视频生成平台，集成导演、编剧、制片和视频生成全流程。

Stars: ⭐️ 9.8k
Tags: video-generation agentic-aigc ai-video
最后活动时间: 2026-06-12

AI4Animation

Unity中基于AI的角色动画系统，利用计算机大脑让角色栩栩如生。

Stars: ⭐️ 8.7k
Tags: animation unity ai-animation game-development character-ai
最后活动时间: 2026-04-17

LTX-2

LTX-2音频-视频生成模型的官方推理和LoRA训练工具包。

Stars: ⭐️ 7.0k
Tags: generative-ai video-generation audio-video
最后活动时间: 2026-05-28

SkyReels-V2

无限长度电影生成模型，支持长视频内容的AI生成与创作。

Stars: ⭐️ 6.8k
Tags: video-generation generative-models film-generation
最后活动时间: 2026-01-29

Awesome-Video-Diffusion

视频扩散模型的精选资源列表，涵盖视频生成、编辑及运动定制等前沿应用。

Stars: ⭐️ 5.7k
Tags: video-diffusion video-generation diffusion-models generative-ai
最后活动时间: 2026-05-26

autoclip

AI驱动的智能视频剪辑工具，自动识别并提取视频高光片段，助力二创内容快速生成。

Stars: ⭐️ 5.6k
Tags: AI视频 自动剪辑 高光提取
最后活动时间: 2026-06-03

mmaction2

OpenMMLab新一代视频理解工具箱，支持动作识别、时序动作检测、视频分类等任务。

Stars: ⭐️ 5.1k
Tags: action-recognition video-understanding deep-learning pytorch openmmlab
最后活动时间: 2026-03-18

VideoCrafter

高质量视频扩散模型，旨在克服数据限制以生成高质量视频内容。

Stars: ⭐️ 5.1k
Tags: text-to-video diffusion-models video-generation
最后活动时间: 2026-01-09

aigcpanel

一站式 AI 数字人系统，支持视频合成、声音克隆、本地模型管理。

Stars: ⭐️ 5.0k
Tags: aigc digital-human video-synthesis voice-cloning
最后活动时间: 2026-05-22

stable-diffusion-videos

利用Stable Diffusion探索潜在空间，在文本提示词之间实现平滑过渡，生成创意AI视频。

Stars: ⭐️ 4.7k
Tags: Stable Diffusion Video Generation AI Art
最后活动时间: 2025-12-16

OpenMontage

全球首个开源智能体视频生产系统，包含11条流水线、49个工具和400+智能体技能，将AI编程助手转变为完整的视频制作工作室。

Stars: ⭐️ 4.7k
Tags: agentic-ai video-generation ffmpeg open-source python
最后活动时间: 2026-05-07

HunyuanVideo-1.5

腾讯开源的领先轻量级视频生成模型，支持文本到视频和图像到视频的高质量生成。

Stars: ⭐️ 4.4k
Tags: text-to-video video-generation image-to-video generative-ai
最后活动时间: 2026-04-10

vjepa2

Meta发布的视频自监督学习模型VJEPA2的PyTorch官方实现。

Stars: ⭐️ 4.1k
Tags: video self-supervised pytorch meta
最后活动时间: 2026-03-23

short-video-factory

AI驱动的短视频批量生成工具，支持一键生成产品营销视频，跨平台桌面应用。

Stars: ⭐️ 4.1k
Tags: AI视频 短视频 自动剪辑
最后活动时间: 2026-06-04

lingbot-world

推进开源世界模型发展的项目，专注于视频生成与AIGC。

Stars: ⭐️ 3.8k
Tags: world-models video-generation aigc
最后活动时间: 2026-05-22

Jellyfish

一站式AI短剧生产工具，从剧本输入到AI视频生成、后期剪辑、一键导出成片全流程覆盖。

Stars: ⭐️ 3.8k
Tags: ai-video short-drama video-generation ai-production
最后活动时间: 2026-04-20

moyin-creator

AI影视生产级工具，支持Seedance 2.0，实现从剧本到成片的全流程批量化生产。

Stars: ⭐️ 3.6k
Tags: 视频生成 影视制作 AI工具
最后活动时间: 2026-05-25

pytorchvideo

Meta开源的视频理解深度学习库，提供视频分类、检测等预训练模型。

Stars: ⭐️ 3.6k
Tags: video-understanding pytorch deep-learning computer-vision
最后活动时间: 2026-05-05

flownet2-pytorch

FlowNet 2.0 PyTorch实现，用于深度学习光流估计。

Stars: ⭐️ 3.3k
Tags: optical-flow computer-vision flownet
最后活动时间: 2026-03-30

SysMocap

面向3D虚拟角色的实时动作捕捉系统，支持AR应用和VTuber动画制作。

Stars: ⭐️ 3.1k
Tags: motion-capture vtuber augmented-reality 3d-animation
最后活动时间: 2026-06-10

FireRed-OpenStoryline

AI视频编辑智能体，通过自然语言交互和LLM驱动的规划，实现意图驱动的导演式创作体验。

Stars: ⭐️ 2.9k
Tags: Video Editing LLM LangChain
最后活动时间: 2026-05-07

HunyuanWorld-1.0

混元3D世界模型，从文本或像素生成沉浸式、可探索的交互3D世界。

Stars: ⭐️ 2.8k
Tags: world-model text-to-3d scene-generation hunyuan3d
最后活动时间: 2026-04-15

VideoPipe

跨平台视频结构化分析框架，支持目标检测、人脸识别、行为分析等多种AI能力。

Stars: ⭐️ 2.8k
Tags: Video Analysis Computer Vision DeepStream
最后活动时间: 2026-02-25

GeminiWatermarkTool

VEO和Gemini Nano视频生成模型的水印维护工具，支持CLI和GUI界面操作。

Stars: ⭐️ 2.6k
Tags: gemini veo3 watermark video-generation
最后活动时间: 2026-05-28

ArcReel

AI Agent 驱动的开源视频生成工作台，支持从小说到视频的全流程自动化，实现跨镜头角色与场景一致性。

Stars: ⭐️ 2.5k
Tags: ai-video-generator ai-agent storyboard video-generation veo
最后活动时间: 2026-06-12

ComfyUI-SeedVR2_VideoUpscaler

ComfyUI官方SeedVR2视频超分辨率节点，支持AI驱动的视频画质增强。

Stars: ⭐️ 2.5k
Tags: comfyui video-upscaling ai-upscaler
最后活动时间: 2025-12-24

ttt-video-dit

测试时训练实现一分钟视频生成，官方PyTorch实现。

Stars: ⭐️ 2.4k
Tags: video-generation test-time-training diffusion
最后活动时间: 2026-02-25

HY-Motion-1.0

用于3D人体动作和角色动画生成的AI模型，支持高质量运动合成。

Stars: ⭐️ 2.4k
Tags: 3d-motion character-animation human-motion deep-learning
最后活动时间: 2026-05-25

LightX2V

轻量级图像到视频生成推理框架，支持自回归扩散模型和多种视频生成模型的高效推理部署。

Stars: ⭐️ 2.3k
Tags: Video Generation Diffusion Inference Framework
最后活动时间: 2026-05-28

InternVideo

视频基础模型与多模态理解研究项目，支持动作识别、视频检索、问答等任务。

Stars: ⭐️ 2.3k
Tags: video-understanding multimodal foundation-models video-retrieval
最后活动时间: 2026-05-26

HY-World-2.0

多模态世界模型，能够重建、生成和模拟3D世界，支持场景理解和物理仿真。

Stars: ⭐️ 2.2k
Tags: world-model 3d-generation multimodal simulation
最后活动时间: 2026-05-27

Matrix-Game

开源的实时流式交互世界模型，支持长视频生成和交互式视频应用。

Stars: ⭐️ 2.2k
Tags: World Model Video Generation Interactive
最后活动时间: 2026-03-30

REAL-Video-Enhancer

基于AI的视频增强工具，支持插帧、超分辨率、去噪和压缩修复，使用Real-ESRGAN和RIFE等模型。

Stars: ⭐️ 2.1k
Tags: video-enhancement upscaling interpolation real-esrgan rife
最后活动时间: 2026-06-12

lyra

ICLR 2026论文，通过视频扩散模型自蒸馏实现3D场景重建。

Stars: ⭐️ 2.1k
Tags: 3d-reconstruction video-diffusion generative-model
最后活动时间: 2026-06-11

VideoX-Fun

灵活的视频生成框架，支持任意分辨率视频生成及图像到视频转换。

Stars: ⭐️ 2.0k
Tags: Video Generation Image-to-Video AI Framework
最后活动时间: 2026-04-24

kimodo

NVIDIA官方运动扩散模型，专注于生成高质量的人形角色动作序列。

Stars: ⭐️ 2.0k
Tags: 运动生成 扩散模型 角色动画
最后活动时间: 2026-04-15

Anime4KCPP

基于CNN的高性能动漫视频超分辨率放大工具，支持GPU加速和多种视频处理框架插件。

Stars: ⭐️ 2.0k
Tags: Upscaling CNN Video Processing
最后活动时间: 2026-06-07

videoeditor

AI驱动的视频编辑创意助手，基于React和Remotion构建的开源视频编辑器。

Stars: ⭐️ 2.0k
Tags: video-editor video-editing ai react remotion typescript
最后活动时间: 2026-05-27

tapnet

任意点追踪(TAP)深度学习模型，用于计算机视觉中的视频点跟踪任务。

Stars: ⭐️ 1.9k
Tags: point-tracking computer-vision deep-learning video
最后活动时间: 2026-03-30

awesome-talking-head-generation

数字人说话头像生成技术资源合集，涵盖人脸重演、图像动画、运动迁移等前沿方向。

Stars: ⭐️ 1.9k
Tags: talking-head face-reenactment image-animation motion-transfer deep-learning
最后活动时间: 2026-04-27

ai4animationpy

基于神经网络的AI驱动角色动画框架，支持智能生成角色动作与运动序列。

Stars: ⭐️ 1.9k
Tags: animation neural-networks character-animation deep-learning
最后活动时间: 2026-05-28

seedance-prompt-skill

Seedance 2.0视频生成提示词技能，帮助用户快速生成高质量AI视频提示词。

Stars: ⭐️ 1.9k
Tags: video-generation prompt-engineering seedance ai-video
最后活动时间: 2026-02-12

awesome-seedance

Seedance 2.0 AI视频生成资源的精选合集，包含高质量提示词、API指南和高级视频生成工作流程。

Stars: ⭐️ 1.8k
Tags: ai video-generation seedance prompt-engineering
最后活动时间: 2026-05-28

HunyuanVideo-I2V

腾讯混元推出的可定制图像到视频生成模型，基于扩散模型实现高质量视频生成，支持将静态图像转换为动态视频。

Stars: ⭐️ 1.8k
Tags: Image-to-Video Diffusion Models Tencent
最后活动时间: 2026-04-07

Code2Video

通过代码自动生成视频的工具，结合多智能体技术实现视频内容的自动化创作。

Stars: ⭐️ 1.8k
Tags: Video Generation Multi-Agent Education
最后活动时间: 2026-05-01

clipsketch-ai

将视频片段转化为手绘风格故事的AI工具，支持视频到艺术画作的智能转换。

Stars: ⭐️ 1.7k
Tags: video-to-image sketch style-transfer video-processing
最后活动时间: 2026-01-14

Auto-Synced-Translated-Dubs

自动翻译视频字幕并利用AI语音服务生成同步配音的工具，结合翻译、TTS与字幕时间轴同步技术实现一键视频配音。

Stars: ⭐️ 1.7k
Tags: 视频配音 TTS 字幕翻译
最后活动时间: 2026-05-11

Helios

北大团队开源的实时长视频生成模型，支持文本/图像/视频到视频生成，具备世界模拟能力。

Stars: ⭐️ 1.7k
Tags: 视频生成 扩散模型 世界模型
最后活动时间: 2026-04-16

SystemAnimatorOnline

基于AI的全身动作捕捉和扩展现实(XR)解决方案，支持VTuber和WebXR应用。

Stars: ⭐️ 1.7k
Tags: motion-capture mediapipe tensorflowjs threejs vtuber webxr
最后活动时间: 2026-04-13

LTX-Desktop

开源桌面应用，用于使用LTX模型生成视频，支持非线性编辑功能。

Stars: ⭐️ 1.6k
Tags: video-generation generative-ai ltx desktop-app
最后活动时间: 2026-04-27

stable-virtual-camera

基于扩散模型的新视角合成生成模型，实现高质量视角生成。

Stars: ⭐️ 1.6k
Tags: diffusion-model novel-view-synthesis generative-ai
最后活动时间: 2026-03-03

HunyuanWorld-Voyager

交互式RGBD视频生成模型，支持相机输入条件下的实时3D重建。

Stars: ⭐️ 1.6k
Tags: world-model image-to-video 3d-generation hunyuan3d
最后活动时间: 2026-04-15

video-search-and-summarization

大规模视频检索与摘要蓝图，支持实时或存档视频的智能分析、摘要生成和交互式问答，结合LLM、RAG和VLM技术。

Stars: ⭐️ 1.5k
Tags: video-search video-summarization rag vlm llm
最后活动时间: 2026-06-12

Video-Materials-AutoGEN-Workstation

集成内容策划、AI文案生成、TTS配音、图片合成、ASR字幕提取于一体的短视频生成工作站。

Stars: ⭐️ 1.5k
Tags: video-generation tts ai-content asr
最后活动时间: 2026-06-02

HY-WorldPlay

交互式世界建模系统框架，支持实时延迟和几何一致性的3D世界生成。

Stars: ⭐️ 1.5k
Tags: world-model 3d-generation hunyuan image-to-3d
最后活动时间: 2026-04-15

Awesome-Talking-Head-Synthesis

数字人说话头像生成领域的精选资源合集，涵盖音频驱动的人脸合成、论文及实现方法。

Stars: ⭐️ 1.5k
Tags: talking-head audio-driven face-synthesis video-generation
最后活动时间: 2026-05-20

deep-printfilm

AI驱动的短剧与动态漫画生成平台，提供工业级视频创作工作台。

Stars: ⭐️ 1.5k
Tags: ai video-generation motion-comic
最后活动时间: 2026-05-07

claude-code-video-toolkit

AI原生视频生产工具包，集成Claude Code、ElevenLabs、Qwen-TTS等，支持程序化视频编辑与生成。

Stars: ⭐️ 1.4k
Tags: ai-video-generator claude-code video-production text-to-speech remotion
最后活动时间: 2026-06-10

MotionBERT

ICCV 2023论文实现，用于学习人体运动表示的统一框架，支持3D姿态估计、骨骼动作识别等任务。

Stars: ⭐️ 1.4k
Tags: motion-analysis 3d-pose-estimation transformer computer-vision
最后活动时间: 2026-03-14

VideoClaw

AI 全自动化视频生成智能体，通过对话即可生成完整视频作品。

Stars: ⭐️ 1.4k
Tags: video-generation aigc multi-agent tts image-generation
最后活动时间: 2026-06-11

PhysGaussian

CVPR 2024 Highlight项目，将物理模拟集成到3D高斯表示中，实现生成式动态场景建模。

Stars: ⭐️ 1.4k
Tags: 3d-gaussian-splatting physics-simulation generative-ai computer-vision neural-rendering
最后活动时间: 2026-01-21

DepthFlow

基于深度估计的图像转3D视差视频工具，可将静态图片转换为沉浸式动态效果。

Stars: ⭐️ 1.4k
Tags: depth-estimation parallax image-to-video 3d-effect
最后活动时间: 2026-04-13

vid2avatar

CVPR 2023 论文，通过自监督场景分解技术从野外视频中重建高质量3D人体化身。

Stars: ⭐️ 1.3k
Tags: 3d-avatar human-reconstruction self-supervised cvpr2023
最后活动时间: 2025-12-17

Seedance2-Storyboard-Generator

基于Seedance 2.0的AI剧本生成工具，可将小说故事一键转化为多集视频剧本。帮助创作者快速制作短剧内容。

Stars: ⭐️ 1.3k
Tags: video-generation storyboard ai-script
最后活动时间: 2026-05-22

awesome-seedance-2-prompts

Seedance 2.0视频生成提示词精选合集，包含500+电影、动漫、UGC、广告等风格提示词及API使用指南。

Stars: ⭐️ 1.3k
Tags: ai-video video-generation prompt-engineering seedance
最后活动时间: 2026-06-12

MagicTime

基于扩散模型的延时视频生成模型，能够模拟物体随时间变化的形态演变。

Stars: ⭐️ 1.3k
Tags: text-to-video diffusion-models video-generation
最后活动时间: 2026-04-14

narrator-ai-cli-skill

AI 视频解说技能封装，支持 Claude/Codex 等工具调用，可自动生成短视频解说内容。

Stars: ⭐️ 1.3k
Tags: claude-code-skill ai-video narration agent-skills
最后活动时间: 2026-06-03

VideoChat

实时交互数字人系统，支持自定义形象与音色、语音克隆，对话延迟低至3秒，集成ASR、TTS、唇形同步等多模态能力。

Stars: ⭐️ 1.3k
Tags: digital-human multimodal tts asr lip-sync real-time llm
最后活动时间: 2025-12-18

Tora

CVPR2025论文，面向轨迹的视频生成Diffusion Transformer，实现精确运动控制。

Stars: ⭐️ 1.2k
Tags: video-generation diffusion-transformer trajectory-control
最后活动时间: 2026-04-14

StableAvatar

首个端到端视频扩散Transformer，可生成无限长度的高质量音频驱动虚拟人视频。

Stars: ⭐️ 1.2k
Tags: video-generation diffusion avatar transformer
最后活动时间: 2026-01-20

ai-moive-studio

AI电影生成工作流Agent，输入剧本即可自动完成分镜生成、画面与音频素材生成、视频合成全流程，让个人创作者也能制作电影级作品。

Stars: ⭐️ 1.2k
Tags: AI视频 电影生成 工作流Agent
最后活动时间: 2026-04-06

BigBanana-AI-Director

工业级 AI 短剧/漫剧导演平台，实现从剧本到成片的全自动化生产，精准控制角色一致性与镜头运动。

Stars: ⭐️ 1.2k
Tags: ai-video ai-short-drama ai-comic video-generation
最后活动时间: 2026-04-15

EvTexture

ICML 2024 & TPAMI 2026 论文实现，利用事件相机驱动视频超分辨率纹理增强，显著提升视频质量。

Stars: ⭐️ 1.2k
Tags: video-super-resolution event-camera pytorch computational-photography
最后活动时间: 2026-06-11

handcrafted-persona-engine

AI 驱动的交互式虚拟形象引擎，集成 Live2D、LLM、ASR、TTS 和 RVC，适合 VTuber 和虚拟助手应用。

Stars: ⭐️ 1.2k
Tags: ai-vtuber live2d avatar tts asr
最后活动时间: 2026-04-23

seedance2-skill

专为 Seedance 2.0 视频生成模型设计的提示词技能库，帮助用户创建高质量的视频生成提示词。

Stars: ⭐️ 1.2k
Tags: prompt video-generation seedance ai-video
最后活动时间: 2026-02-18

capcut-mate

开源剪映自动化工具包，支持生成和下载草稿文件，可作为Coze插件使用。

Stars: ⭐️ 1.2k
Tags: capcut video-automation coze jianying
最后活动时间: 2026-06-12

SoulX-LiveAct

实时人体动画生成推理代码，支持小时级别动画生成。

Stars: ⭐️ 1.1k
Tags: human-animation video-generation real-time
最后活动时间: 2026-05-27

cosmos-predict2.5

NVIDIA Cosmos 世界基础模型，专注于通过视频形式模拟和预测世界未来状态。

Stars: ⭐️ 1.1k
Tags: world-models video-generation foundational-models
最后活动时间: 2026-04-17

OC_SORT

CVPR2023多目标跟踪算法，对遮挡和非线性运动具有强鲁棒性，简单高效的在线跟踪方案。

Stars: ⭐️ 1.1k
Tags: object-tracking computer-vision deep-learning tracking
最后活动时间: 2026-04-21

torchcodec

PyTorch媒体编解码库，提供视频和音频的解码与编码功能。

Stars: ⭐️ 1.1k
Tags: pytorch video audio codec media-processing
最后活动时间: 2026-05-27

video-podcast-maker

AI驱动的视频播客创作工具，支持Bilibili和YouTube平台，集成6种TTS引擎，支持中英双语及4K Remotion渲染。

Stars: ⭐️ 1.0k
Tags: ai-video tts video-podcast remotion claude-code-skill
最后活动时间: 2026-05-23

bmf

字节跳动开源的跨平台多媒体处理框架，支持GPU加速、AI推理、转码和直播视频流处理。

Stars: ⭐️ 1.0k
Tags: 视频处理 AI推理 跨平台
最后活动时间: 2026-03-19

MOVA

面向可扩展的同步视频-音频生成模型，基于扩散模型实现高质量多模态内容生成。

Stars: ⭐️ 1.0k
Tags: Video Generation Audio Generation Multimodal
最后活动时间: 2026-05-06

hamer

基于Transformer的3D手部重建模型，实现高精度手部姿态估计与重建。

Stars: ⭐️ 1.0k
Tags: 3d-reconstruction hand-pose transformer computer-vision
最后活动时间: 2026-02-07

segment-anything-video

MetaSeg是Segment Anything的封装版本，支持视频目标分割，集成YOLO系列检测器。

Stars: ⭐️ 983
Tags: segment-anything video-segmentation object-detection yolo
最后活动时间: 2026-06-08

StoryToolkitAI

AI驱动的视频编辑工具，集成ChatGPT实现转录、内容理解和智能搜索功能。

Stars: ⭐️ 974
Tags: ai chatgpt video-processing speech-recognition editing
最后活动时间: 2026-05-08

SCAIL

CVPR 2026论文，通过上下文学习实现工作室级别的角色动画生成。

Stars: ⭐️ 972
Tags: character-animation video-generation in-context-learning pose-estimation
最后活动时间: 2026-05-06

SpaTrackerV2

ICCV 2025论文，简化高效的3D点追踪方法，适用于视频理解和重建任务。

Stars: ⭐️ 960
Tags: 3d-tracking point-tracking computer-vision video-understanding
最后活动时间: 2026-02-27

brainrot.js

文本转视频生成器，可将任意主题转化为流行风格的短视频内容。支持多种个性化风格，适合快速创作教育或娱乐内容。

Stars: ⭐️ 955
Tags: Text-to-Video ChatGPT Content Generation
最后活动时间: 2026-04-25

EGVSR

高效通用的视频超分辨率框架，支持实时视频增强处理。

Stars: ⭐️ 951
Tags: video-super-resolution real-time video-enhancement
最后活动时间: 2026-03-25

generative-manim

基于GPT的视频生成工具，利用Manim将文本提示转换为动画视频，支持Streamlit界面。

Stars: ⭐️ 875
Tags: gpt-4 manim video-generation animation streamlit
最后活动时间: 2026-05-30

JoyVASA

基于扩散模型的人物与动物动画生成工具，支持音频驱动的说话头像生成。

Stars: ⭐️ 870
Tags: audio-driven talking-head portrait-animation diffusion
最后活动时间: 2026-04-16

ai-fusion-video

基于Agent的全流程AI短剧/漫剧/视频创作平台，支持自动化视频内容生成。

Stars: ⭐️ 864
Tags: video-generation agents automation creative
最后活动时间: 2026-06-12

ConsisID

CVPR 2025 Highlight项目，通过频率分解实现身份保持的文本到视频生成。

Stars: ⭐️ 837
Tags: Text-to-Video Identity Preserving Diffusion
最后活动时间: 2026-04-14

4DNeX

前馈式4D生成建模框架，简化4D内容生成流程。

Stars: ⭐️ 835
Tags: 4d-generation generative-model 3d-dynamic
最后活动时间: 2025-12-14

ai_story

AI视频、动漫、短剧自动化生成工具，支持AI漫剧内容创作。

Stars: ⭐️ 825
Tags: ai-video ai-animation video-generation ai-storytelling
最后活动时间: 2026-05-25

DiT-Extrapolation

视频扩散Transformer的长度外推方法，支持长视频生成和位置嵌入优化。

Stars: ⭐️ 809
Tags: diffusion-transformer video-generation position-embedding
最后活动时间: 2026-03-08

VideoWorld

CVPR 2025 论文项目，一种从无标注视频中学习的生成模型，模拟婴儿通过观察环境学习的方式。

Stars: ⭐️ 790
Tags: video-generation generative-model self-supervised-learning cvpr2025
最后活动时间: 2026-02-25

LongSplat

ICCV 2025论文实现，针对长视频的鲁棒3D高斯泼溅重建方法。

Stars: ⭐️ 788
Tags: 3d-gaussian-splatting 3d-reconstruction computer-vision
最后活动时间: 2026-01-19

kandinsky-5

Kandinsky 5.0 扩散模型，支持高质量的视频与图像生成。

Stars: ⭐️ 749
Tags: diffusion text-to-video image-generation
最后活动时间: 2026-03-31

Text-To-Video-AI

利用AI技术实现文本到视频生成的工具集合。

Stars: ⭐️ 749
Tags: text-to-video ai-video-generator video-generation
最后活动时间: 2026-02-05

Causal-Forcing

自回归扩散蒸馏方案，实现高质量实时交互式视频生成。

Stars: ⭐️ 719
Tags: diffusion-models video-generation autoregressive
最后活动时间: 2026-05-26

YumCut

免费AI视频生成器，可将文本提示转换为适合TikTok、Reels和YouTube Shorts的竖屏视频。支持自动脚本、场景、配音、字幕生成，本地优先且支持多语言输出。

Stars: ⭐️ 717
Tags: ai-video-generator shorts tiktok ffmpeg nextjs
最后活动时间: 2026-05-19

comfy_mtb

面向动画制作的ComfyUI节点扩展包，支持人脸替换和插值功能。

Stars: ⭐️ 710
Tags: comfyui animation faceswap stable-diffusion
最后活动时间: 2026-03-19

MoCha

端到端视频角色替换系统，无需结构引导即可实现高质量视频人物替换。

Stars: ⭐️ 701
Tags: Video Character Replacement End-to-End
最后活动时间: 2026-03-02

ComfyUI_Yvann-Nodes

ComfyUI音频响应节点插件，支持创建AI生成的音频驱动动画，让静态图像随音乐节奏律动。

Stars: ⭐️ 694
Tags: comfyui audio-reactive video-generation animation
最后活动时间: 2026-02-21

SparkVSR

基于稀疏关键帧传播的交互式视频超分辨率工具，利用AI实现高质量视频增强和修复。

Stars: ⭐️ 675
Tags: video-super-resolution generative-ai video-processing vlm
最后活动时间: 2026-05-26

Sparse-VideoGen

通过稀疏注意力机制加速视频扩散Transformer的创新方法，显著提升视频生成效率。ICML 2025和NeurIPS 2025 Spotlight论文。

Stars: ⭐️ 672
Tags: Video Generation Diffusion Model Sparse Attention Efficient ML
最后活动时间: 2026-03-06

infinite-zoom-automatic1111-webui

AUTOMATIC1111 WebUI的无限缩放效果扩展，支持文生视频创作。

Stars: ⭐️ 670
Tags: stable-diffusion automatic1111 infinite-zoom animation
最后活动时间: 2026-02-08

VisoMaster-Fusion

强大易用的视频人脸替换与编辑软件，支持AI驱动的面部交换和视频处理功能。

Stars: ⭐️ 666
Tags: face-swap computer-vision video-editing deepfake
最后活动时间: 2026-06-11

forge-film

基于DAG驱动的多模型并行AI电影生成引擎，利用关键路径法(CPM)实现场景并行调度，大幅提升生成效率。

Stars: ⭐️ 657
Tags: ai-video-generation text-to-video dag-scheduling multi-modal
最后活动时间: 2026-03-26

mpv-upscale-2x_animejanai

基于 Real-ESRGAN 模型的实时动漫视频超分辨率工具，可在 mpv 播放器中将动漫视频实时放大至 4K。

Stars: ⭐️ 652
Tags: real-esrgan super-resolution anime-upscaling tensorrt video
最后活动时间: 2026-04-18

YUME

基于世界模型的实时交互式视频生成系统官方代码。

Stars: ⭐️ 652
Tags: world-model text-to-video interactive-generation
最后活动时间: 2026-01-14

DreamID-V

基于扩散Transformer的高保真视频换脸方法，实现图像到视频的跨模态生成。

Stars: ⭐️ 642
Tags: face-swapping diffusion-transformer video-generation
最后活动时间: 2026-05-22

pose2sim

基于任意摄像头的无标记运动捕捉系统，从2D姿态估计到3D OpenSim运动学分析。

Stars: ⭐️ 635
Tags: pose-estimation motion-capture 3d-kinematics biomechanics
最后活动时间: 2026-05-27

vidi

Vidi 大型多模态模型官方仓库，专注于视频理解与编辑任务。

Stars: ⭐️ 633
Tags: video-understanding video-editing multimodal-llm
最后活动时间: 2026-03-04

Diffuman4D

ICCV 2025论文实现，利用时空扩散模型从稀疏视角视频生成4D一致性人体视图合成。

Stars: ⭐️ 610
Tags: 4d-synthesis diffusion human-avatar novel-view-synthesis
最后活动时间: 2026-04-10

sleap

多动物姿态追踪深度学习框架，支持行为分析和姿态估计，广泛应用于神经科学和动物行为研究。

Stars: ⭐️ 588
Tags: pose-estimation deep-learning animal-tracking computer-vision
最后活动时间: 2026-05-29

DigiHuman

使用姿态估计和地标生成技术实现3D角色自动动画化。

Stars: ⭐️ 571
Tags: 3d-animation pose-estimation digital-human unity
最后活动时间: 2026-05-05

Magic-TryOn

基于大规模视频扩散Transformer的视频虚拟试穿框架，支持高质量服装替换与视频编辑。

Stars: ⭐️ 548
Tags: virtual-tryon video-diffusion transformer video-editing
最后活动时间: 2026-04-30

streamv2v

StreamV2V官方PyTorch实现，支持流式视频到视频转换，适用于实时视频编辑和生成场景。

Stars: ⭐️ 540
Tags: video-generation video-to-video streaming pytorch
最后活动时间: 2025-12-29

ffmpeg-sidecar

FFmpeg Rust封装库，提供直观的迭代器接口，简化视频音频处理流程，适用于多模态AI系统的媒体预处理与后处理。

Stars: ⭐️ 529
Tags: ffmpeg video-processing audio-processing rust
最后活动时间: 2026-05-02

AlayaRenderer

面向游戏与虚拟世界的AI原生渲染引擎，基于扩散模型实现神经渲染和视频生成。

Stars: ⭐️ 507
Tags: neural-rendering diffusion-model video-generation game-rendering ai-renderer
最后活动时间: 2026-05-05

Open-OmniVCus

NeurIPS 2025论文，支持多模态控制条件的主体驱动视频定制。

Stars: ⭐️ 505
Tags: video-generation diffusion-models customization
最后活动时间: 2026-01-03

未分类 (Others)

mediapipe

Google开源的跨平台机器学习框架，提供人脸检测、手势识别、姿态估计等实时ML解决方案，支持多平台部署。

Stars: ⭐️ 35.6k
Tags: 计算机视觉 机器学习 跨平台
最后活动时间: 2026-06-12

sharp

高性能Node.js图像处理库，适用于多模态AI图像预处理

Stars: ⭐️ 32.3k
Tags: image-processing nodejs performance
最后活动时间: 2026-06-11

moondream

轻量级视觉语言模型，专为边缘设备优化部署设计。

Stars: ⭐️ 9.6k
Tags: VLM Tiny Model Edge AI
最后活动时间: 2026-04-20

minimind-v

1小时从零训练26M参数视觉多模态VLM的轻量级框架，适合快速入门和学习VLM架构原理。

Stars: ⭐️ 8.1k
Tags: VLM 多模态 训练框架
最后活动时间: 2026-05-19

GLM-OCR

基于GLM的高精度OCR模型，支持快速全面的文字识别能力。

Stars: ⭐️ 6.9k
Tags: ocr glm image-to-text deep-learning
最后活动时间: 2026-04-21

pytesseract

Google Tesseract OCR的Python封装库，提供强大的光学字符识别能力，支持多种语言和图片格式。

Stars: ⭐️ 6.3k
Tags: ocr tesseract computer-vision python
最后活动时间: 2026-05-25

Bagel

开源统一多模态模型，支持多种模态的理解与生成任务。

Stars: ⭐️ 6.0k
Tags: Multimodal Model Open Source Unified Model
最后活动时间: 2026-05-04

PySceneDetect

基于OpenCV的视频场景检测工具，自动识别视频中的转场与切割点。

Stars: ⭐️ 4.9k
Tags: video-processing scene-detection opencv
最后活动时间: 2026-06-09

LightGlue

ICCV 2023论文实现，轻量级局部特征匹配模型，实现高速图像匹配与姿态估计。

Stars: ⭐️ 4.6k
Tags: Image Matching Computer Vision Deep Learning
最后活动时间: 2026-02-18

VILA

NVIDIA推出的前沿视觉语言模型家族，支持边缘设备、数据中心和云端的多模态AI任务。

Stars: ⭐️ 3.8k
Tags: vision-language-model multimodal vlm
最后活动时间: 2026-03-12

OpenSfM

开源的三维重建流水线库，用于从图像序列中恢复相机位姿和三维结构。

Stars: ⭐️ 3.8k
Tags: sfm 3d-reconstruction photogrammetry
最后活动时间: 2026-06-12

TransUNet

医学图像分割Transformer模型，将Transformer作为编码器用于医学影像分析。

Stars: ⭐️ 3.2k
Tags: medical-imaging segmentation transformer
最后活动时间: 2026-02-25

Pix2Text

开源Python工具，支持布局分析、表格、数学公式（LaTeX）和文字识别，输出Markdown格式。

Stars: ⭐️ 3.1k
Tags: ocr math-formula table-recognition markdown
最后活动时间: 2026-02-07

Segment-and-Track-Anything

开源视频目标分割与跟踪工具，结合SAM和AOT实现交互式视频对象分割。

Stars: ⭐️ 3.1k
Tags: segment-anything video-segmentation object-tracking sam
最后活动时间: 2026-03-13

pytorch-3dunet

基于PyTorch的3D U-Net模型，用于体数据语义分割，支持医学影像等应用。

Stars: ⭐️ 2.4k
Tags: 3d-segmentation unet pytorch volumetric-data
最后活动时间: 2025-12-16

GLM-V

智谱GLM系列多模态推理模型，通过可扩展强化学习实现通用多模态推理能力。

Stars: ⭐️ 2.3k
Tags: vlm multimodal reasoning video-understanding
最后活动时间: 2026-05-16

perception_models

最先进的图像与视频CLIP模型及多模态大语言模型集合。

Stars: ⭐️ 2.3k
Tags: multimodal clip vision-language llm
最后活动时间: 2026-04-13

deepseek-ocr.rs

Rust多后端OCR/VLM引擎，支持DeepSeek-OCR、PaddleOCR-VL等模型，提供OpenAI兼容服务器和CLI，无需Python即可本地运行。

Stars: ⭐️ 2.2k
Tags: ocr vlm deepseek rust openai-compatible
最后活动时间: 2026-02-21

RAE

扩散Transformer与表示自编码器的官方PyTorch实现，用于高质量图像生成。

Stars: ⭐️ 1.9k
Tags: diffusion transformer autoencoder
最后活动时间: 2026-02-25

4D-Humans

基于Transformer的4D人体重建与跟踪方法，用于动态人体运动捕捉。

Stars: ⭐️ 1.6k
Tags: 3d-reconstruction human-pose transformer
最后活动时间: 2026-02-07

HealthGPT

ICML 2025 Spotlight医学视觉语言模型，统一理解与生成能力。

Stars: ⭐️ 1.6k
Tags: Medical AI VLM Healthcare
最后活动时间: 2026-05-07

PytorchOCR

基于PyTorch的OCR工具库，支持多种文字检测和识别算法，适用于文档数字化和场景文字识别。

Stars: ⭐️ 1.5k
Tags: ocr text-detection text-recognition pytorch
最后活动时间: 2026-01-04

Retinexformer

ICCV 2023论文，基于Retinex理论的单阶段Transformer低光照图像增强方法。

Stars: ⭐️ 1.5k
Tags: low-light-enhancement transformer image-restoration
最后活动时间: 2026-05-23

Ovis

新颖的多模态大语言模型架构，通过结构化设计实现视觉与文本嵌入对齐，支持Llama3和Qwen等主流模型。

Stars: ⭐️ 1.5k
Tags: Multimodal Vision-Language Model MLLM
最后活动时间: 2026-02-11

Awesome_Think_With_Images

大型视觉语言模型(LVLM)视觉思维资源与论文清单，涵盖如何利用视觉信息进行复杂推理、规划和生成的研究综述。

Stars: ⭐️ 1.4k
Tags: large-vision-language-models multimodal-reasoning visual-reasoning LVLM
最后活动时间: 2026-03-09

Rex-Omni

CVPR2026论文项目，基于下一帧点预测实现通用目标检测，结合MLLM实现开放集检测能力。

Stars: ⭐️ 1.4k
Tags: mllm object-detection open-set computer-vision
最后活动时间: 2026-02-22

tr

离线中文文本检测与识别SDK，支持弯曲文本、CRNN、CTPN等多种技术。

Stars: ⭐️ 1.4k
Tags: ocr chinese offline text-recognition
最后活动时间: 2026-01-12

transfusion-pytorch

MetaAI Transfusion模型PyTorch实现，单模型实现下一token预测与图像扩散。

Stars: ⭐️ 1.4k
Tags: multimodal transformers diffusion flow-matching
最后活动时间: 2026-01-27

audio-flamingo

Audio Flamingo系列音频理解语言模型PyTorch实现，支持音频描述、问答和推理等多模态任务。

Stars: ⭐️ 1.1k
Tags: audio-language-models multimodal-llm audio-understanding pytorch
最后活动时间: 2025-12-15

PointLLM

ECCV 2024最佳论文候选，赋能大语言模型理解3D点云数据的多模态模型。

Stars: ⭐️ 1.0k
Tags: Point Cloud Multimodal LLM 3D
最后活动时间: 2026-05-15

superpoint_transformer

ICCV'23和3DV'24 Oral论文官方实现，用于高效3D语义分割和全景分割的超点Transformer。

Stars: ⭐️ 1.0k
Tags: 3d point-cloud semantic-segmentation transformer
最后活动时间: 2026-04-21

MocapNET

实时3D人体姿态估计系统，从单目RGB图像直接生成BVH格式的动作捕捉数据，支持显著遮挡情况下的姿态恢复。

Stars: ⭐️ 940
Tags: Pose Estimation Computer Vision 3D Animation TensorFlow
最后活动时间: 2026-04-23

Face-X

面部识别算法与操作演示集合，涵盖人脸检测、识别、动画等多种技术。

Stars: ⭐️ 848
Tags: face-recognition opencv deep-learning
最后活动时间: 2026-02-15

MultimodalOCR

研究大型多模态模型中OCR能力的隐藏奥秘，提供OCRBench基准测试。

Stars: ⭐️ 844
Tags: OCR Multimodal Benchmark
最后活动时间: 2026-05-20

handpose_x

手部21关键点检测与手势识别工具，支持二维手势姿态估计，适用于人机交互和手势控制场景。

Stars: ⭐️ 809
Tags: hand-pose gesture-recognition keypoint-detection pytorch
最后活动时间: 2026-01-10

LLaVA-OneVision-1.5

完全开源的多模态训练框架，致力于降低VLM训练门槛，支持Qwen3等模型。

Stars: ⭐️ 806
Tags: LLaVA 多模态训练 开源框架
最后活动时间: 2025-12-27

Hulu-Med

面向整体医学视觉语言理解的透明通用模型。

Stars: ⭐️ 736
Tags: medical-ai vision-language-model multimodal
最后活动时间: 2026-05-25

OmniVinci

全模态大语言模型，支持视觉、音频和语言的联合理解。

Stars: ⭐️ 672
Tags: multimodal vision-language-model audio-language-model
最后活动时间: 2026-02-26

VLM2Vec

ICLR 2025论文，训练视觉语言模型用于大规模多模态嵌入任务。

Stars: ⭐️ 655
Tags: embedding vision-language-model multimodal
最后活动时间: 2026-05-25

Vision-DeepResearch

首个长周期多模态深度研究MLLM，支持数十轮推理和数百次搜索引擎交互。

Stars: ⭐️ 643
Tags: multimodal deep-research reasoning benchmark
最后活动时间: 2026-06-08

Seg-Zero

基于认知强化学习的推理链引导分割方法，实现图像分割与推理的深度融合。

Stars: ⭐️ 629
Tags: segmentation reasoning reinforcement-learning multimodal
最后活动时间: 2026-01-17

Multimodal-Toolkit

基于HuggingFace Transformers的多模态工具包，支持文本和表格数据的联合建模。

Stars: ⭐️ 620
Tags: multimodal-learning transformers tabular-data huggingface
最后活动时间: 2026-05-04

mvdust3r

Meta Reality Labs开源的MV-DUSt3R实现，可在2秒内从稀疏视图完成单阶段场景重建，支持3D视觉与深度学习应用。

Stars: ⭐️ 587
Tags: 3d-reconstruction computer-vision deep-learning scene-understanding
最后活动时间: 2026-04-20

Emotion-LLaMA

基于指令微调的多模态情感识别与推理模型，能够理解和分析图像中的情感表达。

Stars: ⭐️ 582
Tags: Emotion Recognition Multimodal LLM Instruction Tuning
最后活动时间: 2026-05-15

molmo2

Molmo2是由Allen AI研究所开发的开源视觉-语言模型，支持图像理解、视觉问答等多模态任务，性能优异。

Stars: ⭐️ 553
Tags: vision-language-model multimodal open-source vlm
最后活动时间: 2026-03-18

Senna

连接大型视觉语言模型与端到端自动驾驶的桥梁项目。

Stars: ⭐️ 552
Tags: autonomous-driving vision-language-model end-to-end
最后活动时间: 2026-03-15

cambrian-s

面向视频空间超感知的视觉语言模型，实现视频场景的深度空间理解。

Stars: ⭐️ 546
Tags: 视频理解 空间感知 多模态
最后活动时间: 2026-04-03

Robust-R1

AAAI 2026口头报告论文，实现退化感知推理的鲁棒视觉理解模型。

Stars: ⭐️ 531
Tags: multimodal robustness visual-understanding reasoning
最后活动时间: 2026-01-20

GPT4Scene-and-VLN-R1

利用视觉语言模型从视频中理解3D场景的研究项目，结合VLN导航任务实现场景理解。

Stars: ⭐️ 524
Tags: vision-language-models 3d-scene-understanding video-understanding vln
最后活动时间: 2026-03-02

MeViS

ICCV 2023 & TPAMI 2025 大规模视频分割基准数据集，支持运动表达的视频目标分割任务。

Stars: ⭐️ 524
Tags: video-segmentation multimodal benchmark referring-expression
最后活动时间: 2026-01-08

opennsfw2

Yahoo Open-NSFW 模型的 Keras 实现，用于检测图像中的不雅内容，支持 TensorFlow2 和 JAX 后端。

Stars: ⭐️ 505
Tags: image-classification nsfw-detection keras tensorflow content-moderation
最后活动时间: 2026-05-05

SD-VLM

NeurIPS 2025论文，探索深度编码视觉语言模型的空间测量与理解能力。

Stars: ⭐️ 503
Tags: NeurIPS 2025 空间理解 VLM
最后活动时间: 2025-12-29

👁️ 多模态与音视频 ​

Audio & Speech (TTS/STT) ​

👁️ 多模态与音视频

Audio & Speech (TTS/STT)