🧠 基础大模型
Core large language models and foundation models.
当前分类已收录 144 个相关项目。
Foundation Models
nucleotide-transformer
基因组学和转录组学基础模型,利用Transformer架构理解DNA序列,推动生物信息学AI应用。
- Stars: ⭐️ 854
- Tags:
foundation-modelsgenomicstransformerdeep-learningdna - 最后活动时间: 2026-02-24
Model Architecture
transformers
Hugging Face官方深度学习模型框架,支持文本、视觉、音频和多模态模型的推理与训练,提供数千个预训练模型API。
- Stars: ⭐️ 159.6k
- Tags:
PyTorchTransformers预训练模型 - 最后活动时间: 2026-04-18
nanoGPT
最简单快速的GPT训练与微调框架,由Karpathy开发,适合学习与研究。
- Stars: ⭐️ 56.9k
- Tags:
gptllmtrainingfinetuningpytorch - 最后活动时间: 2025-11-12
minimind
从零开始训练26M参数GPT模型的完整教程,仅需2小时即可完成。适合学习大模型底层原理的开发者。
- Stars: ⭐️ 47.4k
- Tags:
large-language-modelgpttraining-from-scratch - 最后活动时间: 2026-04-10
heretic
全自动LLM审查移除工具,通过abliteration技术解除语言模型的安全限制。适用于模型行为研究和安全测试场景。
- Stars: ⭐️ 19.6k
- Tags:
LLMAbliterationSafety - 最后活动时间: 2026-04-18
RWKV-LM
结合RNN和Transformer优势的创新架构,支持并行训练、线性时间复杂度、无限上下文长度,无需KV缓存。
- Stars: ⭐️ 14.5k
- Tags:
RNNTransformerLLM - 最后活动时间: 2026-04-18
HRM
分层推理模型官方发布版本,专注于深度学习和类脑AI推理能力研究。探索大语言模型的高级推理架构。
- Stars: ⭐️ 12.4k
- Tags:
ReasoningDeep LearningResearch - 最后活动时间: 2026-03-31
dinov3
Meta DINOv3官方PyTorch实现,先进的自监督视觉模型。
- Stars: ⭐️ 10.2k
- Tags:
self-supervisedvision-transformerpytorch - 最后活动时间: 2026-03-30
TabPFN
面向表格数据的基础模型,可在几秒内完成分类任务,无需传统训练过程。
- Stars: ⭐️ 6.1k
- Tags:
foundation-modelstabular-datamachine-learning - 最后活动时间: 2026-04-17
x-transformers
简洁完整的Transformer实现,集成多篇论文的实验性特性,适合研究和开发使用。
- Stars: ⭐️ 5.8k
- Tags:
transformersattentiondeep-learningpytorch - 最后活动时间: 2026-04-16
flash-linear-attention
高效实现最先进的线性注意力模型,为大规模语言模型提供更高效的注意力机制。
- Stars: ⭐️ 4.9k
- Tags:
linear-attentionlarge-language-modelstransformersefficient-attention - 最后活动时间: 2026-04-18
Engram
通过可扩展查找实现条件记忆,为大语言模型提供新的稀疏性维度。
- Stars: ⭐️ 4.3k
- Tags:
llm-architecturememorysparse-models - 最后活动时间: 2026-01-14
LLaDA
大语言扩散模型的官方PyTorch实现,创新性地将扩散模型应用于语言建模领域。
- Stars: ⭐️ 3.7k
- Tags:
Diffusion ModelsLLMPyTorch - 最后活动时间: 2025-11-12
LimiX
面向通用智能的结构化数据建模基础模型研究项目。
- Stars: ⭐️ 3.4k
- Tags:
foundation-modelsstructured-datamachine-learning - 最后活动时间: 2026-04-09
TransformerLens
专注于GPT风格大语言模型机制可解释性的研究库,支持神经元和注意力头的深入分析与可视化,助力理解模型内部工作原理。
- Stars: ⭐️ 3.3k
- Tags:
interpretabilitytransformermechanistic - 最后活动时间: 2026-04-17
matmulfreellm
无矩阵乘法大语言模型的实现,探索高效轻量的新型LLM架构。
- Stars: ⭐️ 3.1k
- Tags:
Efficient LLMLinear TransformerResearch - 最后活动时间: 2025-12-02
DeepMatch
用于推荐系统和广告的深度匹配模型库,支持向量导出用于ANN搜索。
- Stars: ⭐️ 2.4k
- Tags:
deep-learningrecommendationmatchingcollaborative-filtering - 最后活动时间: 2026-04-18
dllm
基于扩散机制的语言模型新范式,探索离散扩散在文本生成中的应用。
- Stars: ⭐️ 2.4k
- Tags:
diffusionllmnlp - 最后活动时间: 2026-04-15
xlstm
xLSTM官方仓库,扩展LSTM架构的新型深度学习模型,挑战Transformer架构的创新尝试。
- Stars: ⭐️ 2.1k
- Tags:
deep-learningllmrnnnlp - 最后活动时间: 2025-11-04
titans-pytorch
Titans架构的PyTorch实现,为Transformer提供SOTA长期记忆能力。
- Stars: ⭐️ 1.9k
- Tags:
transformersmemorydeep-learningpytorch - 最后活动时间: 2026-02-09
BitNet
BitNet论文的PyTorch实现,探索1-bit量化Transformer在大语言模型中的扩展能力,为模型压缩和高效推理提供创新方案。
- Stars: ⭐️ 1.9k
- Tags:
artificial-intelligencedeep-neural-networkstransformersquantizationpytorch - 最后活动时间: 2026-04-13
TimeCapsuleLLM
一种仅使用特定时期数据训练的大语言模型,旨在减少现代偏见对模型的影响。
- Stars: ⭐️ 1.9k
- Tags:
llmbias-reductiontime-period - 最后活动时间: 2026-04-08
remove-refusals-with-transformers
使用HuggingFace Transformers实现LLM拒绝行为移除的研究工具。
- Stars: ⭐️ 1.8k
- Tags:
llm-safetytransformersalignment - 最后活动时间: 2025-11-27
symbolicai
神经符号化AI框架,将符号推理与LLMs结合,提供概率编程能力。
- Stars: ⭐️ 1.7k
- Tags:
Neurosymbolic AILLMProbabilistic Programming - 最后活动时间: 2026-04-17
llm2vec
将大语言模型转化为强大文本编码器的论文代码实现。
- Stars: ⭐️ 1.7k
- Tags:
llmtext-encoderembeddingsrepresentation-learning - 最后活动时间: 2026-04-04
Functionary
支持工具调用和结果解释的聊天语言模型,让 LLM 能够执行函数调用,是构建 AI 智能体的核心能力。
- Stars: ⭐️ 1.6k
- Tags:
function-callingagentsllm - 最后活动时间: 2025-12-03
coconut
训练大语言模型在连续潜在空间中进行推理的研究项目。
- Stars: ⭐️ 1.6k
- Tags:
latent-reasoningllm-researchcontinuous-space - 最后活动时间: 2026-04-08
MiniOneRec
OneRec生成式推荐系统的最小复现版本,探索大模型在推荐系统中的应用。
- Stars: ⭐️ 1.5k
- Tags:
generative-recommendationllmrecommender-system - 最后活动时间: 2026-03-31
mamba.py
简洁高效的Mamba状态空间模型实现,支持纯PyTorch和MLX框架,便于研究和应用。
- Stars: ⭐️ 1.5k
- Tags:
mambapytorchmlxstate-space-model - 最后活动时间: 2026-01-26
bert4torch
优雅的PyTorch版Transformers实现,支持BERT、LLaMA、ChatGLM等主流模型,涵盖NLP各类任务如文本分类、命名实体识别、关系抽取等。
- Stars: ⭐️ 1.3k
- Tags:
TransformersPyTorchNLPLLM - 最后活动时间: 2026-04-17
e3nn
一个支持欧几里得对称性的模块化神经网络框架,专为处理几何深度学习任务而设计。
- Stars: ⭐️ 1.2k
- Tags:
neural-networkgeometric-deep-learningeuclidean-symmetry - 最后活动时间: 2026-02-13
OLMo-core
OLMo生态系统的PyTorch核心构建模块,用于大语言模型开发。
- Stars: ⭐️ 1.2k
- Tags:
pytorchllmolmoopen-sourcetransformers - 最后活动时间: 2026-04-18
fairseq2
Meta AI推出的序列建模工具包,fairseq继任者,支持训练和部署翻译、摘要等序列到序列模型。
- Stars: ⭐️ 1.1k
- Tags:
PyTorch序列建模深度学习 - 最后活动时间: 2026-04-13
z80ai
极简2位量化语言模型,可在8位Z80处理器上运行,支持在复古计算机上进行对话交互。
- Stars: ⭐️ 1.1k
- Tags:
tinymlquantizationlanguage-modelretrocomputing - 最后活动时间: 2026-04-17
tab-transformer-pytorch
TabTransformer的PyTorch实现,专为表格数据设计的注意力网络架构。
- Stars: ⭐️ 1.1k
- Tags:
tabular-datatransformerattentionpytorch - 最后活动时间: 2026-01-08
FlagGems
基于Triton语言实现的大语言模型算子库,提供高性能GPU内核优化。
- Stars: ⭐️ 957
- Tags:
tritonllmkernelsgpu - 最后活动时间: 2026-04-19
multiwoz
MultiWOZ端到端对话模型源码,支持多领域任务型对话系统。
- Stars: ⭐️ 944
- Tags:
dialogue-systemnlpseq2seqmachine-learning - 最后活动时间: 2026-04-18
turboquant-pytorch
Google TurboQuant的PyTorch实现,用于LLM KV缓存压缩,实现5倍压缩率和99.5%注意力保真度。
- Stars: ⭐️ 943
- Tags:
llmkv-cachecompressionpytorchquantization - 最后活动时间: 2026-03-31
femtoGPT
纯Rust实现的极简生成式预训练Transformer,支持GPU和OpenCL加速,适合学习GPT架构原理。
- Stars: ⭐️ 936
- Tags:
gptrustllmneural-networkgpu - 最后活动时间: 2025-10-21
gated_attention
NeurIPS 2025 Oral论文官方实现,提出门控注意力机制,实现非线性、稀疏性和无注意力汇聚点,显著提升大语言模型性能。
- Stars: ⭐️ 932
- Tags:
attention-mechanismlarge-language-modelstransformersneurips - 最后活动时间: 2025-12-20
recurrent-pretraining
大规模深度循环语言模型的预训练与推理代码,探索新型模型架构。
- Stars: ⭐️ 872
- Tags:
pretrainingrecurrent-modelllm-architecturereasoning - 最后活动时间: 2025-12-29
marin
开源基础模型研究与开发框架,支持大语言模型的训练和实验。
- Stars: ⭐️ 855
- Tags:
foundation-modelsllmtraining-frameworkopen-source - 最后活动时间: 2026-04-19
DeepHypergraph
PyTorch图与超图神经网络计算库,支持复杂关系建模,适用于社交网络、推荐系统等场景。
- Stars: ⭐️ 848
- Tags:
hypergraphgraph-neural-networkspytorchdeep-learning - 最后活动时间: 2025-12-31
rotary-embedding-torch
RoFormer论文中旋转位置编码的PyTorch实现,提升Transformer位置表示能力。
- Stars: ⭐️ 806
- Tags:
rotary-embeddingpositional-encodingtransformerspytorch - 最后活动时间: 2026-01-30
R-Zero
ICLR论文项目,实现从零数据开始的自进化推理大语言模型。
- Stars: ⭐️ 795
- Tags:
llmreasoningself-evolvingzero-data - 最后活动时间: 2026-02-04
caveman-compression
一种针对LLM上下文的语义压缩方法,通过移除可预测的语法结构来保留核心事实内容,有效优化上下文长度。
- Stars: ⭐️ 748
- Tags:
llmcompressioncontextsemantic - 最后活动时间: 2025-12-03
OpenOneRec
开源推荐系统基础模型与基准测试,加速生成式推荐领域发展。
- Stars: ⭐️ 745
- Tags:
RecommendationFoundation ModelsBenchmark - 最后活动时间: 2026-03-18
moment
开源时间序列基础模型家族,支持异常检测、分类、预测和插值任务(ICML'24)。
- Stars: ⭐️ 745
- Tags:
time-seriesfoundation-modeltransformersanomaly-detection - 最后活动时间: 2026-02-10
NEO
原生视觉语言模型系列,从第一性原理构建的编码器自由VLM架构。
- Stars: ⭐️ 711
- Tags:
VLMMultimodalNative - 最后活动时间: 2026-03-23
levanter
基于JAX和命名张量的可扩展、可复现基础模型训练框架,提供清晰的模型架构实现。
- Stars: ⭐️ 703
- Tags:
jaxfoundation-modelsdeep-learningtransformers - 最后活动时间: 2026-01-26
recurrentgemma
基于Griffin架构的开源语言模型,结合循环神经网络实现高效推理。
- Stars: ⭐️ 670
- Tags:
LLMRecurrentGriffin - 最后活动时间: 2026-02-06
WeDLM
最快的扩散语言模型,采用标准因果注意力机制并原生支持KV缓存,相比vLLM优化基线实现真正的加速效果。
- Stars: ⭐️ 642
- Tags:
diffusion-modellanguage-modelinference-optimization - 最后活动时间: 2026-03-03
EBT
能量基Transformer的PyTorch实现,实现可泛化推理和可扩展学习。
- Stars: ⭐️ 623
- Tags:
energy-based-modeltransformerreasoningdeep-learninggenerative-ai - 最后活动时间: 2026-03-01
Brain-Cog
脑启发认知智能引擎,基于脉冲神经网络的多尺度脑模拟与类脑AI平台。
- Stars: ⭐️ 615
- Tags:
spiking-neural-networksbrain-inspired-aicomputational-neuroscience - 最后活动时间: 2025-11-06
zeta
使用模块化构建块创建高性能 AI 模型的框架。
- Stars: ⭐️ 580
- Tags:
transformerspytorchllmsattention - 最后活动时间: 2026-04-18
Transformers.jl
Julia语言实现的Transformer模型库,基于Flux深度学习框架。
- Stars: ⭐️ 573
- Tags:
transformerjuliafluxdeep-learning - 最后活动时间: 2026-04-11
eb_jepa
联合嵌入预测架构(JEPA)开源实现库,提供图像、视频及动作条件视频的表征学习示例与规划模型。
- Stars: ⭐️ 558
- Tags:
jeparepresentation-learningself-supervisedvision - 最后活动时间: 2026-04-15
GatedDeltaNet
ICLR 2025论文官方实现:门控Delta网络,使用Delta规则改进Mamba2架构。
- Stars: ⭐️ 550
- Tags:
pytorchmambatransformersiclr2025state-space-models - 最后活动时间: 2026-03-13
treequest
灵活API的树搜索库,专为LLM推理时扩展设计,支持多种搜索策略。
- Stars: ⭐️ 533
- Tags:
tree-searchllm-inferenceinference-scalingsearch-algorithms - 最后活动时间: 2026-02-05
recursive-llm
递归语言模型实现无界上下文处理,通过变量存储上下文而非提示词处理10万+token。
- Stars: ⭐️ 520
- Tags:
llmcontextrecursive - 最后活动时间: 2026-01-31
CL-bench
上下文学习基准测试工具,用于评估大语言模型的上下文学习能力。
- Stars: ⭐️ 507
- Tags:
benchmarkcontext-learninglanguage-modelllm-evaluation - 最后活动时间: 2026-02-08
Open Source Models
CLIP
OpenAI的对比语言-图像预训练模型,实现图像与文本的联合理解。
- Stars: ⭐️ 33.2k
- Tags:
deep-learningmultimodalclipopenai - 最后活动时间: 2026-03-25
Qwen3
阿里云通义千问团队开发的大型语言模型系列,支持多种任务和场景,是领先的开源大模型之一。
- Stars: ⭐️ 27.1k
- Tags:
LLMOpen SourceAlibaba - 最后活动时间: 2026-01-09
unilm
微软开源的大规模自监督预训练项目,涵盖多任务、多语言、多模态基础模型,包括BEiT、BitNet、Kosmos等前沿模型。
- Stars: ⭐️ 22.1k
- Tags:
Foundation ModelsMultimodalMicrosoft - 最后活动时间: 2026-01-23
Qwen
阿里云通义千问官方大语言模型,支持中英双语及多模态能力。提供预训练和对话模型,广泛应用于自然语言处理任务。
- Stars: ⭐️ 21.0k
- Tags:
LLMAlibabaChinese - 最后活动时间: 2026-03-05
gpt-oss
OpenAI发布的开源权重语言模型,包含120B和20B两个版本。
- Stars: ⭐️ 20.0k
- Tags:
open-sourcellmopenailanguage-model - 最后活动时间: 2026-03-27
Chinese-LLaMA-Alpaca
中文LLaMA和Alpaca大语言模型项目,支持本地CPU/GPU训练与部署,提供量化与LoRA微调方案。
- Stars: ⭐️ 18.9k
- Tags:
Chinese LLMLLaMALoRA - 最后活动时间: 2026-04-19
llama-cookbook
Meta官方Llama模型开发指南,涵盖推理、微调、RAG等核心场景的端到端示例,是构建Llama应用的权威参考。
- Stars: ⭐️ 18.3k
- Tags:
Llama微调RAG教程 - 最后活动时间: 2026-04-17
timesfm
Google Research开发的时间序列基础模型,用于时间序列预测的预训练大模型。
- Stars: ⭐️ 18.1k
- Tags:
time-seriesforecastingfoundation-modelgoogle-research - 最后活动时间: 2026-04-15
NeMo
NVIDIA开源的生成式AI框架,支持大语言模型、多模态和语音AI的开发与训练。
- Stars: ⭐️ 17.1k
- Tags:
LLMMultimodalSpeech AINVIDIA - 最后活动时间: 2026-04-18
tfjs-models
TensorFlow.js预训练模型库,可在浏览器中直接运行的目标检测、姿态估计、文本分类等AI模型。
- Stars: ⭐️ 14.8k
- Tags:
tensorflow-jspretrained-modelsbrowser-aimachine-learning - 最后活动时间: 2026-04-15
PaddleFormers
基于飞桨框架的大语言模型库,提供丰富的预训练模型集合,支持多种主流LLM架构的快速部署与应用。
- Stars: ⭐️ 13.0k
- Tags:
llmpaddlepaddlepretrained-modelstransformers - 最后活动时间: 2026-04-17
dinov2
Meta AI开源的自监督视觉模型,提供强大的视觉特征提取能力。
- Stars: ⭐️ 12.7k
- Tags:
self-supervised-learningvisionpytorchtransformer - 最后活动时间: 2026-04-08
Kimi-K2
月之暗面团队开发的大型语言模型系列,提供强大的中文理解与生成能力。
- Stars: ⭐️ 10.6k
- Tags:
llmmoonshot-aikimilanguage-modelchinese - 最后活动时间: 2026-01-21
Chinese-BERT-wwm
中文BERT预训练模型,采用全词掩码技术优化中文NLP任务效果。
- Stars: ⭐️ 10.2k
- Tags:
bertchinese-bertnlppretrained-modelspytorch - 最后活动时间: 2026-04-19
llama-cpp-python
llama.cpp的Python绑定库,支持在本地高效运行LLaMA等大语言模型,支持CPU/GPU推理。
- Stars: ⭐️ 10.2k
- Tags:
llamallminferencepython-bindings - 最后活动时间: 2026-04-14
models
ONNX格式预训练模型集合,提供多种最先进模型的开箱即用版本。
- Stars: ⭐️ 9.5k
- Tags:
ONNXPre-trained ModelsDeep Learning - 最后活动时间: 2026-03-09
ChatRWKV
基于RWKV(100% RNN)语言模型的开源聊天机器人,类似ChatGPT的替代方案。
- Stars: ⭐️ 9.5k
- Tags:
rwkvllmchatbotrnnopen-source - 最后活动时间: 2026-02-11
MiniCPM
面向端侧设备的超高效大语言模型,在推理任务上实现3倍以上的生成加速,适合移动端和边缘设备部署。
- Stars: ⭐️ 8.8k
- Tags:
Edge AIEfficient LLMMobile - 最后活动时间: 2026-02-11
alphafold3
DeepMind AlphaFold 3蛋白质结构预测模型的推理管道,用于生物分子结构预测。
- Stars: ⭐️ 7.9k
- Tags:
protein-foldingbiologydeepmindstructural-biology - 最后活动时间: 2026-04-15
ERNIE
百度文心大模型4.5官方仓库,包含ERNIEKit工业级开发工具包,基于PaddlePaddle。
- Stars: ⭐️ 7.7k
- Tags:
ERNIELLMVLMPaddlePaddle - 最后活动时间: 2026-01-04
InternLM
上海人工智能实验室开源的大语言模型系列,支持长上下文、微调和RLHF,中英文能力出色。
- Stars: ⭐️ 7.2k
- Tags:
LLMOpen SourceChineseRLHF - 最后活动时间: 2025-10-30
Chinese-LLaMA-Alpaca-2
中文LLaMA-2和Alpaca-2大模型项目,支持64K超长上下文。专为中文优化,适合各类NLP任务。
- Stars: ⭐️ 7.2k
- Tags:
中文大模型LLaMA-2长上下文 - 最后活动时间: 2026-04-19
DeepSeek-Coder-V2
突破闭源模型壁垒的代码智能大模型,支持多种编程语言的高性能代码生成与理解。
- Stars: ⭐️ 6.6k
- Tags:
code-generationllmopen-sourcecode-intelligence - 最后活动时间: 2025-11-11
OLMo
Allen AI开源的完全开放大语言模型,包含训练、评估和推理完整代码。
- Stars: ⭐️ 6.5k
- Tags:
llmopen-sourceai2training - 最后活动时间: 2025-11-24
CodeGen
Salesforce开源的代码生成模型家族,TPU-v4训练,性能媲美OpenAI Codex。
- Stars: ⭐️ 5.2k
- Tags:
Code GenerationProgram SynthesisTPUOpen Source - 最后活动时间: 2025-10-27
chronos-forecasting
基于预训练Transformer的时间序列预测模型,支持零样本预测能力,适用于多种时序预测场景。
- Stars: ⭐️ 5.2k
- Tags:
Time SeriesForecastingFoundation Models - 最后活动时间: 2026-04-17
Huatuo-Llama-Med-Chinese
基于中文医学知识的大语言模型,专注于医疗问答与诊断辅助场景。
- Stars: ⭐️ 5.0k
- Tags:
医疗AI中文LLM指令微调 - 最后活动时间: 2026-04-14
gemma
Google DeepMind开源的轻量级大语言模型库,提供高效且可商用的基础模型。
- Stars: ⭐️ 5.0k
- Tags:
LLMGoogle DeepMindOpen Source - 最后活动时间: 2026-04-17
GLM-4.5
智谱AI推出的新一代基础大模型,具备智能体、推理和编程(ARC)能力,采用MoE架构。
- Stars: ⭐️ 4.3k
- Tags:
LLMMoEAgentReasoning - 最后活动时间: 2026-02-01
llama3-Chinese-chat
Llama3/Llama3.1中文后训练版,提供微调权重、训练推理教程及部署文档,助力中文大模型开发。
- Stars: ⭐️ 4.2k
- Tags:
Llama3中文微调大语言模型 - 最后活动时间: 2026-02-21
nixtla
TimeGPT-1首个生产级时间序列基础模型,基于1000亿数据点训练,支持预测和异常检测。
- Stars: ⭐️ 3.9k
- Tags:
Time SeriesForecastingFoundation Model - 最后活动时间: 2026-04-13
evo2
Arc Institute发布的基因组建模与设计大模型,覆盖所有生命领域,可用于基因组序列分析与生成。
- Stars: ⭐️ 3.8k
- Tags:
genomicsfoundation-modelbiologyAI-for-science - 最后活动时间: 2026-03-20
GLM-5
智谱AI开源的第五代大语言模型,专注于从代码生成到智能体工程的全栈AI能力。支持复杂推理、代码编写和自主智能体任务执行。
- Stars: ⭐️ 2.9k
- Tags:
LLMAgentic AICoding - 最后活动时间: 2026-04-17
guppylm
一个约9M参数的小型语言模型,以小鱼的风格进行对话。轻量级开源LLM,适合学习和实验。
- Stars: ⭐️ 2.9k
- Tags:
llmsmall-language-modelopen-source - 最后活动时间: 2026-04-15
MiniMax-M2
MiniMax推出的大语言模型,专为编码和智能体工作流优化,支持复杂任务处理。
- Stars: ⭐️ 2.6k
- Tags:
large-language-modelsllmcoding - 最后活动时间: 2025-11-13
Step-3.5-Flash
阶跃星辰推出的高效智能体模型,具备快速、精准的 Agentic Intelligence 能力。
- Stars: ⭐️ 2.0k
- Tags:
LLMAgentic AIStepFun - 最后活动时间: 2026-04-03
Chinese-LLaMA-Alpaca-3
基于Meta Llama 3开发的中文大语言模型,提供完整的预训练和指令微调模型,适合中文NLP任务。
- Stars: ⭐️ 2.0k
- Tags:
Llama-3Chinese LLMOpen Source - 最后活动时间: 2026-04-19
NitroGen
专为通用游戏智能体设计的基础模型,旨在提升游戏环境中的决策与交互能力。
- Stars: ⭐️ 1.9k
- Tags:
Foundation ModelGame AIReinforcement Learning - 最后活动时间: 2026-01-25
Magma
CVPR 2025 论文项目,一个用于多模态 AI 智能体的基础模型,支持复杂任务规划与执行。
- Stars: ⭐️ 1.9k
- Tags:
Foundation ModelMultimodal AIAutonomous Agents - 最后活动时间: 2026-03-03
spacy-models
spaCy自然语言处理库的预训练统计模型集合。
- Stars: ⭐️ 1.9k
- Tags:
spacynlpmodelsmachine-learning - 最后活动时间: 2026-03-20
history-llms
专注于训练历史领域大语言模型的信息中心,致力于构建最大规模的历史领域LLM。
- Stars: ⭐️ 1.7k
- Tags:
llmhistorydomain-specifictraining - 最后活动时间: 2025-12-22
mattergen
微软开源的生成式AI模型,专注于无机材料设计,覆盖整个元素周期表,加速新材料发现。
- Stars: ⭐️ 1.7k
- Tags:
材料科学生成模型科学AI - 最后活动时间: 2026-02-27
Chinese-XLNet
中文XLNet预训练模型,提供PyTorch和TensorFlow实现,适用于各类中文NLP任务。
- Stars: ⭐️ 1.6k
- Tags:
xlnetchinesepretrained-modelnlp - 最后活动时间: 2026-04-19
bumblebee
Elixir语言的预训练神经网络模型库,集成Hugging Face模型,支持Transformer架构。
- Stars: ⭐️ 1.6k
- Tags:
elixirpretrained-modelshugging-facetransformernx - 最后活动时间: 2026-04-10
Marco-o1
面向现实世界解决方案的开放大型推理模型。
- Stars: ⭐️ 1.5k
- Tags:
llmreasoning-modelopen-source - 最后活动时间: 2026-02-13
scGPT
单细胞分析基础模型,将Transformer应用于生物信息学领域。
- Stars: ⭐️ 1.5k
- Tags:
single-cellfoundation-modelbioinformaticsllm - 最后活动时间: 2025-11-12
evo
从分子到基因组规模的生物学基础模型,能够预测和生成DNA、RNA和蛋白质序列。
- Stars: ⭐️ 1.5k
- Tags:
BiologyGenomicsFoundation Model - 最后活动时间: 2026-03-20
Emu3.5
Emu3.5 原生多模态模型,作为世界学习者探索通用智能。
- Stars: ⭐️ 1.5k
- Tags:
multimodal-llmworld-modelfoundation-model - 最后活动时间: 2025-12-30
Chinese-ELECTRA
中文ELECTRA预训练模型,采用生成器-判别器架构,训练效率高于传统BERT。
- Stars: ⭐️ 1.4k
- Tags:
electrachinesepretrained-modelnlp - 最后活动时间: 2026-04-19
Dream
7B参数扩散大语言模型,采用扩散架构实现高质量文本生成。
- Stars: ⭐️ 1.2k
- Tags:
diffusion-modellanguage-modelopen-source - 最后活动时间: 2025-11-21
giga-models
综合性多模态、生成式和感知模型仓库平台,提供丰富的预训练模型资源。
- Stars: ⭐️ 1.0k
- Tags:
multimodal-modelsgenerative-aiperceptual-models - 最后活动时间: 2025-12-08
keras-hub
Keras 3官方预训练模型中心,支持JAX、TensorFlow、PyTorch后端,涵盖LLM、CV等多种模型。
- Stars: ⭐️ 975
- Tags:
Keras预训练模型多后端 - 最后活动时间: 2026-04-17
Large-Time-Series-Model
ICML 2024论文官方代码,时间序列领域的大型生成预训练Transformer模型。
- Stars: ⭐️ 966
- Tags:
time-seriesfoundation-modeltransformer - 最后活动时间: 2026-03-22
Time-MoE
ICLR 2025 Spotlight论文官方实现,十亿级时间序列基础模型,采用混合专家架构。
- Stars: ⭐️ 949
- Tags:
deep-learningfoundation-modelstime-seriesmixture-of-experts - 最后活动时间: 2026-03-21
cosmos-reason1
NVIDIA推出的物理常识推理模型,通过长链式思维推理理解物理世界并生成具身决策。
- Stars: ⭐️ 935
- Tags:
embodied-aireasoningnvidiamultimodal - 最后活动时间: 2026-01-06
aurora
微软开源的地球系统预测基础模型,支持天气预报、海洋波浪预测和热带气旋追踪等多种大气科学任务。
- Stars: ⭐️ 873
- Tags:
foundation-modelsweather-predictiondeep-learningaurora-model - 最后活动时间: 2025-11-20
MiniGPT-4-ZH
MiniGPT-4中文部署指南与翻译,完善了本地化部署细节。
- Stars: ⭐️ 860
- Tags:
minigpt-4deploymentchinese - 最后活动时间: 2026-02-11
Opus-MT
开源神经机器翻译模型和Web服务,支持多语言翻译。
- Stars: ⭐️ 802
- Tags:
machine-translationnlpneural-machine-translationtranslation - 最后活动时间: 2026-02-23
CodeGen
Meta AI Research的代码生成模型工具包,包含预训练模型和完整训练评估流程。
- Stars: ⭐️ 773
- Tags:
code-generationllmfacebook-research - 最后活动时间: 2026-03-12
Intern-S1
面向科学领域的多模态基础模型,支持科学任务的视觉语言理解。
- Stars: ⭐️ 772
- Tags:
scientific-aimultimodal-foundation-modelopen-source - 最后活动时间: 2026-03-27
tabicl
最先进的表格数据基础模型,为结构化数据提供强大的深度学习能力。
- Stars: ⭐️ 766
- Tags:
deep-learningfoundation-modelstabular-datamachine-learning - 最后活动时间: 2026-03-25
DNABERT
基于BERT架构的DNA序列预训练模型,将NLP技术应用于基因组分析,支持DNA序列分类和预测任务。
- Stars: ⭐️ 750
- Tags:
GenomicsTransformerBio-AI - 最后活动时间: 2026-01-22
MacBERT
改进的中文BERT预训练模型,采用掩码语言模型纠错策略,在多项中文NLP任务上表现优异。
- Stars: ⭐️ 708
- Tags:
bertmacbertchinesepretrained-model - 最后活动时间: 2026-04-19
openfold-3
基于AlphaFold3的完全开源生物分子结构预测模型,用于蛋白质和分子结构的高精度预测。
- Stars: ⭐️ 695
- Tags:
alphafoldprotein-foldingbiomoleculardeep-learningstructural-biology - 最后活动时间: 2026-04-16
Chinese-Mixtral
中文Mixtral混合专家大模型,支持32K/64K上下文,适用于长文本处理场景。
- Stars: ⭐️ 610
- Tags:
mixtralmoechinesellm - 最后活动时间: 2026-04-19
SaProt
基于结构字母表(AA+3Di)的蛋白质语言模型,融合FoldSeek结构信息实现结构感知的蛋白质序列表征学习。
- Stars: ⭐️ 586
- Tags:
protein-language-modelalphafold2foldseekrepresentation-learning - 最后活动时间: 2026-03-08
Open-dLLM
开源扩散语言模型,专注于代码生成任务。
- Stars: ⭐️ 581
- Tags:
diffusion-modelslarge-language-modelscode-generation - 最后活动时间: 2026-03-01
VibeThinker
仅1.5B参数的小型推理模型,通过多样性驱动优化实现大模型级别的推理能力,在数学和编程基准测试中表现优异。
- Stars: ⭐️ 572
- Tags:
Reasoning ModelSmall LLMOpen Source - 最后活动时间: 2025-11-19
protein_bert
基于BERT架构的蛋白质序列预训练模型,用于蛋白质结构预测和功能分析。
- Stars: ⭐️ 572
- Tags:
bertproteinbioinformaticsdeep-learningtransformers - 最后活动时间: 2026-04-07
legalbench
开放科学项目,用于评估基础模型在法律推理任务上的能力,涵盖多种法律场景。
- Stars: ⭐️ 570
- Tags:
legal-aillm-benchmarklegal-reasoningfoundation-models - 最后活动时间: 2026-03-30
MiniMax-M2.1
MiniMax 推出的 SOTA 大模型,专为实际开发和智能体应用优化。
- Stars: ⭐️ 548
- Tags:
llmagentlarge-language-modelsai-coding-models - 最后活动时间: 2026-01-28
OpenLTM
大型时间序列模型的实现、预训练代码和数据集集合。
- Stars: ⭐️ 539
- Tags:
deep-learninglarge-modeltime-seriesfoundation-model - 最后活动时间: 2026-03-22
Falcon-Perception
Falcon-Perception 和 Falcon-OCR 模型的推理仓库,支持早期融合的原生多模态密集自回归 Transformer 模型。
- Stars: ⭐️ 526
- Tags:
transformermultimodalocrperceptioninference - 最后活动时间: 2026-04-14
Text Models
gpt4free
免费访问多种强大语言模型的集合,包括GPT、DeepSeek、Gemini等主流模型。
- Stars: ⭐️ 66.0k
- Tags:
GPTFree APILanguage Models - 最后活动时间: 2026-04-18
Qwen3-Coder
Qwen团队推出的代码专用大语言模型,专为编程任务优化。
- Stars: ⭐️ 16.4k
- Tags:
Code-LLMQwenProgramming - 最后活动时间: 2026-03-24
text-to-text-transfer-transformer
Google T5模型官方实现,探索迁移学习极限的统一文本到文本Transformer框架。
- Stars: ⭐️ 6.5k
- Tags:
t5transformertransfer-learningnlp - 最后活动时间: 2026-01-14
Synonyms
中文近义词工具包,支持聊天机器人和智能问答系统。
- Stars: ⭐️ 5.1k
- Tags:
nlpsynonymschatbotchinese-nlp - 最后活动时间: 2026-02-01
Qwen3.5
Qwen团队开发的大语言模型系列,提供强大的文本生成与理解能力。
- Stars: ⭐️ 2.8k
- Tags:
LLMQwenOpen-Source - 最后活动时间: 2026-04-16
model2vec
快速高效的静态词嵌入模型,提供业界领先的嵌入质量和推理速度。
- Stars: ⭐️ 2.0k
- Tags:
embeddingsnlpsentence-transformersword-embeddings - 最后活动时间: 2026-04-17
ModernBERT
现代化BERT架构升级,结合架构改进与规模扩展,提升嵌入表示能力。
- Stars: ⭐️ 1.7k
- Tags:
bertembeddingsnlp - 最后活动时间: 2026-03-01
detoxify
基于PyTorch Lightning和Transformers构建的毒性评论检测模型,支持多种语言的仇恨言论和有害内容分类。
- Stars: ⭐️ 1.2k
- Tags:
NLPToxicity DetectionBERT - 最后活动时间: 2026-04-06
vec2text
将深度学习表示(如句子嵌入)解码回文本的工具库,支持嵌入向量的逆向还原。
- Stars: ⭐️ 1.1k
- Tags:
embeddingsnlptext-decodingsentence-embeddings - 最后活动时间: 2025-12-27
Bert-In-Relation-Extraction
基于BERT的中文实体关系抽取项目,用于从文本中识别和提取实体之间的语义关系。
- Stars: ⭐️ 758
- Tags:
bertrelation-extractionnlpchinese - 最后活动时间: 2026-04-18
