Skip to content

🧠 基础大模型

Core large language models and foundation models.

当前分类已收录 144 个相关项目。

Foundation Models

nucleotide-transformer

基因组学和转录组学基础模型,利用Transformer架构理解DNA序列,推动生物信息学AI应用。

  • Stars: ⭐️ 854
  • Tags: foundation-models genomics transformer deep-learning dna
  • 最后活动时间: 2026-02-24

Model Architecture

transformers

Hugging Face官方深度学习模型框架,支持文本、视觉、音频和多模态模型的推理与训练,提供数千个预训练模型API。

  • Stars: ⭐️ 159.6k
  • Tags: PyTorch Transformers 预训练模型
  • 最后活动时间: 2026-04-18

nanoGPT

最简单快速的GPT训练与微调框架,由Karpathy开发,适合学习与研究。

  • Stars: ⭐️ 56.9k
  • Tags: gpt llm training finetuning pytorch
  • 最后活动时间: 2025-11-12

minimind

从零开始训练26M参数GPT模型的完整教程,仅需2小时即可完成。适合学习大模型底层原理的开发者。

  • Stars: ⭐️ 47.4k
  • Tags: large-language-model gpt training-from-scratch
  • 最后活动时间: 2026-04-10

heretic

全自动LLM审查移除工具,通过abliteration技术解除语言模型的安全限制。适用于模型行为研究和安全测试场景。

  • Stars: ⭐️ 19.6k
  • Tags: LLM Abliteration Safety
  • 最后活动时间: 2026-04-18

RWKV-LM

结合RNN和Transformer优势的创新架构,支持并行训练、线性时间复杂度、无限上下文长度,无需KV缓存。

  • Stars: ⭐️ 14.5k
  • Tags: RNN Transformer LLM
  • 最后活动时间: 2026-04-18

HRM

分层推理模型官方发布版本,专注于深度学习和类脑AI推理能力研究。探索大语言模型的高级推理架构。

  • Stars: ⭐️ 12.4k
  • Tags: Reasoning Deep Learning Research
  • 最后活动时间: 2026-03-31

dinov3

Meta DINOv3官方PyTorch实现,先进的自监督视觉模型。

  • Stars: ⭐️ 10.2k
  • Tags: self-supervised vision-transformer pytorch
  • 最后活动时间: 2026-03-30

TabPFN

面向表格数据的基础模型,可在几秒内完成分类任务,无需传统训练过程。

  • Stars: ⭐️ 6.1k
  • Tags: foundation-models tabular-data machine-learning
  • 最后活动时间: 2026-04-17

x-transformers

简洁完整的Transformer实现,集成多篇论文的实验性特性,适合研究和开发使用。

  • Stars: ⭐️ 5.8k
  • Tags: transformers attention deep-learning pytorch
  • 最后活动时间: 2026-04-16

flash-linear-attention

高效实现最先进的线性注意力模型,为大规模语言模型提供更高效的注意力机制。

  • Stars: ⭐️ 4.9k
  • Tags: linear-attention large-language-models transformers efficient-attention
  • 最后活动时间: 2026-04-18

Engram

通过可扩展查找实现条件记忆,为大语言模型提供新的稀疏性维度。

  • Stars: ⭐️ 4.3k
  • Tags: llm-architecture memory sparse-models
  • 最后活动时间: 2026-01-14

LLaDA

大语言扩散模型的官方PyTorch实现,创新性地将扩散模型应用于语言建模领域。

  • Stars: ⭐️ 3.7k
  • Tags: Diffusion Models LLM PyTorch
  • 最后活动时间: 2025-11-12

LimiX

面向通用智能的结构化数据建模基础模型研究项目。

  • Stars: ⭐️ 3.4k
  • Tags: foundation-models structured-data machine-learning
  • 最后活动时间: 2026-04-09

TransformerLens

专注于GPT风格大语言模型机制可解释性的研究库,支持神经元和注意力头的深入分析与可视化,助力理解模型内部工作原理。

  • Stars: ⭐️ 3.3k
  • Tags: interpretability transformer mechanistic
  • 最后活动时间: 2026-04-17

matmulfreellm

无矩阵乘法大语言模型的实现,探索高效轻量的新型LLM架构。

  • Stars: ⭐️ 3.1k
  • Tags: Efficient LLM Linear Transformer Research
  • 最后活动时间: 2025-12-02

DeepMatch

用于推荐系统和广告的深度匹配模型库,支持向量导出用于ANN搜索。

  • Stars: ⭐️ 2.4k
  • Tags: deep-learning recommendation matching collaborative-filtering
  • 最后活动时间: 2026-04-18

dllm

基于扩散机制的语言模型新范式,探索离散扩散在文本生成中的应用。

  • Stars: ⭐️ 2.4k
  • Tags: diffusion llm nlp
  • 最后活动时间: 2026-04-15

xlstm

xLSTM官方仓库,扩展LSTM架构的新型深度学习模型,挑战Transformer架构的创新尝试。

  • Stars: ⭐️ 2.1k
  • Tags: deep-learning llm rnn nlp
  • 最后活动时间: 2025-11-04

titans-pytorch

Titans架构的PyTorch实现,为Transformer提供SOTA长期记忆能力。

  • Stars: ⭐️ 1.9k
  • Tags: transformers memory deep-learning pytorch
  • 最后活动时间: 2026-02-09

BitNet

BitNet论文的PyTorch实现,探索1-bit量化Transformer在大语言模型中的扩展能力,为模型压缩和高效推理提供创新方案。

  • Stars: ⭐️ 1.9k
  • Tags: artificial-intelligence deep-neural-networks transformers quantization pytorch
  • 最后活动时间: 2026-04-13

TimeCapsuleLLM

一种仅使用特定时期数据训练的大语言模型,旨在减少现代偏见对模型的影响。

  • Stars: ⭐️ 1.9k
  • Tags: llm bias-reduction time-period
  • 最后活动时间: 2026-04-08

remove-refusals-with-transformers

使用HuggingFace Transformers实现LLM拒绝行为移除的研究工具。

  • Stars: ⭐️ 1.8k
  • Tags: llm-safety transformers alignment
  • 最后活动时间: 2025-11-27

symbolicai

神经符号化AI框架,将符号推理与LLMs结合,提供概率编程能力。

  • Stars: ⭐️ 1.7k
  • Tags: Neurosymbolic AI LLM Probabilistic Programming
  • 最后活动时间: 2026-04-17

llm2vec

将大语言模型转化为强大文本编码器的论文代码实现。

  • Stars: ⭐️ 1.7k
  • Tags: llm text-encoder embeddings representation-learning
  • 最后活动时间: 2026-04-04

Functionary

支持工具调用和结果解释的聊天语言模型,让 LLM 能够执行函数调用,是构建 AI 智能体的核心能力。

  • Stars: ⭐️ 1.6k
  • Tags: function-calling agents llm
  • 最后活动时间: 2025-12-03

coconut

训练大语言模型在连续潜在空间中进行推理的研究项目。

  • Stars: ⭐️ 1.6k
  • Tags: latent-reasoning llm-research continuous-space
  • 最后活动时间: 2026-04-08

MiniOneRec

OneRec生成式推荐系统的最小复现版本,探索大模型在推荐系统中的应用。

  • Stars: ⭐️ 1.5k
  • Tags: generative-recommendation llm recommender-system
  • 最后活动时间: 2026-03-31

mamba.py

简洁高效的Mamba状态空间模型实现,支持纯PyTorch和MLX框架,便于研究和应用。

  • Stars: ⭐️ 1.5k
  • Tags: mamba pytorch mlx state-space-model
  • 最后活动时间: 2026-01-26

bert4torch

优雅的PyTorch版Transformers实现,支持BERT、LLaMA、ChatGLM等主流模型,涵盖NLP各类任务如文本分类、命名实体识别、关系抽取等。

  • Stars: ⭐️ 1.3k
  • Tags: Transformers PyTorch NLP LLM
  • 最后活动时间: 2026-04-17

e3nn

一个支持欧几里得对称性的模块化神经网络框架,专为处理几何深度学习任务而设计。

  • Stars: ⭐️ 1.2k
  • Tags: neural-network geometric-deep-learning euclidean-symmetry
  • 最后活动时间: 2026-02-13

OLMo-core

OLMo生态系统的PyTorch核心构建模块,用于大语言模型开发。

  • Stars: ⭐️ 1.2k
  • Tags: pytorch llm olmo open-source transformers
  • 最后活动时间: 2026-04-18

fairseq2

Meta AI推出的序列建模工具包,fairseq继任者,支持训练和部署翻译、摘要等序列到序列模型。

  • Stars: ⭐️ 1.1k
  • Tags: PyTorch 序列建模 深度学习
  • 最后活动时间: 2026-04-13

z80ai

极简2位量化语言模型,可在8位Z80处理器上运行,支持在复古计算机上进行对话交互。

  • Stars: ⭐️ 1.1k
  • Tags: tinyml quantization language-model retrocomputing
  • 最后活动时间: 2026-04-17

tab-transformer-pytorch

TabTransformer的PyTorch实现,专为表格数据设计的注意力网络架构。

  • Stars: ⭐️ 1.1k
  • Tags: tabular-data transformer attention pytorch
  • 最后活动时间: 2026-01-08

FlagGems

基于Triton语言实现的大语言模型算子库,提供高性能GPU内核优化。

  • Stars: ⭐️ 957
  • Tags: triton llm kernels gpu
  • 最后活动时间: 2026-04-19

multiwoz

MultiWOZ端到端对话模型源码,支持多领域任务型对话系统。

  • Stars: ⭐️ 944
  • Tags: dialogue-system nlp seq2seq machine-learning
  • 最后活动时间: 2026-04-18

turboquant-pytorch

Google TurboQuant的PyTorch实现,用于LLM KV缓存压缩,实现5倍压缩率和99.5%注意力保真度。

  • Stars: ⭐️ 943
  • Tags: llm kv-cache compression pytorch quantization
  • 最后活动时间: 2026-03-31

femtoGPT

纯Rust实现的极简生成式预训练Transformer,支持GPU和OpenCL加速,适合学习GPT架构原理。

  • Stars: ⭐️ 936
  • Tags: gpt rust llm neural-network gpu
  • 最后活动时间: 2025-10-21

gated_attention

NeurIPS 2025 Oral论文官方实现,提出门控注意力机制,实现非线性、稀疏性和无注意力汇聚点,显著提升大语言模型性能。

  • Stars: ⭐️ 932
  • Tags: attention-mechanism large-language-models transformers neurips
  • 最后活动时间: 2025-12-20

recurrent-pretraining

大规模深度循环语言模型的预训练与推理代码,探索新型模型架构。

  • Stars: ⭐️ 872
  • Tags: pretraining recurrent-model llm-architecture reasoning
  • 最后活动时间: 2025-12-29

marin

开源基础模型研究与开发框架,支持大语言模型的训练和实验。

  • Stars: ⭐️ 855
  • Tags: foundation-models llm training-framework open-source
  • 最后活动时间: 2026-04-19

DeepHypergraph

PyTorch图与超图神经网络计算库,支持复杂关系建模,适用于社交网络、推荐系统等场景。

  • Stars: ⭐️ 848
  • Tags: hypergraph graph-neural-networks pytorch deep-learning
  • 最后活动时间: 2025-12-31

rotary-embedding-torch

RoFormer论文中旋转位置编码的PyTorch实现,提升Transformer位置表示能力。

  • Stars: ⭐️ 806
  • Tags: rotary-embedding positional-encoding transformers pytorch
  • 最后活动时间: 2026-01-30

R-Zero

ICLR论文项目,实现从零数据开始的自进化推理大语言模型。

  • Stars: ⭐️ 795
  • Tags: llm reasoning self-evolving zero-data
  • 最后活动时间: 2026-02-04

caveman-compression

一种针对LLM上下文的语义压缩方法,通过移除可预测的语法结构来保留核心事实内容,有效优化上下文长度。

  • Stars: ⭐️ 748
  • Tags: llm compression context semantic
  • 最后活动时间: 2025-12-03

OpenOneRec

开源推荐系统基础模型与基准测试,加速生成式推荐领域发展。

  • Stars: ⭐️ 745
  • Tags: Recommendation Foundation Models Benchmark
  • 最后活动时间: 2026-03-18

moment

开源时间序列基础模型家族,支持异常检测、分类、预测和插值任务(ICML'24)。

  • Stars: ⭐️ 745
  • Tags: time-series foundation-model transformers anomaly-detection
  • 最后活动时间: 2026-02-10

NEO

原生视觉语言模型系列,从第一性原理构建的编码器自由VLM架构。

  • Stars: ⭐️ 711
  • Tags: VLM Multimodal Native
  • 最后活动时间: 2026-03-23

levanter

基于JAX和命名张量的可扩展、可复现基础模型训练框架,提供清晰的模型架构实现。

  • Stars: ⭐️ 703
  • Tags: jax foundation-models deep-learning transformers
  • 最后活动时间: 2026-01-26

recurrentgemma

基于Griffin架构的开源语言模型,结合循环神经网络实现高效推理。

  • Stars: ⭐️ 670
  • Tags: LLM Recurrent Griffin
  • 最后活动时间: 2026-02-06

WeDLM

最快的扩散语言模型,采用标准因果注意力机制并原生支持KV缓存,相比vLLM优化基线实现真正的加速效果。

  • Stars: ⭐️ 642
  • Tags: diffusion-model language-model inference-optimization
  • 最后活动时间: 2026-03-03

EBT

能量基Transformer的PyTorch实现,实现可泛化推理和可扩展学习。

  • Stars: ⭐️ 623
  • Tags: energy-based-model transformer reasoning deep-learning generative-ai
  • 最后活动时间: 2026-03-01

Brain-Cog

脑启发认知智能引擎,基于脉冲神经网络的多尺度脑模拟与类脑AI平台。

  • Stars: ⭐️ 615
  • Tags: spiking-neural-networks brain-inspired-ai computational-neuroscience
  • 最后活动时间: 2025-11-06

zeta

使用模块化构建块创建高性能 AI 模型的框架。

  • Stars: ⭐️ 580
  • Tags: transformers pytorch llms attention
  • 最后活动时间: 2026-04-18

Transformers.jl

Julia语言实现的Transformer模型库,基于Flux深度学习框架。

  • Stars: ⭐️ 573
  • Tags: transformer julia flux deep-learning
  • 最后活动时间: 2026-04-11

eb_jepa

联合嵌入预测架构(JEPA)开源实现库,提供图像、视频及动作条件视频的表征学习示例与规划模型。

  • Stars: ⭐️ 558
  • Tags: jepa representation-learning self-supervised vision
  • 最后活动时间: 2026-04-15

GatedDeltaNet

ICLR 2025论文官方实现:门控Delta网络,使用Delta规则改进Mamba2架构。

  • Stars: ⭐️ 550
  • Tags: pytorch mamba transformers iclr2025 state-space-models
  • 最后活动时间: 2026-03-13

treequest

灵活API的树搜索库,专为LLM推理时扩展设计,支持多种搜索策略。

  • Stars: ⭐️ 533
  • Tags: tree-search llm-inference inference-scaling search-algorithms
  • 最后活动时间: 2026-02-05

recursive-llm

递归语言模型实现无界上下文处理,通过变量存储上下文而非提示词处理10万+token。

  • Stars: ⭐️ 520
  • Tags: llm context recursive
  • 最后活动时间: 2026-01-31

CL-bench

上下文学习基准测试工具,用于评估大语言模型的上下文学习能力。

  • Stars: ⭐️ 507
  • Tags: benchmark context-learning language-model llm-evaluation
  • 最后活动时间: 2026-02-08

Open Source Models

CLIP

OpenAI的对比语言-图像预训练模型,实现图像与文本的联合理解。

  • Stars: ⭐️ 33.2k
  • Tags: deep-learning multimodal clip openai
  • 最后活动时间: 2026-03-25

Qwen3

阿里云通义千问团队开发的大型语言模型系列,支持多种任务和场景,是领先的开源大模型之一。

  • Stars: ⭐️ 27.1k
  • Tags: LLM Open Source Alibaba
  • 最后活动时间: 2026-01-09

unilm

微软开源的大规模自监督预训练项目,涵盖多任务、多语言、多模态基础模型,包括BEiT、BitNet、Kosmos等前沿模型。

  • Stars: ⭐️ 22.1k
  • Tags: Foundation Models Multimodal Microsoft
  • 最后活动时间: 2026-01-23

Qwen

阿里云通义千问官方大语言模型,支持中英双语及多模态能力。提供预训练和对话模型,广泛应用于自然语言处理任务。

  • Stars: ⭐️ 21.0k
  • Tags: LLM Alibaba Chinese
  • 最后活动时间: 2026-03-05

gpt-oss

OpenAI发布的开源权重语言模型,包含120B和20B两个版本。

  • Stars: ⭐️ 20.0k
  • Tags: open-source llm openai language-model
  • 最后活动时间: 2026-03-27

Chinese-LLaMA-Alpaca

中文LLaMA和Alpaca大语言模型项目,支持本地CPU/GPU训练与部署,提供量化与LoRA微调方案。

  • Stars: ⭐️ 18.9k
  • Tags: Chinese LLM LLaMA LoRA
  • 最后活动时间: 2026-04-19

llama-cookbook

Meta官方Llama模型开发指南,涵盖推理、微调、RAG等核心场景的端到端示例,是构建Llama应用的权威参考。

  • Stars: ⭐️ 18.3k
  • Tags: Llama 微调 RAG 教程
  • 最后活动时间: 2026-04-17

timesfm

Google Research开发的时间序列基础模型,用于时间序列预测的预训练大模型。

  • Stars: ⭐️ 18.1k
  • Tags: time-series forecasting foundation-model google-research
  • 最后活动时间: 2026-04-15

NeMo

NVIDIA开源的生成式AI框架,支持大语言模型、多模态和语音AI的开发与训练。

  • Stars: ⭐️ 17.1k
  • Tags: LLM Multimodal Speech AI NVIDIA
  • 最后活动时间: 2026-04-18

tfjs-models

TensorFlow.js预训练模型库,可在浏览器中直接运行的目标检测、姿态估计、文本分类等AI模型。

  • Stars: ⭐️ 14.8k
  • Tags: tensorflow-js pretrained-models browser-ai machine-learning
  • 最后活动时间: 2026-04-15

PaddleFormers

基于飞桨框架的大语言模型库,提供丰富的预训练模型集合,支持多种主流LLM架构的快速部署与应用。

  • Stars: ⭐️ 13.0k
  • Tags: llm paddlepaddle pretrained-models transformers
  • 最后活动时间: 2026-04-17

dinov2

Meta AI开源的自监督视觉模型,提供强大的视觉特征提取能力。

  • Stars: ⭐️ 12.7k
  • Tags: self-supervised-learning vision pytorch transformer
  • 最后活动时间: 2026-04-08

Kimi-K2

月之暗面团队开发的大型语言模型系列,提供强大的中文理解与生成能力。

  • Stars: ⭐️ 10.6k
  • Tags: llm moonshot-ai kimi language-model chinese
  • 最后活动时间: 2026-01-21

Chinese-BERT-wwm

中文BERT预训练模型,采用全词掩码技术优化中文NLP任务效果。

  • Stars: ⭐️ 10.2k
  • Tags: bert chinese-bert nlp pretrained-models pytorch
  • 最后活动时间: 2026-04-19

llama-cpp-python

llama.cpp的Python绑定库,支持在本地高效运行LLaMA等大语言模型,支持CPU/GPU推理。

  • Stars: ⭐️ 10.2k
  • Tags: llama llm inference python-bindings
  • 最后活动时间: 2026-04-14

models

ONNX格式预训练模型集合,提供多种最先进模型的开箱即用版本。

  • Stars: ⭐️ 9.5k
  • Tags: ONNX Pre-trained Models Deep Learning
  • 最后活动时间: 2026-03-09

ChatRWKV

基于RWKV(100% RNN)语言模型的开源聊天机器人,类似ChatGPT的替代方案。

  • Stars: ⭐️ 9.5k
  • Tags: rwkv llm chatbot rnn open-source
  • 最后活动时间: 2026-02-11

MiniCPM

面向端侧设备的超高效大语言模型,在推理任务上实现3倍以上的生成加速,适合移动端和边缘设备部署。

  • Stars: ⭐️ 8.8k
  • Tags: Edge AI Efficient LLM Mobile
  • 最后活动时间: 2026-02-11

alphafold3

DeepMind AlphaFold 3蛋白质结构预测模型的推理管道,用于生物分子结构预测。

  • Stars: ⭐️ 7.9k
  • Tags: protein-folding biology deepmind structural-biology
  • 最后活动时间: 2026-04-15

ERNIE

百度文心大模型4.5官方仓库,包含ERNIEKit工业级开发工具包,基于PaddlePaddle。

  • Stars: ⭐️ 7.7k
  • Tags: ERNIE LLM VLM PaddlePaddle
  • 最后活动时间: 2026-01-04

InternLM

上海人工智能实验室开源的大语言模型系列,支持长上下文、微调和RLHF,中英文能力出色。

  • Stars: ⭐️ 7.2k
  • Tags: LLM Open Source Chinese RLHF
  • 最后活动时间: 2025-10-30

Chinese-LLaMA-Alpaca-2

中文LLaMA-2和Alpaca-2大模型项目,支持64K超长上下文。专为中文优化,适合各类NLP任务。

  • Stars: ⭐️ 7.2k
  • Tags: 中文大模型 LLaMA-2 长上下文
  • 最后活动时间: 2026-04-19

DeepSeek-Coder-V2

突破闭源模型壁垒的代码智能大模型,支持多种编程语言的高性能代码生成与理解。

  • Stars: ⭐️ 6.6k
  • Tags: code-generation llm open-source code-intelligence
  • 最后活动时间: 2025-11-11

OLMo

Allen AI开源的完全开放大语言模型,包含训练、评估和推理完整代码。

  • Stars: ⭐️ 6.5k
  • Tags: llm open-source ai2 training
  • 最后活动时间: 2025-11-24

CodeGen

Salesforce开源的代码生成模型家族,TPU-v4训练,性能媲美OpenAI Codex。

  • Stars: ⭐️ 5.2k
  • Tags: Code Generation Program Synthesis TPU Open Source
  • 最后活动时间: 2025-10-27

chronos-forecasting

基于预训练Transformer的时间序列预测模型,支持零样本预测能力,适用于多种时序预测场景。

  • Stars: ⭐️ 5.2k
  • Tags: Time Series Forecasting Foundation Models
  • 最后活动时间: 2026-04-17

Huatuo-Llama-Med-Chinese

基于中文医学知识的大语言模型,专注于医疗问答与诊断辅助场景。

  • Stars: ⭐️ 5.0k
  • Tags: 医疗AI 中文LLM 指令微调
  • 最后活动时间: 2026-04-14

gemma

Google DeepMind开源的轻量级大语言模型库,提供高效且可商用的基础模型。

  • Stars: ⭐️ 5.0k
  • Tags: LLM Google DeepMind Open Source
  • 最后活动时间: 2026-04-17

GLM-4.5

智谱AI推出的新一代基础大模型,具备智能体、推理和编程(ARC)能力,采用MoE架构。

  • Stars: ⭐️ 4.3k
  • Tags: LLM MoE Agent Reasoning
  • 最后活动时间: 2026-02-01

llama3-Chinese-chat

Llama3/Llama3.1中文后训练版,提供微调权重、训练推理教程及部署文档,助力中文大模型开发。

  • Stars: ⭐️ 4.2k
  • Tags: Llama3 中文微调 大语言模型
  • 最后活动时间: 2026-02-21

nixtla

TimeGPT-1首个生产级时间序列基础模型,基于1000亿数据点训练,支持预测和异常检测。

  • Stars: ⭐️ 3.9k
  • Tags: Time Series Forecasting Foundation Model
  • 最后活动时间: 2026-04-13

evo2

Arc Institute发布的基因组建模与设计大模型,覆盖所有生命领域,可用于基因组序列分析与生成。

  • Stars: ⭐️ 3.8k
  • Tags: genomics foundation-model biology AI-for-science
  • 最后活动时间: 2026-03-20

GLM-5

智谱AI开源的第五代大语言模型,专注于从代码生成到智能体工程的全栈AI能力。支持复杂推理、代码编写和自主智能体任务执行。

  • Stars: ⭐️ 2.9k
  • Tags: LLM Agentic AI Coding
  • 最后活动时间: 2026-04-17

guppylm

一个约9M参数的小型语言模型,以小鱼的风格进行对话。轻量级开源LLM,适合学习和实验。

  • Stars: ⭐️ 2.9k
  • Tags: llm small-language-model open-source
  • 最后活动时间: 2026-04-15

MiniMax-M2

MiniMax推出的大语言模型,专为编码和智能体工作流优化,支持复杂任务处理。

  • Stars: ⭐️ 2.6k
  • Tags: large-language-models llm coding
  • 最后活动时间: 2025-11-13

Step-3.5-Flash

阶跃星辰推出的高效智能体模型,具备快速、精准的 Agentic Intelligence 能力。

  • Stars: ⭐️ 2.0k
  • Tags: LLM Agentic AI StepFun
  • 最后活动时间: 2026-04-03

Chinese-LLaMA-Alpaca-3

基于Meta Llama 3开发的中文大语言模型,提供完整的预训练和指令微调模型,适合中文NLP任务。

  • Stars: ⭐️ 2.0k
  • Tags: Llama-3 Chinese LLM Open Source
  • 最后活动时间: 2026-04-19

NitroGen

专为通用游戏智能体设计的基础模型,旨在提升游戏环境中的决策与交互能力。

  • Stars: ⭐️ 1.9k
  • Tags: Foundation Model Game AI Reinforcement Learning
  • 最后活动时间: 2026-01-25

Magma

CVPR 2025 论文项目,一个用于多模态 AI 智能体的基础模型,支持复杂任务规划与执行。

  • Stars: ⭐️ 1.9k
  • Tags: Foundation Model Multimodal AI Autonomous Agents
  • 最后活动时间: 2026-03-03

spacy-models

spaCy自然语言处理库的预训练统计模型集合。

  • Stars: ⭐️ 1.9k
  • Tags: spacy nlp models machine-learning
  • 最后活动时间: 2026-03-20

history-llms

专注于训练历史领域大语言模型的信息中心,致力于构建最大规模的历史领域LLM。

  • Stars: ⭐️ 1.7k
  • Tags: llm history domain-specific training
  • 最后活动时间: 2025-12-22

mattergen

微软开源的生成式AI模型,专注于无机材料设计,覆盖整个元素周期表,加速新材料发现。

  • Stars: ⭐️ 1.7k
  • Tags: 材料科学 生成模型 科学AI
  • 最后活动时间: 2026-02-27

Chinese-XLNet

中文XLNet预训练模型,提供PyTorch和TensorFlow实现,适用于各类中文NLP任务。

  • Stars: ⭐️ 1.6k
  • Tags: xlnet chinese pretrained-model nlp
  • 最后活动时间: 2026-04-19

bumblebee

Elixir语言的预训练神经网络模型库,集成Hugging Face模型,支持Transformer架构。

  • Stars: ⭐️ 1.6k
  • Tags: elixir pretrained-models hugging-face transformer nx
  • 最后活动时间: 2026-04-10

Marco-o1

面向现实世界解决方案的开放大型推理模型。

  • Stars: ⭐️ 1.5k
  • Tags: llm reasoning-model open-source
  • 最后活动时间: 2026-02-13

scGPT

单细胞分析基础模型,将Transformer应用于生物信息学领域。

  • Stars: ⭐️ 1.5k
  • Tags: single-cell foundation-model bioinformatics llm
  • 最后活动时间: 2025-11-12

evo

从分子到基因组规模的生物学基础模型,能够预测和生成DNA、RNA和蛋白质序列。

  • Stars: ⭐️ 1.5k
  • Tags: Biology Genomics Foundation Model
  • 最后活动时间: 2026-03-20

Emu3.5

Emu3.5 原生多模态模型,作为世界学习者探索通用智能。

  • Stars: ⭐️ 1.5k
  • Tags: multimodal-llm world-model foundation-model
  • 最后活动时间: 2025-12-30

Chinese-ELECTRA

中文ELECTRA预训练模型,采用生成器-判别器架构,训练效率高于传统BERT。

  • Stars: ⭐️ 1.4k
  • Tags: electra chinese pretrained-model nlp
  • 最后活动时间: 2026-04-19

Dream

7B参数扩散大语言模型,采用扩散架构实现高质量文本生成。

  • Stars: ⭐️ 1.2k
  • Tags: diffusion-model language-model open-source
  • 最后活动时间: 2025-11-21

giga-models

综合性多模态、生成式和感知模型仓库平台,提供丰富的预训练模型资源。

  • Stars: ⭐️ 1.0k
  • Tags: multimodal-models generative-ai perceptual-models
  • 最后活动时间: 2025-12-08

keras-hub

Keras 3官方预训练模型中心,支持JAX、TensorFlow、PyTorch后端,涵盖LLM、CV等多种模型。

  • Stars: ⭐️ 975
  • Tags: Keras 预训练模型 多后端
  • 最后活动时间: 2026-04-17

Large-Time-Series-Model

ICML 2024论文官方代码,时间序列领域的大型生成预训练Transformer模型。

  • Stars: ⭐️ 966
  • Tags: time-series foundation-model transformer
  • 最后活动时间: 2026-03-22

Time-MoE

ICLR 2025 Spotlight论文官方实现,十亿级时间序列基础模型,采用混合专家架构。

  • Stars: ⭐️ 949
  • Tags: deep-learning foundation-models time-series mixture-of-experts
  • 最后活动时间: 2026-03-21

cosmos-reason1

NVIDIA推出的物理常识推理模型,通过长链式思维推理理解物理世界并生成具身决策。

  • Stars: ⭐️ 935
  • Tags: embodied-ai reasoning nvidia multimodal
  • 最后活动时间: 2026-01-06

aurora

微软开源的地球系统预测基础模型,支持天气预报、海洋波浪预测和热带气旋追踪等多种大气科学任务。

  • Stars: ⭐️ 873
  • Tags: foundation-models weather-prediction deep-learning aurora-model
  • 最后活动时间: 2025-11-20

MiniGPT-4-ZH

MiniGPT-4中文部署指南与翻译,完善了本地化部署细节。

  • Stars: ⭐️ 860
  • Tags: minigpt-4 deployment chinese
  • 最后活动时间: 2026-02-11

Opus-MT

开源神经机器翻译模型和Web服务,支持多语言翻译。

  • Stars: ⭐️ 802
  • Tags: machine-translation nlp neural-machine-translation translation
  • 最后活动时间: 2026-02-23

CodeGen

Meta AI Research的代码生成模型工具包,包含预训练模型和完整训练评估流程。

  • Stars: ⭐️ 773
  • Tags: code-generation llm facebook-research
  • 最后活动时间: 2026-03-12

Intern-S1

面向科学领域的多模态基础模型,支持科学任务的视觉语言理解。

  • Stars: ⭐️ 772
  • Tags: scientific-ai multimodal-foundation-model open-source
  • 最后活动时间: 2026-03-27

tabicl

最先进的表格数据基础模型,为结构化数据提供强大的深度学习能力。

  • Stars: ⭐️ 766
  • Tags: deep-learning foundation-models tabular-data machine-learning
  • 最后活动时间: 2026-03-25

DNABERT

基于BERT架构的DNA序列预训练模型,将NLP技术应用于基因组分析,支持DNA序列分类和预测任务。

  • Stars: ⭐️ 750
  • Tags: Genomics Transformer Bio-AI
  • 最后活动时间: 2026-01-22

MacBERT

改进的中文BERT预训练模型,采用掩码语言模型纠错策略,在多项中文NLP任务上表现优异。

  • Stars: ⭐️ 708
  • Tags: bert macbert chinese pretrained-model
  • 最后活动时间: 2026-04-19

openfold-3

基于AlphaFold3的完全开源生物分子结构预测模型,用于蛋白质和分子结构的高精度预测。

  • Stars: ⭐️ 695
  • Tags: alphafold protein-folding biomolecular deep-learning structural-biology
  • 最后活动时间: 2026-04-16

Chinese-Mixtral

中文Mixtral混合专家大模型,支持32K/64K上下文,适用于长文本处理场景。

  • Stars: ⭐️ 610
  • Tags: mixtral moe chinese llm
  • 最后活动时间: 2026-04-19

SaProt

基于结构字母表(AA+3Di)的蛋白质语言模型,融合FoldSeek结构信息实现结构感知的蛋白质序列表征学习。

  • Stars: ⭐️ 586
  • Tags: protein-language-model alphafold2 foldseek representation-learning
  • 最后活动时间: 2026-03-08

Open-dLLM

开源扩散语言模型,专注于代码生成任务。

  • Stars: ⭐️ 581
  • Tags: diffusion-models large-language-models code-generation
  • 最后活动时间: 2026-03-01

VibeThinker

仅1.5B参数的小型推理模型,通过多样性驱动优化实现大模型级别的推理能力,在数学和编程基准测试中表现优异。

  • Stars: ⭐️ 572
  • Tags: Reasoning Model Small LLM Open Source
  • 最后活动时间: 2025-11-19

protein_bert

基于BERT架构的蛋白质序列预训练模型,用于蛋白质结构预测和功能分析。

  • Stars: ⭐️ 572
  • Tags: bert protein bioinformatics deep-learning transformers
  • 最后活动时间: 2026-04-07

legalbench

开放科学项目,用于评估基础模型在法律推理任务上的能力,涵盖多种法律场景。

  • Stars: ⭐️ 570
  • Tags: legal-ai llm-benchmark legal-reasoning foundation-models
  • 最后活动时间: 2026-03-30

MiniMax-M2.1

MiniMax 推出的 SOTA 大模型,专为实际开发和智能体应用优化。

  • Stars: ⭐️ 548
  • Tags: llm agent large-language-models ai-coding-models
  • 最后活动时间: 2026-01-28

OpenLTM

大型时间序列模型的实现、预训练代码和数据集集合。

  • Stars: ⭐️ 539
  • Tags: deep-learning large-model time-series foundation-model
  • 最后活动时间: 2026-03-22

Falcon-Perception

Falcon-Perception 和 Falcon-OCR 模型的推理仓库,支持早期融合的原生多模态密集自回归 Transformer 模型。

  • Stars: ⭐️ 526
  • Tags: transformer multimodal ocr perception inference
  • 最后活动时间: 2026-04-14

Text Models

gpt4free

免费访问多种强大语言模型的集合,包括GPT、DeepSeek、Gemini等主流模型。

  • Stars: ⭐️ 66.0k
  • Tags: GPT Free API Language Models
  • 最后活动时间: 2026-04-18

Qwen3-Coder

Qwen团队推出的代码专用大语言模型,专为编程任务优化。

  • Stars: ⭐️ 16.4k
  • Tags: Code-LLM Qwen Programming
  • 最后活动时间: 2026-03-24

text-to-text-transfer-transformer

Google T5模型官方实现,探索迁移学习极限的统一文本到文本Transformer框架。

  • Stars: ⭐️ 6.5k
  • Tags: t5 transformer transfer-learning nlp
  • 最后活动时间: 2026-01-14

Synonyms

中文近义词工具包,支持聊天机器人和智能问答系统。

  • Stars: ⭐️ 5.1k
  • Tags: nlp synonyms chatbot chinese-nlp
  • 最后活动时间: 2026-02-01

Qwen3.5

Qwen团队开发的大语言模型系列,提供强大的文本生成与理解能力。

  • Stars: ⭐️ 2.8k
  • Tags: LLM Qwen Open-Source
  • 最后活动时间: 2026-04-16

model2vec

快速高效的静态词嵌入模型,提供业界领先的嵌入质量和推理速度。

  • Stars: ⭐️ 2.0k
  • Tags: embeddings nlp sentence-transformers word-embeddings
  • 最后活动时间: 2026-04-17

ModernBERT

现代化BERT架构升级,结合架构改进与规模扩展,提升嵌入表示能力。

  • Stars: ⭐️ 1.7k
  • Tags: bert embeddings nlp
  • 最后活动时间: 2026-03-01

detoxify

基于PyTorch Lightning和Transformers构建的毒性评论检测模型,支持多种语言的仇恨言论和有害内容分类。

  • Stars: ⭐️ 1.2k
  • Tags: NLP Toxicity Detection BERT
  • 最后活动时间: 2026-04-06

vec2text

将深度学习表示(如句子嵌入)解码回文本的工具库,支持嵌入向量的逆向还原。

  • Stars: ⭐️ 1.1k
  • Tags: embeddings nlp text-decoding sentence-embeddings
  • 最后活动时间: 2025-12-27

Bert-In-Relation-Extraction

基于BERT的中文实体关系抽取项目,用于从文本中识别和提取实体之间的语义关系。

  • Stars: ⭐️ 758
  • Tags: bert relation-extraction nlp chinese
  • 最后活动时间: 2026-04-18