🔧 微调与训练

Model training, fine-tuning, and evaluation.

当前分类已收录 360 个相关项目。

Dataset Management

label-studio

多类型数据标注工具，支持图像、文本、音频等多种格式，是机器学习项目数据准备的重要工具。

Stars: ⭐️ 27.6k
Tags: annotation data-labeling mlops
最后活动时间: 2026-06-12

datasets

Hugging Face官方数据集库，提供海量AI数据集的快速访问与处理工具，支持多种任务和框架集成。

Stars: ⭐️ 21.6k
Tags: datasets huggingface machine-learning
最后活动时间: 2026-06-11

faker

强大的Python假数据生成库，可快速生成各类测试数据和合成数据集，广泛用于ML模型训练数据准备和测试场景。

Stars: ⭐️ 19.3k
Tags: synthetic-data data-generation testing python
最后活动时间: 2026-06-10

cvat

业界领先的机器学习数据标注平台，支持图像和视频标注，广泛应用于计算机视觉数据集构建。

Stars: ⭐️ 16.0k
Tags: Annotation Computer Vision Dataset Labeling
最后活动时间: 2026-06-12

easy-dataset

专为LLM微调、RAG和评估场景设计的数据集创建工具，帮助开发者高效构建高质量训练数据。

Stars: ⭐️ 14.4k
Tags: 数据集 微调 RAG
最后活动时间: 2026-05-01

cleanlab

数据中心AI标准库，自动检测和修复数据集中的标签错误，提升模型训练质量。

Stars: ⭐️ 11.5k
Tags: 数据质量 标签清洗 数据中心AI
最后活动时间: 2026-01-13

fiftyone

高质量数据集精炼与可视化AI模型工具，支持计算机视觉任务的数据清洗、标注和质量管理。

Stars: ⭐️ 10.8k
Tags: Computer Vision Data Curation Visualization
最后活动时间: 2026-06-12

doccano

开源的机器学习数据标注工具，支持文本分类、序列标注等多种任务，界面友好易用。

Stars: ⭐️ 10.7k
Tags: annotation-tool data-labeling machine-learning nlp
最后活动时间: 2026-04-14

nlp_chinese_corpus

大规模中文自然语言处理语料库，包含新闻、百科、问答等多种数据集。

Stars: ⭐️ 9.9k
Tags: Chinese Corpus Dataset NLP
最后活动时间: 2026-02-06

X-AnyLabeling

AI驱动的智能数据标注工具，集成SAM等多种模型，支持目标检测、分割、OCR等任务。

Stars: ⭐️ 9.4k
Tags: Data Labeling Annotation SAM YOLO
最后活动时间: 2026-06-06

data-juicer

面向大模型的数据处理工具，支持多模态数据清洗、转换与合成数据生成，优化预训练和指令微调流程。

Stars: ⭐️ 6.5k
Tags: LLM 数据处理 多模态 合成数据
最后活动时间: 2026-06-12

snorkel

基于弱监督的训练数据快速生成系统，大幅降低机器学习数据标注成本。

Stars: ⭐️ 6.0k
Tags: training-data labeling weak-supervision data-science
最后活动时间: 2026-06-08

argilla

面向AI工程师和领域专家的协作平台，支持主动学习、RLHF、弱监督等多种数据标注场景，助力构建高质量数据集。

Stars: ⭐️ 5.0k
Tags: 数据标注 RLHF 主动学习
最后活动时间: 2026-06-08

RedPajama-Data

用于准备大语言模型训练数据集的代码库，支持大规模数据集的构建与处理流程。

Stars: ⭐️ 4.9k
Tags: llm dataset data-preparation training
最后活动时间: 2026-06-03

mimesis

高性能的多语言虚假数据生成库，支持生成多种类型的合成数据，适用于AI训练数据增强和测试场景。

Stars: ⭐️ 4.8k
Tags: synthetic-data data-generation testing python
最后活动时间: 2026-04-08

nlpaug

NLP数据增强库，支持对抗样本生成和数据扩充以提升模型鲁棒性。

Stars: ⭐️ 4.7k
Tags: data-augmentation nlp adversarial machine-learning
最后活动时间: 2026-06-12

llm-datasets

精选后训练数据集与工具列表，为模型微调提供高质量数据资源。

Stars: ⭐️ 4.6k
Tags: 数据集 后训练 数据资源
最后活动时间: 2026-04-29

tensorflow-datasets

TensorFlow官方数据集库，提供开箱即用的标准化数据集，支持TensorFlow、JAX等框架。

Stars: ⭐️ 4.6k
Tags: tensorflow datasets machine-learning data
最后活动时间: 2026-05-24

DataFlow

基于最新LLM的数据准备工具，提供丰富的算子和流水线支持，简化数据清洗与合成流程。

Stars: ⭐️ 4.3k
Tags: LLM Data Pipeline Data Synthesis
最后活动时间: 2026-05-22

MNBVC

超大规模中文语料数据集，对标ChatGPT训练数据规模，涵盖新闻、小说、论文、对话等多种文本类型。

Stars: ⭐️ 4.2k
Tags: 中文语料 数据集 LLM训练
最后活动时间: 2026-05-23

deequ

基于Spark的数据质量测试库，为大规模机器学习数据集提供自动化质量保障。

Stars: ⭐️ 3.6k
Tags: data-quality spark unit-testing ml-pipeline
最后活动时间: 2026-05-28

common-voice

Mozilla开源语音数据集项目，收集真实人群语音数据用于训练语音识别模型。

Stars: ⭐️ 3.5k
Tags: speech-dataset open-data voice-recognition
最后活动时间: 2026-04-24

anylabeling

AI辅助数据标注工具，支持YOLO、SAM系列模型自动标注，大幅提升标注效率。

Stars: ⭐️ 3.4k
Tags: Data Labeling YOLO SAM Segment Anything
最后活动时间: 2026-04-25

the_well

15TB规模的物理模拟数据集集合，涵盖流体动力学等多个物理领域，适用于科学计算AI模型训练。

Stars: ⭐️ 3.4k
Tags: dataset physics-simulation scientific-computing deep-learning
最后活动时间: 2026-03-25

Waymo Open Dataset

Waymo官方开源的自动驾驶数据集，包含高质量传感器数据，是自动驾驶AI研究的标杆资源。

Stars: ⭐️ 3.3k
Tags: autonomous-driving dataset computer-vision self-driving
最后活动时间: 2026-01-08

distilabel

合成数据和AI反馈框架，帮助工程师构建快速、可靠的训练数据管道。

Stars: ⭐️ 3.2k
Tags: synthetic-data rlhf rlaif data-generation huggingface
最后活动时间: 2026-06-08

datachain

面向多模态数据的数据分析、版本控制和ETL工具，支持视频、音频、PDF和图像等多种格式。

Stars: ⭐️ 2.7k
Tags: multimodal data-processing etl mlops
最后活动时间: 2026-04-24

datasets

Unsplash开放数据集，提供650万+高质量图像供机器学习研究使用。

Stars: ⭐️ 2.7k
Tags: dataset images unsplash machine-learning-research
最后活动时间: 2026-05-15

loghub

大规模系统日志数据集合，专为AI驱动的日志分析和异常检测研究设计。

Stars: ⭐️ 2.7k
Tags: log-analysis anomaly-detection datasets ai
最后活动时间: 2026-05-28

synthetic-data-generator

专门生成高质量结构化表格数据的框架，支持隐私保护和数据增强，基于深度学习和GAN技术提供可靠的合成数据解决方案。

Stars: ⭐️ 2.4k
Tags: Synthetic Data Generative AI Tabular Data Privacy
最后活动时间: 2026-05-25

imbalanced-dataset-sampler

PyTorch不平衡数据集采样器，通过过采样低频类别和欠采样高频类别解决数据不平衡问题。

Stars: ⭐️ 2.3k
Tags: imbalanced-data data-sampling pytorch oversampling
最后活动时间: 2026-04-06

audiomentations

音频数据增强 Python 库，帮助音频机器学习模型适应真实世界场景。

Stars: ⭐️ 2.3k
Tags: audio-augmentation data-augmentation python
最后活动时间: 2026-04-13

DataDesigner

NVIDIA NeMo数据设计器，用于生成高质量合成数据，支持多模态数据和智能体工作流。

Stars: ⭐️ 2.0k
Tags: synthetic-data nvidia nemo
最后活动时间: 2026-06-11

fastdup

高效的图像视频数据集分析工具，支持数据清洗、去重、异常检测等功能，大幅降低数据处理成本。

Stars: ⭐️ 1.9k
Tags: Data Curation Image Analysis Outlier Detection
最后活动时间: 2026-04-14

greenmask

强大的数据库匿名化和合成数据生成工具，支持差分隐私保护，为AI/ML训练提供高质量数据集准备。

Stars: ⭐️ 1.7k
Tags: anonymization synthetic-data data-masking postgresql golang
最后活动时间: 2026-05-29

curator

面向后训练和结构化数据提取的合成数据管理工具，支持高质量数据集生成。

Stars: ⭐️ 1.7k
Tags: Synthetic Data Fine-tuning Data Curation
最后活动时间: 2026-06-11

Project_CodeNet

IBM开源的大规模代码数据集，包含数百万代码样本，适用于代码理解、生成和翻译等AI任务。

Stars: ⭐️ 1.7k
Tags: dataset code-ai code-generation program-synthesis machine-learning
最后活动时间: 2025-12-21

drawdata

在Python笔记本中通过可视化绘图方式快速创建和标注数据集，适用于机器学习训练数据的快速原型设计。

Stars: ⭐️ 1.7k
Tags: dataset visualization python ml-tools
最后活动时间: 2026-04-23

fg-data-synthetic

基于GAN架构的表格和时间序列合成数据生成器，支持PyTorch和TensorFlow2，适用于训练数据增强和隐私保护场景。

Stars: ⭐️ 1.6k
Tags: synthetic-data gan time-series deep-learning pytorch
最后活动时间: 2026-04-23

ydata-synthetic

用于表格和时间序列数据的合成数据生成器，支持多种GAN架构。

Stars: ⭐️ 1.6k
Tags: synthetic-data gan time-series tabular-data
最后活动时间: 2026-04-23

Curator

可扩展的LLM数据预处理和管理工具包，支持数据去重、质量评估和处理流水线。

Stars: ⭐️ 1.6k
Tags: data-processing llm fine-tuning
最后活动时间: 2026-06-12

AlpacaDataCleaned

经过清洗和筛选的 Stanford Alpaca 数据集，适用于指令微调和大模型训练。

Stars: ⭐️ 1.6k
Tags: dataset alpaca instruction-tuning
最后活动时间: 2026-03-07

labelU

开源的多模态数据标注平台，支持AI自动标注功能，适用于图像、音频、视频等多种数据类型的标注工作。

Stars: ⭐️ 1.6k
Tags: data-annotation multimodal auto-annotation labeling-tool
最后活动时间: 2026-04-22

CTGAN

条件生成对抗网络，用于生成合成表格数据。

Stars: ⭐️ 1.6k
Tags: ctgan synthetic-data tabular-data gan
最后活动时间: 2026-05-28

free-exercise-db

开放的公共领域运动数据集，包含800多种运动的JSON格式数据。

Stars: ⭐️ 1.5k
Tags: fitness exercise open-data dataset
最后活动时间: 2026-05-24

chatterbot-corpus

多语言对话语料库，为聊天机器人训练提供丰富的对话数据集，支持多种语言。

Stars: ⭐️ 1.4k
Tags: Dataset Dialog NLP Corpus
最后活动时间: 2026-03-24

adaptive

并行主动学习数学函数的工具库，支持自适应采样和实时可视化，适用于科学计算与机器学习优化场景。

Stars: ⭐️ 1.2k
Tags: active-learning adaptive-sampling machine-learning python
最后活动时间: 2026-06-10

xtreme1

一体化多模态数据标注平台，支持3D LiDAR点云、图像和LLM数据标注，适用于自动驾驶和AI训练场景。

Stars: ⭐️ 1.2k
Tags: annotation multimodal lidar point-cloud rlhf
最后活动时间: 2026-05-09

cleanvision

自动检测图像数据集中的质量问题，支持重复、模糊、过暗过亮等异常检测。

Stars: ⭐️ 1.2k
Tags: Data Quality Computer Vision Data Validation
最后活动时间: 2026-01-08

batchgenerators

灵活的数据增强框架，支持2D和3D图像分类与分割任务的数据预处理流水线。

Stars: ⭐️ 1.2k
Tags: Data Augmentation Medical Imaging Deep Learning
最后活动时间: 2026-05-12

datasets

卫星与航空影像深度学习数据集集合，支持遥感图像分析任务。

Stars: ⭐️ 1.1k
Tags: satellite-imagery remote-sensing deep-learning dataset
最后活动时间: 2026-05-09

audino

开源音频标注工具，支持语音处理和机器学习数据集的高效标注工作流。

Stars: ⭐️ 1.1k
Tags: 音频标注 数据标注 语音处理
最后活动时间: 2026-02-03

label-studio-ml-backend

Label Studio 机器学习后端配置与模板，支持将 ML 模型集成到数据标注工作流中，实现自动化预标注。

Stars: ⭐️ 1.1k
Tags: label-studio ml-backend data-labeling annotation
最后活动时间: 2026-06-11

MELD

多模态多人对话情感识别数据集，支持情感分析和对话理解研究。

Stars: ⭐️ 1.1k
Tags: emotion-recognition multimodal conversation sentiment-analysis
最后活动时间: 2026-05-17

GraphGen

基于知识图谱的LLM合成数据生成框架，增强监督微调效果。

Stars: ⭐️ 1.0k
Tags: data-synthesis llm-training knowledge-graph sft
最后活动时间: 2026-05-19

CLUECorpus2020

大规模中文预训练语料库，包含100G高质量中文文本数据，适用于BERT、RoBERTa等模型预训练。

Stars: ⭐️ 1.0k
Tags: 中文语料 预训练 NLP
最后活动时间: 2026-02-06

DataFlex

一个以数据为中心的训练框架，通过样本选择、权重优化和混合比例调整来提升模型性能。

Stars: ⭐️ 973
Tags: data-selection data-reweighting model-training data-centric-ai
最后活动时间: 2026-06-01

semhash

快速多模态语义去重与过滤工具，支持图像和文本数据集的高效清洗。

Stars: ⭐️ 933
Tags: 语义去重 数据清洗 多模态
最后活动时间: 2026-05-24

PlantVillage-Dataset

植物病害叶片图像数据集，广泛用于农业AI和植物病害识别研究。

Stars: ⭐️ 888
Tags: image-classification dataset agriculture plant-disease
最后活动时间: 2026-02-05

deepfabric

一站式合成数据生成与模型训练评估流水线，支持高质量数据生成、训练和评测全流程。

Stars: ⭐️ 875
Tags: Synthetic Data Fine-tuning Evaluation Dataset
最后活动时间: 2026-06-10

tatoeba2

协作式开放句子翻译数据集平台，为NLP和机器翻译提供高质量多语言训练数据。

Stars: ⭐️ 857
Tags: translation nlp dataset multilingual
最后活动时间: 2026-05-27

croissant

ML数据集的高层标准格式，整合元数据、资源、结构和语义四层信息，简化数据集发布与消费流程。

Stars: ⭐️ 852
Tags: 数据集格式 标准化 ML
最后活动时间: 2026-05-27

lightly-studio

计算机视觉数据管理工具，支持图像标注、数据筛选和MLOps工作流集成。

Stars: ⭐️ 846
Tags: computer-vision image-labeling mlops
最后活动时间: 2026-06-12

annotorious

轻量级JavaScript图像标注库，可快速为任何网页添加图像标注功能，支持IIIF和OpenSeadragon集成。

Stars: ⭐️ 841
Tags: annotation image-annotation javascript iiif
最后活动时间: 2026-05-29

python-deequ

Deequ的Python API，用于大规模数据质量验证，帮助确保机器学习数据管道中的数据质量。

Stars: ⭐️ 820
Tags: data-quality data-validation python testing
最后活动时间: 2026-05-20

Image-Harmonization-Dataset-iHarmony4

CVPR 2020首个大规模图像协调基准数据集，用于图像合成与协调研究。

Stars: ⭐️ 810
Tags: image-harmonization computer-vision dataset image-composition
最后活动时间: 2026-02-24

labelCloud

轻量级3D点云标注工具，支持3D边界框标注，适用于自动驾驶和机器人视觉的数据准备。

Stars: ⭐️ 793
Tags: 3D标注 点云 计算机视觉
最后活动时间: 2026-05-02

libact

Python池化主动学习库，提供多种不确定性采样策略，帮助高效选择标注样本以降低标注成本。

Stars: ⭐️ 792
Tags: active-learning machine-learning uncertainty-sampling python
最后活动时间: 2026-04-08

data-validation

机器学习数据探索与验证库，帮助确保训练数据质量。

Stars: ⭐️ 780
Tags: data-validation machine-learning data-quality
最后活动时间: 2026-06-11

efaqa-corpus-zh

心理咨询问答中文语料库，适用于聊天机器人和情感分析研究。

Stars: ⭐️ 756
Tags: corpus nlp psychology chatbot
最后活动时间: 2026-03-06

anndata

用于单细胞分析和生物信息学的带注释数据结构库，支持机器学习工作流。

Stars: ⭐️ 751
Tags: anndata bioinformatics machine-learning data-science
最后活动时间: 2026-06-11

balance

用于处理偏差数据样本的Python库，提供简洁的工作流程和方法，帮助从偏差样本推断目标总体。

Stars: ⭐️ 747
Tags: data-balancing bias-correction statistics data-science
最后活动时间: 2026-05-28

datasets

机器学习问题解决数据集合，为模型训练和评估提供多样化数据支持。

Stars: ⭐️ 739
Tags: machine-learning datasets ml
最后活动时间: 2026-05-04

OpenML

开放机器学习平台，提供数据集共享、实验协作和开放科学工作流。

Stars: ⭐️ 733
Tags: 开放科学 数据集共享 协作平台
最后活动时间: 2026-04-21

grain

专为机器学习设计的高效数据加载库，支持JAX等框架的大规模训练数据处理。

Stars: ⭐️ 731
Tags: machine-learning data-loading jax python
最后活动时间: 2026-05-27

Genshin_Datasets

原神角色语音数据集，适用于语音转换、歌声合成和文本转语音训练。

Stars: ⭐️ 724
Tags: voice-dataset tts svc svs
最后活动时间: 2026-01-11

nimble

专为大规模机器学习训练设计的列式数据存储格式，支持高效压缩和快速读取训练数据集。

Stars: ⭐️ 717
Tags: columnar machine-learning ml-training file-format
最后活动时间: 2026-06-12

INCEpTION

语义标注平台，提供智能标注辅助和知识管理功能，支持主动学习和实体链接。

Stars: ⭐️ 698
Tags: annotation-tool active-learning machine-learning knowledge-base
最后活动时间: 2026-06-09

comma10k

包含1万张众包标注图像的语义分割数据集，专为训练分割网络设计。

Stars: ⭐️ 690
Tags: Dataset Segmentation Computer Vision Training Data
最后活动时间: 2026-02-20

datumaro

计算机视觉数据集管理框架，支持多种格式转换、数据分析和数据集构建。

Stars: ⭐️ 677
Tags: dataset computer-vision data-management
最后活动时间: 2026-06-12

synthcity

用于生成和评估合成表格数据的库，支持隐私保护、公平性增强和数据增强场景。

Stars: ⭐️ 665
Tags: synthetic-data data-augmentation privacy fairness tabular-data
最后活动时间: 2026-04-21

datasets

网络科学与机器学习研究的数据集集合，涵盖图神经网络基准、节点分类、链接预测等任务。

Stars: ⭐️ 653
Tags: dataset graph-neural-network benchmark
最后活动时间: 2025-12-20

Copulas

使用Copula模型生成多变量合成数据的Python库，适用于表格数据的生成式建模。

Stars: ⭐️ 646
Tags: synthetic-data generative-model tabular-data
最后活动时间: 2026-06-08

faker

Go语言高性能假数据生成器，零依赖，可用于AI模型训练数据增强和测试数据生成。

Stars: ⭐️ 645
Tags: faker data-generator synthetic-data go
最后活动时间: 2026-04-16

datalad

基于Git和git-annex的数据版本控制工具，支持代码、数据和容器化管理，适用于AI数据集版本追踪。

Stars: ⭐️ 640
Tags: data-management version-control git-annex dataset
最后活动时间: 2026-06-10

Exclusively-Dark-Image-Dataset

专门针对低光照环境的图像数据集，包含10种不同光照条件下的标注图像，适合暗光视觉任务。

Stars: ⭐️ 632
Tags: low-light dataset computer-vision object-detection
最后活动时间: 2026-02-13

Dataset

大规模3D视觉数据集，支持新视角合成与三维重建研究。

Stars: ⭐️ 627
Tags: 3d-dataset novel-view-synthesis deep-learning
最后活动时间: 2026-02-10

seqio

Google开源的序列模型数据处理框架，提供任务驱动的数据集管理、预处理和评估流程。

Stars: ⭐️ 593
Tags: sequence-models dataset preprocessing evaluation
最后活动时间: 2026-05-12

semi-auto-image-annotation-tool

基于预训练模型的半自动图像标注工具，支持80种目标类别的自动标注建议。

Stars: ⭐️ 592
Tags: image-annotation deep-learning tensorflow keras
最后活动时间: 2026-04-18

lost

基于Web的智能图像标注框架，支持自定义标注流程，提升数据标注效率。

Stars: ⭐️ 577
Tags: Image Annotation Labeling Tool Computer Vision
最后活动时间: 2026-06-10

SpatialVID

CVPR 2026大规模视频数据集，提供丰富空间标注，支持视频生成与3D重建研究。

Stars: ⭐️ 570
Tags: video-dataset 3d-reconstruction spatial-intelligence cvpr
最后活动时间: 2026-04-22

VQASynth

多模态数据集合成工具，支持场景重建和空间推理的合成数据生成，适用于构建高质量视觉问答训练数据。

Stars: ⭐️ 568
Tags: Dataset Multimodal Synthetic VQA
最后活动时间: 2026-05-28

Histopathology-Datasets

组织病理学数据集资源汇总，为医学图像分析和机器学习研究提供高质量数据集参考。

Stars: ⭐️ 549
Tags: histopathology datasets machine-learning medical-imaging
最后活动时间: 2026-03-06

datasets

NCBI官方基因组数据获取工具，为生物信息学和AI基因组研究提供标准化数据接口。

Stars: ⭐️ 546
Tags: genomics biotech dataset bioinformatics
最后活动时间: 2026-06-09

LoveDA

NeurIPS 2021遥感土地覆盖数据集，支持域自适应语义分割，适用于遥感图像分析研究。

Stars: ⭐️ 544
Tags: remote-sensing semantic-segmentation domain-adaptation dataset
最后活动时间: 2026-01-21

Stylized-ImageNet

ICLR 2019 Oral论文，创建风格化ImageNet数据集，研究形状与纹理偏置。

Stars: ⭐️ 525
Tags: imagenet style-transfer dataset iclr2019
最后活动时间: 2026-04-14

DialogStudio

最丰富的统一对话数据集集合，支持指令感知的对话AI模型训练。

Stars: ⭐️ 524
Tags: dialog dataset conversational-ai
最后活动时间: 2026-06-02

CubiCasa5k

高质量平面图数据集，包含5000个标注样本，适用于建筑平面图的语义分割和房间检测等计算机视觉任务。

Stars: ⭐️ 515
Tags: floorplan dataset computer-vision semantic-segmentation
最后活动时间: 2026-02-10

Minari

离线强化学习数据集标准格式，提供常用参考数据集和实用工具。

Stars: ⭐️ 514
Tags: 离线RL 强化学习 数据集格式
最后活动时间: 2026-05-29

Evaluation Metrics

shap

基于博弈论的机器学习模型解释框架，可视化特征重要性。

Stars: ⭐️ 25.5k
Tags: machine-learning explainability interpretability shap
最后活动时间: 2026-06-04

evals

OpenAI开源的LLM评估框架，提供完整的基准测试注册表和评估工具链，帮助开发者系统化地衡量大模型性能。

Stars: ⭐️ 18.7k
Tags: LLM Evaluation Benchmarks OpenAI
最后活动时间: 2026-04-14

deepeval

LLM评估框架，提供全面的模型评估指标和工具，帮助开发者系统化测试和优化大语言模型。

Stars: ⭐️ 16.1k
Tags: evaluation llm testing metrics
最后活动时间: 2026-06-10

ragas

专业的LLM应用评估框架，提供多种评估指标和自动化测试流程，帮助开发者快速测试和优化大语言模型应用性能。

Stars: ⭐️ 14.1k
Tags: LLM评估 自动化测试 LLMOps
最后活动时间: 2026-02-24

lm-evaluation-harness

大语言模型少样本评估框架，支持多种基准测试和任务类型，是LLM性能评估的行业标准工具。

Stars: ⭐️ 12.9k
Tags: evaluation-framework language-model llm-evaluation
最后活动时间: 2026-06-02

evidently

开源ML和LLM可观测性框架，提供100+指标和可视化报告，用于评估、测试和监控AI系统。

Stars: ⭐️ 7.6k
Tags: ML监控 LLM可观测性 模型评估
最后活动时间: 2026-05-02

opencompass

大模型评测平台，支持Llama3、GPT-4等主流模型在100+数据集上的全面评估，助力科学衡量大语言模型性能。

Stars: ⭐️ 7.1k
Tags: LLM 评估 基准测试
最后活动时间: 2026-06-12

chinese-llm-benchmark

中文大模型能力评测平台，涵盖359个商用及开源模型，提供排行榜和超200万条缺陷库。

Stars: ⭐️ 6.2k
Tags: LLM评测 基准测试 中文模型
最后活动时间: 2026-06-07

giskard-oss

开源的LLM智能体评估与测试框架，支持AI安全红队测试、公平性评估和模型验证，帮助开发者构建更可靠的AI系统。

Stars: ⭐️ 5.4k
Tags: LLM评估 AI安全 红队测试
最后活动时间: 2026-06-12

SWE-bench

评估大语言模型解决真实GitHub问题能力的基准测试集，是代码生成领域的重要评测标准。

Stars: ⭐️ 5.1k
Tags: benchmark language-model software-engineering code-generation llm-evaluation
最后活动时间: 2026-04-01

Object-Detection-Metrics

目标检测算法评估指标集合，涵盖mAP、Precision-Recall等常用评估方法。

Stars: ⭐️ 5.1k
Tags: Metrics Evaluation Object Detection
最后活动时间: 2026-04-16

Kiln

一站式AI系统构建、评估与优化平台，支持RAG、智能体、微调、合成数据生成、数据集管理和MCP协议。

Stars: ⭐️ 4.9k
Tags: Evaluation Fine-tuning RAG MCP Synthetic Data
最后活动时间: 2026-06-12

lmms-eval

一站式多模态评估工具包，支持文本、图像、视频、音频等多模态任务的统一评测。

Stars: ⭐️ 4.2k
Tags: multimodal evaluation llm-evaluation vision-language-model benchmark
最后活动时间: 2026-06-11

VLMEvalKit

开源的大型多模态模型评估工具包，支持220+多模态模型和80+评测基准，覆盖GPT-4V、Gemini等主流模型。

Stars: ⭐️ 4.2k
Tags: Evaluation Multimodal Benchmark LMM
最后活动时间: 2026-06-12

deepchecks

ML模型和数据持续验证测试框架，从研究到生产全流程质量保障。

Stars: ⭐️ 4.0k
Tags: model-validation data-validation mlops machine-learning
最后活动时间: 2025-12-28

SwanLab

开源AI训练跟踪与可视化工具，支持云端和本地部署。可与PyTorch、Transformers等主流框架无缝集成。

Stars: ⭐️ 4.0k
Tags: MLOps Visualization Training Tracking
最后活动时间: 2026-06-12

trulens

LLM实验和AI智能体的评估与追踪工具，帮助开发者衡量和优化模型表现。

Stars: ⭐️ 3.4k
Tags: Evaluation LLM Agents Observability
最后活动时间: 2026-06-05

mteb

大规模文本嵌入基准测试平台，涵盖分类、聚类、检索等15+任务的全面评估框架。

Stars: ⭐️ 3.3k
Tags: text-embedding benchmark nlp information-retrieval
最后活动时间: 2026-06-11

langwatch

专注于LLM评估和AI智能体测试的平台，提供可观测性和低代码功能，帮助开发者优化和监控大语言模型应用。

Stars: ⭐️ 3.3k
Tags: LLM评估 智能体测试 可观测性
最后活动时间: 2026-06-12

SuperCLUE

中文通用大模型综合评测基准，提供全面的中文LLM能力评估体系。

Stars: ⭐️ 3.3k
Tags: Benchmark Chinese LLM Evaluation
最后活动时间: 2026-02-06

hallucination-leaderboard

LLM幻觉评估排行榜，对比主流大模型在文档摘要任务中的幻觉频率，帮助开发者选择更可靠的模型。

Stars: ⭐️ 3.3k
Tags: hallucination llm-evaluation benchmark
最后活动时间: 2026-05-11

evalscope

轻量高效的大模型评估框架，支持LLM、VLM、AIGC模型的性能基准测试。

Stars: ⭐️ 2.9k
Tags: 模型评估 基准测试 LLM
最后活动时间: 2026-06-12

helm

斯坦福CRFM开源的大模型评估框架，支持LLM和多模态模型的全面、可复现、透明评估。

Stars: ⭐️ 2.8k
Tags: 模型评估 LLM 多模态
最后活动时间: 2026-06-05

evaluate

HuggingFace官方评估库，提供便捷的机器学习模型与数据集评估工具。

Stars: ⭐️ 2.5k
Tags: evaluation machine-learning huggingface
最后活动时间: 2026-05-26

torchmetrics

PyTorch分布式机器学习评估指标库，支持多种深度学习指标。

Stars: ⭐️ 2.4k
Tags: metrics pytorch deep-learning machine-learning
最后活动时间: 2026-06-11

lighteval

HuggingFace出品的LLM全栈评估工具包，支持多后端模型评估与丰富的评估指标。

Stars: ⭐️ 2.4k
Tags: LLM评估 HuggingFace 评估框架
最后活动时间: 2026-05-26

terminal-bench

评估大语言模型在终端复杂任务中表现的基准测试框架。

Stars: ⭐️ 2.4k
Tags: Benchmark LLM Evaluation Terminal
最后活动时间: 2026-01-22

inspect_ai

专为大语言模型评估设计的开源框架，支持多种评测任务。

Stars: ⭐️ 2.2k
Tags: llm-evaluation benchmark framework
最后活动时间: 2026-06-12

EvalAI

开源AI模型评估平台，支持创建AI挑战赛和排行榜，推动可复现研究。

Stars: ⭐️ 2.0k
Tags: Evaluation Benchmark Leaderboard
最后活动时间: 2026-06-12

BasicTS

公平可扩展的时间序列预测基准测试工具包，支持多种预测模型评估。

Stars: ⭐️ 1.8k
Tags: time-series forecasting benchmark deep-learning
最后活动时间: 2025-12-23

training

MLPerf训练基准参考实现，提供机器学习模型训练性能的标准化评估。

Stars: ⭐️ 1.8k
Tags: mlperf benchmark machine-learning training
最后活动时间: 2026-05-12

WeightWatcher

深度神经网络准确性预测工具，无需测试数据即可评估模型质量和泛化能力。

Stars: ⭐️ 1.8k
Tags: deep-learning model-evaluation neural-network accuracy-prediction
最后活动时间: 2026-05-11

bullshit-benchmark

评估AI模型是否能识别并质疑无意义提示词的基准测试，测试模型的真实理解能力。

Stars: ⭐️ 1.7k
Tags: llm-evaluation benchmark ai-safety model-evaluation
最后活动时间: 2026-06-12

MingLi-Bench

专注于中国传统命理学（八字、紫微斗数）的大语言模型评测基准，提供独特的文化视角评估方案。

Stars: ⭐️ 1.7k
Tags: llm-benchmark evaluation chinese fortune-telling
最后活动时间: 2026-05-09

VBench

CVPR2024 Highlight视频生成评估基准工具，提供全面的视频生成质量评测方案。学术级权威评测框架。

Stars: ⭐️ 1.6k
Tags: Video Generation Benchmark Evaluation
最后活动时间: 2026-03-23

imodels

可解释机器学习Python包，提供简洁透明的预测建模工具，兼容sklearn生态。

Stars: ⭐️ 1.6k
Tags: explainable-ai machine-learning interpretability scikit-learn rule-learning
最后活动时间: 2026-05-26

mle-bench

衡量AI智能体在机器学习工程任务上表现的基准测试平台。

Stars: ⭐️ 1.6k
Tags: benchmark ml-engineering ai-agents evaluation
最后活动时间: 2026-04-24

evalite

TypeScript LLM 应用评估框架，帮助测试和优化 AI 应用性能。

Stars: ⭐️ 1.6k
Tags: ai evals typescript llm
最后活动时间: 2026-04-28

bsuite

强化学习智能体核心能力评估实验集合，提供精心设计的RL基准测试框架。

Stars: ⭐️ 1.5k
Tags: reinforcement-learning benchmark evaluation rl-agent
最后活动时间: 2026-03-30

pycm

多分类混淆矩阵Python库，提供全面的模型评估指标和统计分析功能。

Stars: ⭐️ 1.5k
Tags: confusion-matrix machine-learning evaluation
最后活动时间: 2026-06-12

tau2-bench

双控环境下的对话智能体评估基准，用于测试和衡量AI代理的对话能力。

Stars: ⭐️ 1.3k
Tags: Benchmark Evaluation Agents
最后活动时间: 2026-06-11

atropos

LLM强化学习环境框架，用于收集和评估大语言模型在多样化环境中的轨迹数据。

Stars: ⭐️ 1.3k
Tags: RL LLM Evaluation Framework
最后活动时间: 2026-06-08

model-analysis

TensorFlow模型分析工具，用于评估模型性能和公平性。

Stars: ⭐️ 1.3k
Tags: model-evaluation tensorflow machine-learning
最后活动时间: 2026-06-12

sacrebleu

机器翻译评估的标准BLEU指标参考实现，自动下载测试数据集并生成版本号便于跨实验室对比实验结果。

Stars: ⭐️ 1.2k
Tags: nlp machine-translation evaluation bleu metrics
最后活动时间: 2026-01-12

skill

PinchBench基准测试系统，评估LLM模型作为编码智能体的表现。

Stars: ⭐️ 1.2k
Tags: benchmark llm-evaluation coding-agents
最后活动时间: 2026-06-02

frontier-evals

OpenAI官方的前沿模型评估框架，用于评估和测试先进AI模型的能力与安全性。

Stars: ⭐️ 1.2k
Tags: evaluation openai llm-evaluation model-safety
最后活动时间: 2026-04-21

LiveBench

具有挑战性的无污染LLM基准测试，提供真实可靠的模型能力评估。

Stars: ⭐️ 1.2k
Tags: 基准测试 LLM评估 无污染
最后活动时间: 2026-06-12

torch-fidelity

PyTorch生成模型的高保真性能评估指标库，支持FID、IS、KID等主流指标计算。

Stars: ⭐️ 1.2k
Tags: 生成模型 评估指标 PyTorch
最后活动时间: 2026-05-11

uqlm

语言模型不确定性量化Python包，用于基于UQ的LLM幻觉检测和置信度评估。

Stars: ⭐️ 1.2k
Tags: Hallucination Detection AI Safety LLM Evaluation
最后活动时间: 2026-06-08

procgen

OpenAI开发的强化学习基准测试环境，提供程序化生成的类游戏环境用于评估AI泛化能力。

Stars: ⭐️ 1.2k
Tags: reinforcement-learning benchmark gym-environments procgen
最后活动时间: 2026-03-27

performance

R语言模型性能评估包，提供R2、ICC、LOO、AIC、BF等多种统计指标计算。

Stars: ⭐️ 1.1k
Tags: statistics model-evaluation r-package metrics
最后活动时间: 2026-06-09

future-agi

开源的LLM和AI智能体应用评估观测平台，支持追踪、评估、模拟、数据集管理、网关和防护栏等功能。

Stars: ⭐️ 1.1k
Tags: ai llm evals observability simulation
最后活动时间: 2026-06-12

Local-LLM-Comparison-Colab-UI

在Colab中比较不同本地可部署LLM性能的WebUI工具，帮助用户选择最适合消费级硬件的模型。

Stars: ⭐️ 1.1k
Tags: llm benchmark colab local-llm
最后活动时间: 2026-01-13

openevals

开箱即用的LLM应用评估工具集，帮助开发者快速评估模型性能和应用质量。

Stars: ⭐️ 1.1k
Tags: Evaluation LLM Testing
最后活动时间: 2026-05-19

KernelBench

测试LLM能否编写GPU Kernel的基准测试工具，支持Torch到CUDA的代码生成评估。

Stars: ⭐️ 1.1k
Tags: GPU 代码生成 基准测试
最后活动时间: 2026-03-24

judgeval

开源AI智能体评估与监控平台，支持强化学习和监督微调，提供环境数据收集和评估工具。

Stars: ⭐️ 1.0k
Tags: Agent Evaluation RL Observability
最后活动时间: 2026-06-11

rogue

AI智能体评估与红队测试平台，用于测试和评估AI Agent的安全性和性能表现。

Stars: ⭐️ 1.0k
Tags: Agent Testing Red Team E2E Testing
最后活动时间: 2026-05-04

factorio-learning-environment

基于Factorio游戏的开放式LLM评估环境，用于测试大语言模型在复杂任务规划与自动化场景中的能力表现。

Stars: ⭐️ 1.0k
Tags: llm-evaluation benchmark agent-evaluation factorio
最后活动时间: 2026-06-11

The-Little-Book-of-ML-Metrics

机器学习评估指标参考手册，涵盖分类、回归、聚类等指标。

Stars: ⭐️ 999
Tags: metrics machine-learning evaluation book
最后活动时间: 2026-06-04

ollama-grid-search

一款跨平台桌面应用，用于评估和比较本地LLM模型性能，支持网格搜索和A/B测试，帮助开发者选择最优模型配置。

Stars: ⭐️ 938
Tags: llm ollama grid-search evaluation rust
最后活动时间: 2026-05-29

autoevals

快速评估AI模型输出的工具，采用行业最佳实践帮助开发者轻松完成模型评测。

Stars: ⭐️ 920
Tags: ai-evaluation llm model-evaluation testing
最后活动时间: 2026-06-11

jiwer

语音识别系统评估工具，提供词错误率(WER)等相似度度量指标，用于评估和优化语音转文本系统性能。

Stars: ⭐️ 899
Tags: speech-to-text evaluation-metrics wer asr
最后活动时间: 2026-04-16

VibeSearchBench

高难度搜索智能体基准测试，包含 200 个长周期多轮任务，采用无模式知识图谱三元组 F1 进行严格评估。

Stars: ⭐️ 878
Tags: benchmark search-agent agentic-ai evaluation
最后活动时间: 2026-05-28

workshop

让AI编程智能体能够编写和运行智能体评估测试的工具框架。

Stars: ⭐️ 877
Tags: llm agent-evals tracing
最后活动时间: 2026-06-04

LongMemEval

评估聊天助手长期交互记忆能力的基准测试，发表于ICLR 2025。

Stars: ⭐️ 862
Tags: llm benchmark long-term-memory evaluation chat-assistant
最后活动时间: 2026-05-11

TALENT

表格数据学习综合工具包与基准，包含35+深度学习方法、10+经典方法和300+数据集。

Stars: ⭐️ 842
Tags: tabular-data deep-learning benchmark machine-learning
最后活动时间: 2026-06-12

Spider2

ICLR 2025 Oral 论文，评估语言模型在企业级 Text-to-SQL 工作流中的表现。

Stars: ⭐️ 815
Tags: text-to-sql benchmark llm-evaluation
最后活动时间: 2026-01-30

CLIP_benchmark

用于评估CLIP类视觉-语言模型的基准测试工具，支持多种评估任务和数据集。

Stars: ⭐️ 812
Tags: clip vision-language evaluation benchmark multimodal
最后活动时间: 2026-03-19

openbench

开源的语言模型评估基础设施，支持多云提供商的统一评测框架。

Stars: ⭐️ 782
Tags: llm-evaluation benchmark open-source
最后活动时间: 2026-04-28

robustbench

NeurIPS 2021标准化对抗鲁棒性基准测试平台，提供模型鲁棒性评估工具。

Stars: ⭐️ 776
Tags: adversarial-robustness benchmark machine-learning security
最后活动时间: 2026-04-14

ISC-Bench

前沿大模型内部安全崩溃基准测试，包含56个TVD模板，用于评估AI安全性和红队攻击测试。

Stars: ⭐️ 775
Tags: ai-safety benchmark llm-safety red-teaming jailbreak
最后活动时间: 2026-05-14

COMET

基于神经网络的机器翻译评估框架，提供高质量MT评价指标。

Stars: ⭐️ 761
Tags: machine-translation evaluation-metrics nlp neural-network
最后活动时间: 2026-04-21

aequitas

机器学习偏见审计与公平性工具包，用于检测和缓解算法偏见。

Stars: ⭐️ 760
Tags: bias-detection fairness ml-audit responsible-ai
最后活动时间: 2026-05-12

web-codegen-scorer

用于评估LLM生成Web代码质量的工具，帮助衡量大模型在代码生成任务上的表现。

Stars: ⭐️ 743
Tags: LLM Evaluation Code Generation
最后活动时间: 2026-05-05

dingo

全面的AI数据、模型和应用质量评估工具，支持LLM幻觉检测和数据质量评估。

Stars: ⭐️ 711
Tags: LLM评估 数据质量 幻觉检测
最后活动时间: 2026-06-12

ClawProBench

LLM智能体评测基准平台，提供确定性评分和重复试验可靠性验证，支持排行榜功能。

Stars: ⭐️ 701
Tags: llm benchmark evaluation agent leaderboard
最后活动时间: 2026-06-08

long-form-factuality

大语言模型长文本事实性评估基准，提供论文原始代码用于评测LLM生成内容的事实准确性。

Stars: ⭐️ 688
Tags: llm benchmark factuality evaluation
最后活动时间: 2026-06-10

ProgramBench

评估语言模型从零重建程序能力的基准测试框架。

Stars: ⭐️ 661
Tags: benchmark code-generation llm-evaluation
最后活动时间: 2026-05-21

image-similarity-measures

实现了8种图像相似度评估指标，包括RMSE、PSNR、SSIM、FSIM等，适用于机器学习图像处理任务的评估。

Stars: ⭐️ 643
Tags: Image Processing Evaluation Metrics Machine Learning
最后活动时间: 2026-04-08

AICGSecEval

腾讯悟空代码安全团队开发的AI生成代码安全评估基准，用于评估代码安全性。

Stars: ⭐️ 643
Tags: Benchmark Code Security AIGC
最后活动时间: 2026-05-25

skore

机器学习模型开发加速库，提供自动化评估报告、方法论指导和交叉验证分析，帮助数据科学家追踪和优化模型。

Stars: ⭐️ 640
Tags: ML评估 数据科学 Python
最后活动时间: 2026-06-11

genai-compliance-bench

面向监管行业的生成式AI合规评估基准，用于评估GenAI在受监管场景下的表现与合规性。

Stars: ⭐️ 634
Tags: genai compliance benchmark evaluation llm-evaluation
最后活动时间: 2026-03-27

sumeval

一个多语言的文本摘要评估框架，支持BLEU、ROUGE等主流指标，经过充分测试，适合NLP模型评估使用。

Stars: ⭐️ 626
Tags: text-summarization evaluation nlp rouge bleu
最后活动时间: 2026-04-13

OpenJudge

一个统一的大语言模型评估框架，提供全面的质量评估和奖励模型功能，支持RLHF对齐训练。

Stars: ⭐️ 625
Tags: llm evaluation reward-model rlhf alignment
最后活动时间: 2026-05-20

neptune-client

专为基础模型训练设计的实验追踪工具，支持MLOps全流程监控。

Stars: ⭐️ 622
Tags: MLOps Experiment Tracking LLM
最后活动时间: 2026-03-17

claw-eval

LLM智能体评测框架，所有任务均经人工验证，专注于评估大语言模型的智能体能力。

Stars: ⭐️ 620
Tags: llm evaluation agent harness
最后活动时间: 2026-05-17

weatherbench2

下一代数据驱动全球天气预报模型的基准测试平台，用于评估和比较AI气象预测模型的性能。

Stars: ⭐️ 619
Tags: weather-forecasting benchmark machine-learning data-driven
最后活动时间: 2026-06-06

sewar

一站式图像质量评估指标库，包含PSNR、SSIM、FSIM等多种指标，适用于超分辨率等AI任务的评估。

Stars: ⭐️ 613
Tags: image-quality metrics evaluation super-resolution
最后活动时间: 2026-05-01

marginaleffects

R语言统计分析包，支持100多种统计和ML模型的预测、边际效应计算与可视化，提供多种不确定性估计方法。

Stars: ⭐️ 609
Tags: r statistics machine-learning evaluation interpretability
最后活动时间: 2026-05-28

evalchemy

LLM自动评估工具，提供全面的模型性能测试和基准评测能力。

Stars: ⭐️ 597
Tags: llm evaluation benchmark
最后活动时间: 2026-02-24

t2v_metrics

用于评估文本到图像/视频/3D生成模型的指标工具，支持VQAScore评分。

Stars: ⭐️ 586
Tags: generative-ai vision-language-model evaluation-metrics
最后活动时间: 2026-06-05

LettuceDetect

轻量级RAG幻觉检测框架，基于BERT实现高效的幻觉评估与检测。

Stars: ⭐️ 577
Tags: hallucination-detection bert nlp rag-evaluation
最后活动时间: 2026-06-11

MMMU

面向专家级AGI的多学科多模态理解与推理基准测试，涵盖广泛的STEM领域。

Stars: ⭐️ 576
Tags: 多模态 基准测试 AGI
最后活动时间: 2026-02-12

common_metrics_on_video_quality

视频质量评估工具，支持FVD、PSNR、SSIM、LPIPS等主流指标，适用于生成视频和预测视频的质量评价。

Stars: ⭐️ 573
Tags: video-quality metrics fvd psnr ssim
最后活动时间: 2026-01-17

langtest

大语言模型测试与评估工具包，确保AI模型安全有效部署。

Stars: ⭐️ 560
Tags: LLM测试 AI安全 模型评估
最后活动时间: 2026-04-22

agentevals

开箱即用的智能体轨迹评估工具，帮助开发者评估和优化 AI 智能体的表现。

Stars: ⭐️ 557
Tags: agent evaluation testing llm
最后活动时间: 2026-04-21

open-unlearning

一站式LLM遗忘学习仓库，NeurIPS D&B '25收录，涵盖基准测试、隐私保护和成员推理攻击等研究方向。

Stars: ⭐️ 551
Tags: Unlearning Privacy Benchmarks
最后活动时间: 2026-03-18

torch-uncertainty

PyTorch开源框架，专注于深度学习模型的不确定性量化与可靠AI研究，支持贝叶斯网络、集成方法等。

Stars: ⭐️ 508
Tags: pytorch uncertainty bayesian-network deep-learning reliable-ai
最后活动时间: 2026-06-11

inspect_evals

Inspect AI模型的评估测试集合，用于AI模型性能评测与基准测试。

Stars: ⭐️ 508
Tags: ai-evaluation benchmark model-testing
最后活动时间: 2026-05-22

bigcodebench

ICLR'25论文项目，面向AGI的代码生成能力基准测试工具，支持多种主流LLM评估。

Stars: ⭐️ 507
Tags: benchmark code-generation large-language-models program-synthesis
最后活动时间: 2026-01-03

Fine-tuning Tools

LlamaFactory

统一高效的LLM/VLM微调框架，ACL 2024论文项目，支持100+模型和LoRA/QLoRA/量化等完整微调方案。

Stars: ⭐️ 72.1k
Tags: Fine-tuning LoRA LLM
最后活动时间: 2026-06-10

unsloth

统一的本地模型训练与运行Web UI，支持Qwen、DeepSeek、Gemma等主流开源模型。

Stars: ⭐️ 66.3k
Tags: Fine-tuning LLM Training
最后活动时间: 2026-06-12

DeepSpeed

微软开源深度学习优化库，支持千亿级参数模型训练，提供零冗余优化器和混合并行等核心技术。

Stars: ⭐️ 42.5k
Tags: 分布式训练 深度学习 PyTorch
最后活动时间: 2026-06-12

self-llm

开源大模型食用指南，提供基于Linux环境的LLM/MLLM快速微调（全参数/LoRA）与部署教程，覆盖LLaMA、Qwen、ChatGLM等主流模型。

Stars: ⭐️ 30.9k
Tags: LLM 微调 部署教程 LoRA
最后活动时间: 2026-06-03

peft

Hugging Face官方的参数高效微调库，支持LoRA、Prefix Tuning等前沿方法，大幅降低大模型微调的显存需求。

Stars: ⭐️ 21.3k
Tags: Fine-tuning LoRA PEFT Transformers
最后活动时间: 2026-06-12

verl

火山引擎推出的LLM强化学习框架，用于大语言模型的训练和优化。

Stars: ⭐️ 20.9k
Tags: reinforcement-learning llm training
最后活动时间: 2026-04-24

trl

Hugging Face推出的强化学习训练库，支持RLHF、PPO等算法，让大模型对齐训练简单高效。

Stars: ⭐️ 18.6k
Tags: RLHF PPO 强化学习
最后活动时间: 2026-06-12

WeClone

从聊天记录创建AI数字分身的一站式解决方案，通过微调大语言模型精准捕捉个人说话风格。

Stars: ⭐️ 18.0k
Tags: 数字分身 LLM微调 聊天机器人
最后活动时间: 2026-06-11

Megatron-LM

NVIDIA开源的大规模Transformer模型训练框架，支持模型并行、张量并行和流水线并行等分布式训练技术。

Stars: ⭐️ 16.7k
Tags: 分布式训练 Transformer NVIDIA
最后活动时间: 2026-06-12

optuna

强大的超参数优化框架，支持分布式和并行优化，广泛应用于机器学习模型调参。

Stars: ⭐️ 14.4k
Tags: hyperparameter-optimization machine-learning auto-ml optimization
最后活动时间: 2026-06-12

ms-swift

ModelScope官方训练框架，支持PEFT和全参数微调600+大语言模型及300+多模态模型，涵盖SFT/DPO/GRPO等多种训练范式。

Stars: ⭐️ 14.3k
Tags: LLM训练 PEFT 多模态
最后活动时间: 2026-05-29

litgpt

基于Lightning AI构建的完整LLM开发工具链，支持20+高性能模型的预训练、微调与大规模部署。

Stars: ⭐️ 13.4k
Tags: LLM 模型训练 微调
最后活动时间: 2026-06-09

TinyZero

DeepSeek R1-Zero的极简复现版本，帮助开发者快速理解和实验强化学习训练方法。

Stars: ⭐️ 13.1k
Tags: DeepSeek R1-Zero 强化学习
最后活动时间: 2026-02-27

PaddleNLP

飞桨生态下的易用高效大语言模型库，提供丰富的预训练模型和全流程NLP开发能力。

Stars: ⭐️ 13.0k
Tags: NLP LLM 预训练模型
最后活动时间: 2026-05-23

axolotl

流行的LLM微调框架，支持多种模型架构和训练方法，简化大模型微调流程。

Stars: ⭐️ 12.0k
Tags: Fine-tuning LLM
最后活动时间: 2026-05-29

ai-toolkit

强大的扩散模型微调训练工具包，支持多种模型架构的训练和优化。

Stars: ⭐️ 10.8k
Tags: diffusion-models fine-tuning training ai-tools
最后活动时间: 2026-06-11

autogluon

AWS开源的AutoML框架，仅需3行代码即可实现快速准确的机器学习，支持表格数据、图像、文本和时间序列。

Stars: ⭐️ 10.5k
Tags: AutoML Deep Learning PyTorch
最后活动时间: 2026-06-08

ART

基于GRPO的多步智能体强化训练框架，支持Qwen3.5、Llama等主流模型的真实任务训练。

Stars: ⭐️ 10.0k
Tags: GRPO Reinforcement Learning Agent Training
最后活动时间: 2026-06-12

OpenRLHF

基于Ray的高性能RLHF框架，支持PPO、DAPO、REINFORCE++等算法，集成vLLM加速。

Stars: ⭐️ 9.6k
Tags: RLHF PPO Ray vLLM
最后活动时间: 2026-06-09

oumi

一站式LLM/VLM训练平台，支持Qwen3、DeepSeek-R1等主流开源模型的微调、评估与部署。

Stars: ⭐️ 9.3k
Tags: 微调 LLM VLM
最后活动时间: 2026-06-11

LMFlow

可扩展的大模型微调与推理工具包，让大模型微调触手可及。

Stars: ⭐️ 8.5k
Tags: 模型微调 工具包 PyTorch
最后活动时间: 2026-05-22

auto-sklearn

基于scikit-learn的自动机器学习框架，自动完成模型选择与超参优化。

Stars: ⭐️ 8.1k
Tags: automl hyperparameter-optimization scikit-learn bayesian-optimization
最后活动时间: 2026-04-21

PaLM-rlhf-pytorch

PaLM架构上实现RLHF人类反馈强化学习，类ChatGPT训练方案。大模型对齐训练的开源实现。

Stars: ⭐️ 7.9k
Tags: rlhf palm fine-tuning
最后活动时间: 2026-05-29

rf-detr

Roboflow开发的实时目标检测与分割模型架构，在COCO数据集上达到SOTA水平，专为微调优化设计。

Stars: ⭐️ 7.7k
Tags: object-detection instance-segmentation computer-vision detr fine-tuning
最后活动时间: 2026-06-12

hyperopt

分布式异步超参数优化Python库，支持多种优化算法和并行计算，是机器学习模型调参的核心工具。

Stars: ⭐️ 7.6k
Tags: hyperparameter-optimization machine-learning python
最后活动时间: 2026-06-08

gpt-neox

基于Megatron和DeepSpeed的大规模分布式训练框架，支持模型并行自回归Transformer训练，适用于GPT类大语言模型的训练。

Stars: ⭐️ 7.4k
Tags: GPT 分布式训练 DeepSpeed
最后活动时间: 2026-06-11

mergekit

用于合并预训练大语言模型的工具包，支持多种合并策略，帮助开发者创建更强大的模型。

Stars: ⭐️ 7.1k
Tags: LLM Model Merging Fine-tuning
最后活动时间: 2026-05-06

Liger-Kernel

LinkedIn开源的高效Triton内核库，专为LLM训练优化，显著提升训练效率。

Stars: ⭐️ 6.4k
Tags: triton llm-training kernels optimization
最后活动时间: 2026-06-11

slime

一个专注于LLM强化学习扩展的后训练框架，支持大规模模型的高效微调与优化。

Stars: ⭐️ 5.8k
Tags: RL Post-training LLM
最后活动时间: 2026-05-28

torchtune

PyTorch原生训练后库，提供模型微调、量化等工具，支持LLaMA、Mistral等主流大模型。

Stars: ⭐️ 5.8k
Tags: pytorch fine-tuning llm quantization
最后活动时间: 2026-05-27

alignment-handbook

大语言模型对齐配方集合，提供RLHF等人类偏好对齐的完整训练流程和最佳实践。

Stars: ⭐️ 5.6k
Tags: RLHF LLM对齐 微调
最后活动时间: 2026-05-26

rllm

面向LLM的强化学习平台，支持分布式训练、推理优化和智能体工作流。

Stars: ⭐️ 5.6k
Tags: RL for LLMs Distributed Training LLM Reasoning
最后活动时间: 2026-06-12

MedicalGPT

完整的医疗大模型训练流程，支持增量预训练、RLHF、DPO、ORPO等多种训练方法，助力构建医疗领域GPT模型。

Stars: ⭐️ 5.5k
Tags: 医疗大模型 RLHF DPO
最后活动时间: 2026-06-03

torchtitan

PyTorch原生生成式AI模型训练平台，提供高效的大模型训练解决方案。

Stars: ⭐️ 5.4k
Tags: pytorch generative-ai training llm
最后活动时间: 2026-06-12

notebooks

250+个微调和强化学习Notebook，覆盖文本、视觉、音频、嵌入和TTS模型。

Stars: ⭐️ 5.4k
Tags: fine-tuning reinforcement-learning notebooks unsloth
最后活动时间: 2026-05-28

AReaL

轻量高效的LLM推理强化学习框架，支持Agent训练与推理能力优化。

Stars: ⭐️ 5.2k
Tags: 强化学习 RL训练 LLM推理
最后活动时间: 2026-05-10

xtuner

专为超大规模MoE模型打造的下一代训练引擎，支持DeepSeek-V3、Qwen3-MoE等主流大模型的高效微调与训练。

Stars: ⭐️ 5.2k
Tags: MoE LLM训练 微调框架
最后活动时间: 2026-06-12

transformerlab-app

开源AI研究环境，支持从本地硬件到GPU集群无缝训练、评估和扩展模型。

Stars: ⭐️ 5.1k
Tags: 模型训练 LoRA RLHF
最后活动时间: 2026-06-11

parameter-golf

挑战训练最小语言模型的竞赛项目，目标是在16MB限制内训练出最佳性能的LM模型。

Stars: ⭐️ 5.1k
Tags: language-model model-training optimization llm
最后活动时间: 2026-05-04

super-gradients

一站式计算机视觉模型训练库，内置Yolo-NAS等SOTA模型，支持快速微调。

Stars: ⭐️ 5.0k
Tags: computer-vision training yolo-nas
最后活动时间: 2026-02-24

EasyR1

基于veRL构建的高效多模态强化学习训练框架，支持DeepSeek、Qwen等主流模型。

Stars: ⭐️ 5.0k
Tags: 强化学习 多模态 训练框架
最后活动时间: 2026-04-06

h2o-llmstudio

H2O推出的LLM微调框架，提供无代码GUI界面，支持多种开源大模型微调。

Stars: ⭐️ 5.0k
Tags: LLM Fine-tuning No-Code
最后活动时间: 2026-06-06

ignite

PyTorch高级神经网络训练与评估库，提供灵活透明的深度学习训练流程和丰富的指标监控功能。

Stars: ⭐️ 4.8k
Tags: pytorch deep-learning neural-network machine-learning
最后活动时间: 2026-06-11

autotrain-advanced

HuggingFace AutoTrain高级版，自动化机器学习模型训练流程，支持NLP等任务。

Stars: ⭐️ 4.6k
Tags: AutoML Training HuggingFace
最后活动时间: 2026-05-26

llm-foundry

Databricks开源的LLM训练代码库，用于构建企业级基础大模型。

Stars: ⭐️ 4.4k
Tags: 模型训练 Databricks 企业级
最后活动时间: 2026-03-25

FLAML

快速AutoML和超参数优化库，支持分类、回归和时间序列任务。

Stars: ⭐️ 4.4k
Tags: automl hyperparameter-optimization machine-learning python
最后活动时间: 2026-06-12

nevergrad

Facebook Research 开源的无梯度优化工具箱，广泛用于机器学习超参数调优和黑盒优化问题。

Stars: ⭐️ 4.2k
Tags: optimization hyperparameter-tuning machine-learning gradient-free
最后活动时间: 2026-03-16

Train_Custom_Dataset

自定义数据集标注与AI模型训练工具链，涵盖数据标注、模型训练、评估测试到部署的完整流程。

Stars: ⭐️ 4.1k
Tags: training annotation custom-dataset deployment
最后活动时间: 2026-01-07

lightly

专注于图像自监督学习的Python库，提供对比学习和嵌入提取功能，简化数据标注流程。

Stars: ⭐️ 3.8k
Tags: Self-Supervised Learning PyTorch Computer Vision
最后活动时间: 2026-06-11

ReAgent

推理系统平台，支持强化学习和上下文赌博算法，用于模型训练优化。

Stars: ⭐️ 3.7k
Tags: reinforcement-learning reasoning ml-platform contextual-bandits
最后活动时间: 2026-06-09

botorch

Facebook AI贝叶斯优化库，用于超参数调优和实验设计。

Stars: ⭐️ 3.5k
Tags: bayesian-optimization hyperparameter-tuning pytorch
最后活动时间: 2026-05-21

llm-compressor

与Transformers兼容的LLM压缩库，支持量化、稀疏化等压缩算法，显著降低推理成本和内存占用。

Stars: ⭐️ 3.4k
Tags: 模型压缩 量化 vLLM
最后活动时间: 2026-06-12

mljar-supervised

自动化机器学习Python包，支持表格数据的特征工程、超参数调优与自动文档生成。

Stars: ⭐️ 3.3k
Tags: AutoML Feature Engineering Hyperparameter Tuning XGBoost
最后活动时间: 2026-06-11

ROLL

高效易用的大语言模型强化学习扩展库，支持RLHF和RLVR训练范式。

Stars: ⭐️ 3.2k
Tags: rlhf rlvr agentic reinforcement-learning
最后活动时间: 2026-06-12

physicsnemo

NVIDIA开源的物理机器学习深度学习框架，支持构建、训练和微调最先进的物理ML模型。

Stars: ⭐️ 2.9k
Tags: deep-learning physics pytorch nvidia-gpu
最后活动时间: 2026-06-12

learn2learn

PyTorch元学习研究库，支持MAML、少样本学习等元学习算法。

Stars: ⭐️ 2.9k
Tags: meta-learning few-shot maml pytorch
最后活动时间: 2025-12-16

EasyEdit

ACL 2024论文项目，易用的LLM知识编辑框架，支持模型知识更新与遗忘。

Stars: ⭐️ 2.8k
Tags: Knowledge Editing LLM ACL 2024
最后活动时间: 2026-06-11

rl-baselines3-zoo

Stable Baselines3强化学习智能体训练框架，内置超参数优化和预训练模型。

Stars: ⭐️ 2.8k
Tags: RL Training Hyperparameter Optimization PyTorch
最后活动时间: 2026-04-23

adapters

参数高效迁移学习统一库，支持LoRA、Adapter等多种微调方法。

Stars: ⭐️ 2.8k
Tags: Adapters LoRA Fine-tuning
最后活动时间: 2026-04-26

setfit

基于Sentence Transformers的高效少样本学习框架，用少量数据实现高质量文本分类。

Stars: ⭐️ 2.7k
Tags: few-shot-learning sentence-transformers nlp
最后活动时间: 2026-05-26

nanotron

轻量级大语言模型3D并行训练框架，提供简洁高效的分布式训练解决方案。

Stars: ⭐️ 2.7k
Tags: training 3d-parallelism distributed-training llm
最后活动时间: 2026-05-26

maestro

多模态模型微调工具，支持PaliGemma 2、Florence-2和Qwen2.5-VL等主流视觉语言模型的精调流程。

Stars: ⭐️ 2.7k
Tags: Fine-tuning Multimodal Vision-Language
最后活动时间: 2026-06-08

xTuring

一站式LLM个性化解决方案，从数据预处理到微调全流程覆盖，支持LoRA、PEFT、量化等高效微调技术。

Stars: ⭐️ 2.7k
Tags: Fine-tuning LoRA PEFT
最后活动时间: 2026-03-04

Muon

专为神经网络隐藏层设计的优化器，提升模型训练效率和收敛速度。

Stars: ⭐️ 2.6k
Tags: optimizer neural-network deep-learning training
最后活动时间: 2026-05-24

LyCORIS

超越传统 LoRA 的秩适配方法，为 Stable Diffusion 提供高效微调方案。

Stars: ⭐️ 2.5k
Tags: stable-diffusion finetuning lora
最后活动时间: 2026-05-24

tunix

轻量级LLM后训练库，专注于大语言模型的微调与训练流程优化。

Stars: ⭐️ 2.3k
Tags: LLM Post-Training Fine-tuning
最后活动时间: 2026-06-12

maxtext

基于JAX构建的高性能大语言模型训练框架，支持Llama、Gemma、Mistral等主流模型架构。

Stars: ⭐️ 2.3k
Tags: JAX LLM训练 微调
最后活动时间: 2026-06-12

schedule_free

无调度优化器PyTorch实现，无需学习率调度的优化方法。

Stars: ⭐️ 2.3k
Tags: optimization optimizer deep-learning
最后活动时间: 2026-05-18

optax

JAX生态系统的梯度处理与优化库，提供丰富的优化器与梯度变换工具，广泛用于深度学习模型训练。

Stars: ⭐️ 2.3k
Tags: optimization jax machine-learning deep-learning
最后活动时间: 2026-06-11

TransmogrifAI

Salesforce开源的AutoML库，用于在Apache Spark上构建模块化、可复用的机器学习工作流，支持自动化特征工程和模型调优。

Stars: ⭐️ 2.3k
Tags: automl machine-learning spark scala feature-engineering
最后活动时间: 2026-06-02

trainer

基于Kubernetes的分布式AI模型训练和LLM微调平台，支持PyTorch、TensorFlow、JAX等主流框架。

Stars: ⭐️ 2.1k
Tags: Kubernetes Fine-tuning Distributed Training
最后活动时间: 2026-06-12

ViZDoom

基于经典游戏Doom的强化学习研究平台，提供标准化的RL环境接口。

Stars: ⭐️ 2.0k
Tags: reinforcement-learning game-ai deep-learning gym-environment
最后活动时间: 2026-06-10

privacy

机器学习隐私训练库，保护训练数据隐私安全。

Stars: ⭐️ 2.0k
Tags: privacy machine-learning differential-privacy
最后活动时间: 2026-05-11

SkyRL

模块化的全栈强化学习库，专为LLM训练设计，支持分布式训练与高效扩展。

Stars: ⭐️ 2.0k
Tags: RL Library LLM Training Distributed
最后活动时间: 2026-06-12

Qwen-VL-Series-Finetune

开源的Qwen-VL系列视觉语言模型微调实现，支持Qwen2-VL、Qwen2.5-VL、Qwen3-VL等多个版本。

Stars: ⭐️ 1.9k
Tags: Qwen-VL 微调 多模态
最后活动时间: 2026-05-26

byol-pytorch

DeepMind自监督学习方法BYOL的PyTorch实现，无需负样本。

Stars: ⭐️ 1.9k
Tags: self-supervised-learning byol pytorch representation-learning
最后活动时间: 2026-04-27

augmentoolkit

用于创建自定义LLM的工具包，支持数据集生成和模型微调流程。

Stars: ⭐️ 1.9k
Tags: ai dataset-generation finetuning-llms
最后活动时间: 2026-04-24

multimodal

Meta官方的PyTorch多模态训练库，支持大规模多任务多模态模型训练。

Stars: ⭐️ 1.7k
Tags: multimodal pytorch deep-learning training
最后活动时间: 2026-05-25

dlrover

自动化分布式深度学习系统，简化大规模模型训练的集群调度和资源管理，支持LLM训练优化。

Stars: ⭐️ 1.7k
Tags: Distributed Training Deep Learning LLM Training
最后活动时间: 2026-05-24

vizier

Google开源的黑盒优化与超参数调优研究接口，支持贝叶斯优化、进化算法等多种优化策略，适用于深度学习模型的超参数搜索。

Stars: ⭐️ 1.7k
Tags: Hyperparameter Optimization Bayesian Optimization Machine Learning
最后活动时间: 2026-06-12

torchdistill

基于PyTorch的知识蒸馏框架，实现26+种蒸馏方法，支持图像分类、目标检测、NLP等任务。

Stars: ⭐️ 1.6k
Tags: knowledge-distillation pytorch model-compression deep-learning
最后活动时间: 2026-03-31

Semi-supervised-learning

NeurIPS'22发表的统一半监督学习代码库，支持视觉、音频、NLP多领域分类任务。

Stars: ⭐️ 1.6k
Tags: semi-supervised-learning deep-learning pytorch transformer
最后活动时间: 2026-06-06

Pai-Megatron-Patch

阿里云官方开源的大规模LLM与VLM训练框架，支持分布式训练与高效并行。

Stars: ⭐️ 1.6k
Tags: llm training megatron distributed
最后活动时间: 2025-12-15

model-optimization

TensorFlow模型优化工具包，支持量化、剪枝和稀疏化，加速模型部署。

Stars: ⭐️ 1.6k
Tags: quantization pruning model-compression tensorflow
最后活动时间: 2026-06-03

lightly-train

一站式视觉模型训练工具，支持YOLO、ViT、RT-DETR等主流架构的预训练、微调和蒸馏。

Stars: ⭐️ 1.6k
Tags: computer-vision deep-learning pytorch yolo vision-transformer
最后活动时间: 2026-06-12

pyreft

斯坦福NLP团队开发的表示微调库，提供高效的模型微调方法。

Stars: ⭐️ 1.6k
Tags: reft representation-finetuning interpretability nlp
最后活动时间: 2026-03-05

neat-python

NEAT神经进化算法的Python实现，用于通过进化算法自动优化神经网络拓扑结构和权重。

Stars: ⭐️ 1.6k
Tags: neuroevolution neural-network genetic-algorithm python
最后活动时间: 2026-05-23

miles

企业级强化学习框架，专为LLM和VLM后训练设计，支持模型微调与优化。

Stars: ⭐️ 1.5k
Tags: RL Post-training Enterprise
最后活动时间: 2026-06-12

gemma-tuner-multimodal

在 Apple Silicon 上微调 Gemma 4 和 3n 多模态模型的工具，支持音频、图像和文本输入。

Stars: ⭐️ 1.5k
Tags: fine-tuning gemma multimodal apple-silicon pytorch
最后活动时间: 2026-05-12

reasoning-gym

NeurIPS 2025 Spotlight，提供可验证奖励的强化学习推理环境，用于训练大语言模型推理能力。

Stars: ⭐️ 1.4k
Tags: reinforcement-learning reasoning large-language-models gym
最后活动时间: 2026-04-17

prime-rl

大规模智能体强化学习训练框架，支持分布式RL训练。

Stars: ⭐️ 1.4k
Tags: reinforcement-learning rl agents training
最后活动时间: 2026-05-28

Jackrong-llm-finetuning-guide

LLM大模型微调指南，涵盖Llama3、Qwen、DeepSeek等主流模型的微调方法和实践。

Stars: ⭐️ 1.4k
Tags: llm fine-tuning pytorch unsloth
最后活动时间: 2026-05-31

SAELens

在语言模型上训练稀疏自编码器的工具，用于模型可解释性研究。

Stars: ⭐️ 1.4k
Tags: sparse-autoencoder interpretability mechanistic-interpretability
最后活动时间: 2026-05-28

Nemotron

NVIDIA官方的Nemotron模型开发者资源中心，提供训练配方、数据集、微调指南和端到端参考示例。

Stars: ⭐️ 1.4k
Tags: nvidia nemotron fine-tuning model-training reinforcement-learning
最后活动时间: 2026-06-04

finetrainers

可扩展且内存优化的扩散模型训练框架，支持高效微调Stable Diffusion等模型。

Stars: ⭐️ 1.4k
Tags: diffusion-models fine-tuning pytorch training
最后活动时间: 2026-05-26

AngelSlim

腾讯开源的模型压缩工具包，支持LLM/VLM量化、FP4压缩、推测解码等技术，覆盖DeepSeek、Qwen等主流模型。

Stars: ⭐️ 1.3k
Tags: Quantization Model Compression LLM
最后活动时间: 2026-06-10

mlx-tune

在 Apple Silicon Mac 上原生微调大语言模型的开源工具，支持 SFT、DPO、GRPO 及视觉语言模型微调，兼容 Unsloth API。

Stars: ⭐️ 1.3k
Tags: MLX LLM微调 Apple Silicon 本地训练
最后活动时间: 2026-05-31

Gradient-Free-Optimizers

轻量级无梯度优化库，支持贝叶斯优化、进化策略、粒子群等多种超参数优化方法。

Stars: ⭐️ 1.3k
Tags: bayesian-optimization hyperparameter-optimization blackbox-optimization
最后活动时间: 2026-05-16

training_extensions

基于OpenVINO™的计算机视觉模型全流程工具链，支持训练、评估、优化和部署。

Stars: ⭐️ 1.2k
Tags: OpenVINO 计算机视觉 模型优化
最后活动时间: 2026-06-12

GongBU

CIKM 2024论文项目，面向领域适配的大语言模型微调平台。

Stars: ⭐️ 1.2k
Tags: llm fine-tuning domain-adaptation platform
最后活动时间: 2026-01-22

Whisper-Finetune

Whisper语音识别模型微调工具，支持无时间戳数据训练、多平台部署（Web/Windows/Android）和推理加速。

Stars: ⭐️ 1.2k
Tags: ASR Fine-tuning Whisper
最后活动时间: 2026-05-08

nncf

Intel开源的神经网络压缩框架，支持量化、剪枝、稀疏化等优化技术，专为OpenVINO推理加速设计。

Stars: ⭐️ 1.2k
Tags: 模型压缩 量化 OpenVINO
最后活动时间: 2026-06-12

MixGRPO

CVPR 2025 论文实现，通过混合 ODE-SDE 解锁基于 Flow 的 GRPO 效率，用于扩散模型优化。

Stars: ⭐️ 1.1k
Tags: diffusion grpo reinforcement-learning fine-tuning
最后活动时间: 2026-02-26

sliders

用于精确控制扩散模型生成效果的滑块技术，通过调整概念滑块实现图像风格和内容的细粒度控制。

Stars: ⭐️ 1.1k
Tags: Diffusion Models Image Generation Fine-tuning
最后活动时间: 2026-04-13

glue-factory

ICCV 2023，用于局部特征检测与匹配的训练库。

Stars: ⭐️ 1.1k
Tags: feature-detection image-matching training
最后活动时间: 2026-05-27

PyCIL

类增量学习Python工具箱，支持持续学习和开放世界识别研究。

Stars: ⭐️ 1.1k
Tags: continual-learning incremental-learning pytorch deep-learning
最后活动时间: 2026-01-29

TTRL

NeurIPS 2025论文，测试时强化学习方法，无需标注数据即可提升模型推理能力。

Stars: ⭐️ 1.1k
Tags: reinforcement-learning llm reasoning test-time
最后活动时间: 2026-04-15

geoopt

基于PyTorch的黎曼流形优化库，支持在弯曲空间中进行自适应优化，适用于处理层次结构和双曲嵌入等场景。

Stars: ⭐️ 1.1k
Tags: optimization pytorch riemannian-geometry
最后活动时间: 2026-05-09

morph-net

快速简单的资源约束深度网络结构学习框架，支持神经网络架构自动搜索与优化。

Stars: ⭐️ 1.0k
Tags: automl neural-architecture-search deep-learning tensorflow
最后活动时间: 2026-05-07

neural-structured-learning

Google开发的框架，用于训练具有结构化信号的神经网络，支持对抗学习和图神经网络。

Stars: ⭐️ 1.0k
Tags: neural-network adversarial-learning graph-learning tensorflow
最后活动时间: 2026-02-11

TinyLLaVA_Factory

小型大规模多模态模型训练框架，专注于视觉语言模型的轻量化实现与训练。

Stars: ⭐️ 985
Tags: Multimodal LLaVA Vision-Language
最后活动时间: 2026-05-28

Gym

专为LLM训练设计的强化学习环境构建框架，支持多种RL算法和环境配置。

Stars: ⭐️ 977
Tags: RL LLM Training Environment
最后活动时间: 2026-06-12

DoRA

ICML2024 Oral论文官方实现，提出权重分解低秩适应方法，显著提升LLM和视觉语言模型的微调效果。

Stars: ⭐️ 976
Tags: Fine-tuning LoRA LLM Vision-Language
最后活动时间: 2026-03-24

Skills

专注于提升大语言模型技能的项目，帮助LLM在各种任务场景中表现更出色。

Stars: ⭐️ 975
Tags: llm skills fine-tuning
最后活动时间: 2026-06-12

DistillKit

开源LLM蒸馏工具包，提供模型知识蒸馏的完整解决方案。

Stars: ⭐️ 961
Tags: distillation llm fine-tuning knowledge-transfer
最后活动时间: 2026-05-12

LLM-Dojo

轻量级LLM后训练框架，支持SFT、RLVR、知识蒸馏及混合训练，提供多教师蒸馏与自动化数据分流功能。

Stars: ⭐️ 932
Tags: LLM Fine-tuning Knowledge-Distillation SFT RLVR
最后活动时间: 2026-03-08

AgileRL

强化学习RLOps框架，通过进化超参数优化实现10倍加速训练。支持多智能体和分布式训练。

Stars: ⭐️ 925
Tags: Reinforcement Learning RLOps PyTorch
最后活动时间: 2026-06-12

compression

TensorFlow数据压缩库，利用深度神经网络实现高效数据压缩。

Stars: ⭐️ 918
Tags: compression deep-learning tensorflow neural-network
最后活动时间: 2026-04-17

SDPO

通过自蒸馏实现强化学习，提升LLM推理能力的训练方法。

Stars: ⭐️ 905
Tags: rl distillation reasoning
最后活动时间: 2026-02-18

LLM-Finetuning-Toolkit

开源LLM微调工具包，支持微调、消融实验和单元测试，覆盖Llama2、Mistral、Falcon等主流模型。

Stars: ⭐️ 871
Tags: Fine-tuning LoRA QLoRA LLM
最后活动时间: 2026-05-04

dreamerv3-torch

Dreamer v3强化学习算法的PyTorch实现，世界模型方法的代表性工作。

Stars: ⭐️ 858
Tags: reinforcement-learning pytorch deep-learning world-model
最后活动时间: 2026-03-08

SpecForge

推测解码模型训练工具，支持轻松训练并无缝迁移至 SGLang 推理服务。

Stars: ⭐️ 852
Tags: Speculative Decoding Training SGLang
最后活动时间: 2026-05-28

llm-engine

Scale AI开源的LLM引擎，提供高效的大模型微调能力。

Stars: ⭐️ 830
Tags: Fine-tuning LLM Scale AI
最后活动时间: 2026-06-10

Optimization.jl

Julia语言的统一数学优化接口，支持局部/全局优化、凸优化、混合整数规划等，内置自动微分功能，广泛应用于机器学习模型训练与科学计算。

Stars: ⭐️ 824
Tags: optimization julia automatic-differentiation machine-learning
最后活动时间: 2026-05-08

mammoth

基于PyTorch的可扩展持续学习框架，NeurIPS 2020官方代码库，支持多种训练策略。

Stars: ⭐️ 822
Tags: continual-learning pytorch deep-learning
最后活动时间: 2026-05-20

terratorch

专注于地理空间基础模型微调的Python工具包，支持地球观测、气象预测等领域的深度学习模型训练。

Stars: ⭐️ 819
Tags: deep-learning foundation-models geospatial earth-observation computer-vision
最后活动时间: 2026-06-02

ensmallen

轻量级C++数值优化库，广泛用于机器学习模型训练优化。

Stars: ⭐️ 810
Tags: optimization machine-learning deep-learning cpp
最后活动时间: 2026-05-01

kohya-colab

基于kohya-ss工作的Stable Diffusion LoRA训练Colab笔记本集合，提供便捷的模型微调解决方案。

Stars: ⭐️ 807
Tags: stable-diffusion lora-training colab fine-tuning
最后活动时间: 2026-05-11

lmms-engine

一个简洁统一的多模态模型训练引擎，支持大规模模型微调与开发，灵活且可扩展。

Stars: ⭐️ 789
Tags: multimodal training llm
最后活动时间: 2026-06-09

terratorch

专注于地理空间基础模型微调的Python工具包，支持地球观测和气象模型。

Stars: ⭐️ 788
Tags: geospatial foundation-models deep-learning earth-observation pytorch
最后活动时间: 2026-05-04

doc-to-lora

使用超网络让LLM记忆事实信息的创新方法，通过LoRA实现知识更新。

Stars: ⭐️ 743
Tags: hypernetworks lora llm memory
最后活动时间: 2026-05-25

deep-symbolic-optimization

符号优化深度学习框架，用于自动发现数学公式和符号表达式。

Stars: ⭐️ 728
Tags: symbolic-optimization deep-learning auto-discovery
最后活动时间: 2026-01-23

sparsify

使用稀疏自编码器和Transcoders对Transformer模型进行稀疏化处理。

Stars: ⭐️ 722
Tags: sparse-autoencoder mechanistic-interpretability transformer
最后活动时间: 2026-05-25

MARS

面向大模型训练的方差缩减优化器官方实现，提升大规模模型预训练和微调效率。

Stars: ⭐️ 721
Tags: Optimizer Training LLM
最后活动时间: 2026-03-26

finetune

提供Scikit-learn风格的NLP模型微调接口，简化Transformer模型的迁移学习流程。

Stars: ⭐️ 721
Tags: finetuning nlp transformers scikit-learn
最后活动时间: 2026-05-05

FEDOT

自动化机器学习框架，支持进化算法和超参数优化。

Stars: ⭐️ 705
Tags: automl machine-learning evolutionary-algorithms hyperparameter-optimization
最后活动时间: 2026-06-11

torchforge

PyTorch原生的大规模训练后优化工具，支持量化、剪枝等模型压缩技术。

Stars: ⭐️ 685
Tags: pytorch post-training quantization optimization
最后活动时间: 2026-05-27

FL-bench

联邦学习基准测试平台，支持差分隐私和个性化联邦学习研究。

Stars: ⭐️ 680
Tags: federated-learning differential-privacy deep-learning pytorch
最后活动时间: 2026-01-25

oat

友好的LLM在线对齐研究框架，支持强化学习、偏好学习、DPO、PPO等多种方法。

Stars: ⭐️ 661
Tags: RLHF DPO LLM Alignment
最后活动时间: 2026-01-29

quaterion

高效的相似度学习模型微调框架，基于PyTorch Lightning构建。

Stars: ⭐️ 659
Tags: similarity-learning metric-learning pytorch fine-tuning
最后活动时间: 2026-05-19

small-text

Python文本分类主动学习库，支持深度学习、Transformer和小语言模型。

Stars: ⭐️ 644
Tags: active-learning text-classification transformers pytorch
最后活动时间: 2026-05-24

Trinity-RFT

一个通用、灵活且可扩展的大语言模型强化微调框架，支持RLHF训练流程。

Stars: ⭐️ 639
Tags: llm rlhf fine-tuning reinforcement-learning
最后活动时间: 2026-05-28

RandOpt

论文官方代码库，研究预训练权重周围的任务专家多样性，涉及LoRA、神经进化与后训练优化技术。

Stars: ⭐️ 601
Tags: llm lora post-training ensemble-learning neuroevolution
最后活动时间: 2026-05-20

e2e

长上下文端到端测试时训练的官方JAX实现，专注于提升模型在长序列任务上的表现。

Stars: ⭐️ 600
Tags: JAX Test-Time Training Long Context
最后活动时间: 2026-02-15

LightReasoner

探索小语言模型如何教导大语言模型进行推理的创新方法。

Stars: ⭐️ 599
Tags: reasoning knowledge-distillation small-language-models post-training
最后活动时间: 2026-05-22

Automodel

PyTorch原生分布式训练库，专为LLM/VLM设计，开箱即用支持Hugging Face生态。

Stars: ⭐️ 583
Tags: llm finetuning pytorch distributed-training vlm
最后活动时间: 2026-06-12

mistral

透明可访问的大规模语言模型训练框架，基于Hugging Face Transformers构建。

Stars: ⭐️ 580
Tags: llm-training huggingface transformers
最后活动时间: 2026-03-11

LAMDA-PILOT

基于预训练模型的持续学习工具箱，支持增量学习和终身学习场景。

Stars: ⭐️ 578
Tags: 持续学习 预训练模型 PyTorch
最后活动时间: 2026-01-29

SteptronOss

轻量级AI原生训练框架，支持SFT、RLVR和评估工作流，专为快速迭代和可复现实验设计。

Stars: ⭐️ 575
Tags: training-framework llm fine-tuning rlvr
最后活动时间: 2026-05-18

INFTY

支持持续学习的AI优化工具包，用于模型训练与优化流程。

Stars: ⭐️ 570
Tags: continual-learning optimization ai-toolkit
最后活动时间: 2026-05-21

Flow-Factory

统一框架，为Flow-Matching模型提供便捷的强化学习训练能力，支持图像与视频生成。

Stars: ⭐️ 569
Tags: flow-matching reinforcement-learning diffusion image-generation
最后活动时间: 2026-06-11

Enzyme.jl

Julia语言的Enzyme自动微分绑定，支持编译器级别的自动微分，适用于深度学习训练优化。

Stars: ⭐️ 566
Tags: automatic-differentiation julia enzyme machine-learning
最后活动时间: 2026-06-11

TextRL

在HuggingFace模型上实现ChatGPT风格的RLHF人类反馈强化学习训练。

Stars: ⭐️ 564
Tags: rlhf reinforcement-learning fine-tuning huggingface
最后活动时间: 2026-04-23

paxml

基于JAX的大规模机器学习训练框架，支持高级并行化与业界领先的模型利用率。

Stars: ⭐️ 554
Tags: jax llm training parallelism
最后活动时间: 2026-06-04

Hyperactive

统一的优化算法接口，支持超参数优化、神经网络架构搜索和特征工程自动化。

Stars: ⭐️ 550
Tags: hyperparameter-optimization neural-architecture-search optimization machine-learning
最后活动时间: 2026-05-31

happy-transformer

简化NLP Transformer模型的微调和推理，支持BERT、RoBERTa等模型。

Stars: ⭐️ 547
Tags: nlp transformers fine-tuning bert
最后活动时间: 2026-01-10

autofeat

自动化特征工程与选择的线性预测模型工具。

Stars: ⭐️ 538
Tags: automated-feature-engineering feature-selection automl
最后活动时间: 2026-01-06

simply

基于JAX的极简可扩展研究代码库，专为LLM和自回归模型的前沿研究快速迭代设计。

Stars: ⭐️ 524
Tags: jax llm research autoregressive
最后活动时间: 2026-05-19

dLLM-RL

ICLR 2026 论文官方代码，TraceRL 革新扩散大语言模型的后训练流程，打造 SOTA 级别的 TraDo 系列模型。

Stars: ⭐️ 508
Tags: diffusion-language-models reinforcement-learning rlhf llm-training
最后活动时间: 2026-01-28

QeRL

ICLR 2026论文项目，支持在单张H100 GPU上对320亿参数LLM进行强化学习训练。

Stars: ⭐️ 505
Tags: llms quantization reinforcement-learning reasoning
最后活动时间: 2026-03-30

EvoOpt_oppangu_optimization_model

基于Openpangu-7B大模型的运筹优化任务微调解决方案，专注于将LLM应用于运筹学优化场景。

Stars: ⭐️ 505
Tags: llm fine-tuning operations-research optimization
最后活动时间: 2026-03-30

🔧 微调与训练 ​

Dataset Management ​

Evaluation Metrics ​

🔧 微调与训练

Dataset Management

Evaluation Metrics