大模型训练(及服务)平台
大模型训练(及服务)平台集成了数据管理、模型管理、CI/CD流程编排、GPU/NPU资源调度、自动伸缩等能力和相关最佳实践,为大模型的训练和
服务提供了全面支持。该平台通过自动化和智能化的管理手段,显著提升了模型训练的效率和质量,并降低了服务成本。
核心功能
高效可控的
模型训练
训练数据集创建
支持多种格式文本提取,提供自动化及手动处理工具,包括文本切分、编辑
利用大型语言模型生成数据来丰富数据集
训练数据集管理
具备数据清洗、审核、增强等能力
支持导出处理好的数据集,用于模型训练或其他,还支持版本管理
高效可控的
模型训练
模型训练管理
支持创建、编辑和删除模型训练任务,以及版本管理
支持训练状态和结果更新,还支持在线和离线两种训练模式
模型评估
内置通用大模型评估指标、数据集,支持自定义
具备自动化测试能力,支持自动评估、人工评估,可生成评估报告
可全面监管
的模型服务
模型管理
可灵活配置模型相关参数,应用于特定的需求和应用场景
提供清晰的界面管理当前用户的模型库
用户授权管理
各模型服务对应的KEY授权相关信息一览
支持授权停用与恢复
可全面监管
的模型服务
服务管理
直观掌握当前用户创建的所有服务及相关信息
快速完成服务的创建、删除、上下线
模型服务监控
统计并展示不同应用、服务调用详情
监控服务器的网络情况、总使用率和针对不同模型服务进行监控等
产品优势
动态调度
支持自动化的资源调度和伸缩配置,可根据训练任务的需求动态调整资源,提高训练效率
灵活训练
用户可根据需求调整训练数据集,自定义训练任务,如选择模型架构、调整超参数、设定训练轮数等,还可回溯历史版本
精细管理
提供模型管理和服务管理功能,用户可以方便地查看和管理自己的模型和服务,包括配置、授权、监控等
高效部署
API接口设计,可高效调用已经训练好的模型,实现快速模型部署
权限可控
支持服务的上下线管理和用户授权管理,确保服务的高可用性和安全性
实时监控
提供全面的服务监控功能,包括服务调用统计、服务监控总览等,帮助用户及时发现和解决问题