晴数智慧数据集名列北京市首批“人工智能大模型高质量数据集”，入选产业创新伙伴计划

35小吃技术网推荐阅读 2023年09月25日22时17分53秒 202 0

2023年7月2日，“2023全球数字经济大会人工智能高峰论坛”在中关村国家自主创新示范区会议中心举行。论坛以“智能崛起，重塑未来”为主题，云集了10余位人工智能领域顶尖专家学者以及企事业单位代表，分享了他们对人工智能领域网的深入见解和思考。大规模模型开发的最热门话题。

本次论坛发布了首批“北京人工智能大规模模型高质量数据集”，清数智能等9家单位的18个高质量训练数据集入选，其中包括清数智能的《智能座舱人机交互高级数据集》。质量数据集”、“超大规模中文多领域对话数据集”、人民日报语料库数据集、国家法律法规语料库数据集、两会参与审议建议数据集、“客情头条”全球科技动态数据集、中国科学引文数据库数据集、科技文献挖掘语义标注数据集等，涵盖经济、政治、文化、社会、生态等不同领域，总规模超过500T，将为通用大模型和行业大模型训练。

论坛还公布了北京通用人工智能产业创新合作伙伴计划第二批成员名单。成为全国首个出台大型模型产业定向扶持政策的地区。 “伙伴计划”旨在打造人工智能大模型开放合作平台，建立协同合作机制，通过不断优化产网业链布局，大幅提升高质量算力和高质量数据供给支撑能力，培育一批应用大型示范技术实现突破性成长的标杆企业。

据了解，第二批“合作伙伴计划”征集活动引起了业界的广泛反响和积极参与。截至6月30日，京内外共有416家大型模型研发应用企业申请加入。经过学术界、工业界、投资界专家充分论证和市场化机制评估，北京青数科技有限公司等9家企业入选第二批“伙伴计划”数据合作伙伴并进行讨论在论坛上。宣布。

人工智能大型模型的突破源于高质量数据的不断发展。提高优质数据要素供给能力是推动通用人工智能大模型领域创新的关键。目前国内中文语料数据稀缺，数据处理成本较高，数据相关法规尚未完善。

晴数智慧数据集名列北京市首批“人工智能大模型高质量数据集”，入选产业创新伙伴计划-第1张图片

晴数智慧数据集名列北京市首批“人工智能大模型高质量数据集”，入选产业创新伙伴计划-第2张图片

作为全球领先的高质量数据集解决方案公司，青书智慧拥有近亿轮高质量成品对话数据集，可用于大型模型训练。在传统采集和标签的基础上，青树智慧围绕高质量数据的构建，为客户提供MLOps（闭环机器学习运维）支持，并提供专业的DaaS（Data as a）解决方案。青树智能核心团队深耕人工智能数据领域近20年，参与起草国家标准《面向人工智能的机器学习数据标网注规范》（GB/T 42755-2023）、《信息技术智能语音交互测试方法第1部分：语音识别》（GB/T 41813.1-2022）、《信息技术智能语音交互测试方法第2部分：语义理解》（GB/T 41813.2-2022），积累了丰富的数据治理方面的经验。

青数智能加入北京市通用人工智能产业创新合作伙伴计划，将助力打造大规模模型构建与微调数据专区，建设国家数据实训基地，制定数据服务标准，提供优质合规数据用于模型训练，降低模型训练成本。同时，我们将联合算力、模型、各应用领域的合作伙伴共同打造MLOps，助力大规模模型产业落地。

广告声明：本文所包含的外部跳转链接（包括但不限于超链接、二维码、密码等）用于传达更多信息并节省选择时间，结果仅供参考。 IT之家所有文章均包含此声明。