中文互联网语料库CCI 2.0开放,涵盖1.25亿个网页 | 2024中关村论坛

中文互联网语料库CCI 2.0开放,涵盖1.25亿个网页 | 2024中关村论坛
2024年04月27日 11:17 羊城派

作为2024中关村论坛年会的平行论坛之一,数据安全治理与发展论坛4月26日在北京成功举办。论坛上,智源研究院正式发布了中文互联网语料库CCI 2.0(Chinese Corpora Internet,简称 CCI),规模约500GB,涵盖1.25亿个网页。

据介绍,中文互联网语料库 CCI 是由智源研究院联合多家数据贡献单位构建的高质量、可信数据集,于2023年11月首次开源(CCI 1.0),旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,共同推动大数据和人工智能领域的健康发展。

在中国网络空间安全协会人工智能安全治理工作委员会等的推动下,智源研究院与多家企业经过四个月的努力,共收集约8TB互联网数据,通过严格的清洗和筛选,形成了超过500GB的高质量“中文互联网语料库” CCI 2.0,数据类型全面、质量较高、安全可信,包括网页、公众号、博客、百科、问答、试题等。

为了推动产业持续贡献、共建高质量人工智能数据集,在中国网络空间安全协会人工智能安全治理工作委员会的指导下,智源研究院联合多家企业单位成立数据集工作组,打造了“贡献—共享”的数据运营方式。同时,智源研究院连同京能数字产业有限公司,搭建了首个数据集“共建-共享”平台,数据贡献单位通过贡献的数据集数量和质量,获得评定的积分,然后通过该平台以积分兑换方式进行数据集下载。同时,智源研究院牵头组织数据集工作组制定了文本语料共享清洗过滤规范,建立了内容清洗过滤规则共享机制。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部