新闻事实语料库

权威、准确、全面的舆论信息资源

语料库概况

1400+
稿源单位
2.28亿+
语料总量
4万+
日新增语料
300+
数据分类
220+
标签字段
32万+
关键词索引

新闻事实语料库覆盖国家网信办最新公布的《2025版互联网新闻信息稿源单位名单》,包括中央新闻单位,中央和国家机关、群团组织等主管主办的报刊网站和政务发布平台,地方新闻单位,省级政务平台等信息。

资源特色与建设措施

新闻事实语料库依托人民网内容聚合分发业务长期建设形成的新闻资讯、党政文献、理论评论、法律法规规章和科普知识等优质资源,具有更新快速、标准统一、结构完整、权威准确、开放共享等特色。

通过科学采样、归集、清洗、标注、风控等措施,重点建设基础语料、问答语料、知识点语料等多类语料,赋能人工智能的主流舆论导向和社会主义核心价值观对齐,满足全面性、专业性、时效性、导向性的要求。

有效解决当下AI大模型普遍存在的敏感领域语料欠缺、重要文化领域语料不足、舆论导向不正确、虚假和不良信息干扰、意识形态存在风险等问题。

语料库作用与意义

新闻事实语料库构建富含政治术语和场景化表达的精准语料资源,进一步增强AI大模型的理解力,把握正确舆论导向,形成舆论合力,加强正面宣传,持续关注和回应社会关切,及时解疑释惑。有力批驳错误言论,澄清是非、以正视听。