1.文本大数据组织利器——“汉语主题表”发布
5月26日,文本大数据组织的利器——“汉语主题词表”在2018中国国际大数据产业博览会上发布,会上中国科学技术信息研究所所长戴国强为国家科技信息资源综合利用公共服务中心区域创新(贵阳)大数据联合实验室揭牌。
此次发布会由中国科学技术信息研究所和贵阳市科技局共同承办,发布会现场播放了汉语主题表宣传片和相关专家的介绍,展示汉语主题词表与大数据的关系。
据介绍,汉语主题词表是目前影响力最大、最权威的中文主题词表。截至目前,我们国家的汉语主题词表已经达到了140余部。
新型《汉语主题词表》是支持汉语信息处理的语义工具,以概念词汇为知识节点,以等同关系、等级关系和相关关系为语义关联构建成的超大型知识库系统。
会上,国家科技信息资源综合利用公共服务中心区域创新(贵阳)大数据联合实验室正式揭牌,将进一步推进汉语主题表与大数据云计算以及人工智能的融合与应用,汉语主题表在文本大数据治理中的价值释放。
2.《汉语主题词表(自然科学卷)》正式出版
自然科学卷的编制工作于2015年启动,仍沿用工程技术卷的编制方法和组织模式,由中国科学技术信息研究所联合国内7家单位协同编制。在大家共同努力下,《汉语主题词表(自然科学卷)》历经3年完成,如期出版。《汉语主题词表(自然科学卷)》共收录优选词6.5万条,非优选词5.9万条,等同率为0.91,属分参照度为2.09,相关参照度为0.87。《汉语主题词表(自然科学卷)》覆盖多个学科领域,词量庞大,正确地建立复杂的概念关系绝非易事,相关细节之争论或缺陷尚有待于不断交流、完善和持续更新。
本次《汉语主题词表》的重新编制是新时期我国图书情报界全国性大协作工程的成果,是网络在线编制叙词表的协同示范。在此谨向参加编制工作的所有单位和个人以及参与论证和指导的研究单位和个人表示感谢。