面向自然语言的信息抽取服务
  • 作者:瑞恩网络科技
  • 发表时间:2021-06-01 13:38
  • 来源:未知

(1)信息标注与语料库构建
语义角色标注是浅层语义分析的一种实现方式,具有问题定义清晰,便于人工标注和评测等优点。空间语义角色标注是对句子中空间表达式组成要素的识别和分类过程,有助于将自然语言映射为形式化的空间表达。

经过长期的努力和积累,构建了大规模、高质量的地名地址信息标注语料库(简称“GeoCorpus”)。具体包括以下几个部分:
1)时间标注语料库:以新闻、百科文本为主要数据源,以中文文本中时间信息标注规范为参考依据,以XML为标记元语言,对各种通用时间短语和上下文辅助词汇进行标注。语料库共计46万字。
2)地名标注语料库:以新闻、百科文本为主要数据源,以中文文本中时间信息标注规范为参考依据,以XML为标记元语言,对各种通用时间短语和上下文辅助词汇进行标注。地名标注语料库分类综合性地名标注语料库和特定领域地名标注语料库(比如新闻语料)。语料库共计1100万字。
3)空间关系标注语料库:以《中国大百科全书中国地理)》为源数据,按照空间关系分类体系(包括拓扑关系、方向关系和距离关系三个大类),以XML为标记元语言,对188个文件(约213万字)进行空间关系词汇和句法标注。同时,以网页为数据源,建立了1万个空间关系样例库。
4)地名属性标注语料库:《中国大百科全书中国地理)》和网页文本为源数据,100篇文档。需要说明的是,由于地名属性采用规则模型进行抽取,因此只需要小规模的标注数据库进行实验验证。


(2)语义知识库构建
时间知识库:总结了各种时间类型的常用词汇,定义了常用时间名词词典(如:现在,将来,目前,等)。此外,归纳了常用的时间前边界词、后边界词、多条时间的连接词等词语。这些词语经常各种类型的时间信息相结合,如“自2010年开始”、“从去年三月一直到今年四月”等。总结了文本中的时间连接词,构成时间前后连接词表。在基于条件随机场的基础上,引入这些词典用于后处理以抽取出完整的时间信息。
地名知识库:根据地理现象的语义特征识别相应的地理要素,进而可以使用地名对这种位置和边界都可知觉的地理要素对象进行描述(如珠穆朗玛峰、黄河等)。地名中用来区分各个地理实体部分的词称为专名,用来区分地理实体的类型、隶属关系、形态和性质的词称为通名(如山、河和海等)。绝大多数地名通名来自地理学科中的专门用语,有着共同的基本性质和特征,在同类地名中具有相同的意义。
空间关系知识库:空间关系词汇对空间关系语义表达具有显著的指示作用。因此,构建空间词汇词典对于实现空间关系抽取具有决定性的作用。尽管人工可以总结一些常用的空间关系词汇,但是毕竟覆盖面有限。研究了基于Bootstrapping的机器学习方法,可以较好地发现更多的空间关系词汇;针对空间关系词汇的模糊性,研究了空间关系词汇的语义相似度计算和概念相似度模型;探讨了空间关系词汇与地理要素类型之间的语义映射关系。
(3)机器学习模型训练与信息抽取
最终实现:基于条件随机场模型的时间信息抽取方法;基于机器学习模型的地名识别方法;基于规则模型的空间关系抽取方法;基于SVM的空间关系抽取等。