|
词形还原( Lemmatization)537次阅读 2019-06-06
解决专利英文分词中的词形还原( Lemmatization) 问题。
在英文专利检索的场景中,客户希望能够通过英文单词的“词根”检索到这个单词的各种变种形式,比如说, 客户在检索英文关键词 heat (中文意思为加热)的时候,客户希望检索结果中能够命中 “heatable” “heats” “heating” 等等 , 虽然可以使用常见搜索引擎的“通配符”检索功能来达到类似的效果,但是“通配符”可能会匹配到与输入次毫无关系的关键词,例如“heathen” (中文意思为异教徒), 从来给检索结果带来大量的噪音。 预期达到的效果内容:能够处理常见的单复数和过去式 ,形容词等变种;能够在输入某个关键词的任意变种形式找到其他形式;能够从专利中智能的提取这种变种关系
企业信息
|