Concept Graph以理解自然语言
微软推出Concept Graph,以更好的理解自然语言。微软研究院公开了其为解决让自然语言难以理解的困难之一而进行的努力,这个困难就是知识。该公司认为,背景知识是人类与机器在语言理解上的主要差别之一。
Probase是一个知识数据库,微软在该产品上开发了相当一段时间。该数据库是开放工具Microsoft Concept Graph(微软概念图)的基础。Probase包含了540万个概念,超过了如提供12万个概念的Cyc等其他知识数据库。
所有这些互联信息的目标是混合解释与可能性以支持文本分析,非常类似人类使用排除法完成同样任务的方法。例如,如果我说“the man ran from the stranger with the knife”,你最可能理解为这个人逃离了一个手拿刀的陌生人。但这个句子的意思也可以是你从陌生人手中夺走了刀并逃离。
但逃跑意味着害怕,刀与害怕有关,因此最简单、最直接的解释占据优势,即使可能不是很准确。微软的Concept Tagging Model(概念标签模型)以此为基础开发以用相同概率想法对文本进行分类映射。接着上面的例子,刀也可指厨房用具或武器,但从上下文看,最可能是武器而不是从博物馆中偷来的17世纪餐刀。
厨房用具和武器都是相对普遍的东西,但博物馆的艺术品有点长尾概念。微软的模型规模宏大,同时考虑了高度可能性和极度不可能性以解释属性、子语境和关系。今天发布的版本可对任何文本词条排定分类相关性。微软基础级概念化将优先排定有效和合适种类以及其他方法如MI、PMI、PMIk和Typicality。
未来版将能包含他们称的“根据语境的单个实例概念化”,基本上将“陌生人”和“刀”与所代表的意思联系起来。对更长远的未来,该团队希望解决“短文本概念化”,甚至进一步拓宽在搜索、广告和AI内的应用范围。
2898站长资源平台友情链接交换:http://www.2898.com/friendchange.htm