首席澳门威尼斯人注册网站研究员:Matt Marx, Questrom战略与创新
介绍
这项工作的目标是建立一个从美国专利(1947-2018)到科学文章(1800-2018)的公开引用集。由于我们迄今为止在专利首页材料上的工作,我们已经建立了大约15MM非常高置信度的科学专利引文(PCS)。PCS极难处理,因为美国科学文章的专利引用是作为非结构化数据提供的,其中有3600万。在比较的另一边,我们使用了公开的微软学术图谱(MAG)中的1.66亿篇文章。MAG数据是完全结构化的,包括标题、作者、出版年份、出版期刊、卷号、发行号和页面范围等信息。
RCS贡献
将美国专利局数据与MAG数据进行全面比较需要5.9 x 1015次比较,因此在计算上是完全不切实际的。马克思博士来到RCS,希望我们的澳门威尼斯人注册可以帮助解决这个问题。Aaron Fuegi提出了处理这个问题的几种方法,并开始与Marx博士密切合作。最初的计划是匹配年份、卷号、期号和第一页。我们做的第一件事是寻找1800-2019年范围内的4位数数字,并将这些数字视为年份,因此对于给定的比较,我们只能与包含适当年份的专利引用进行匹配。如果一个给定的引文提到了两个或两个以上这样的数字,它将被考虑为这两个/所有这些年,但这是好的。然后,我们使用每年的数据,基本上在文件系统中基于给定行中出现的所有数字创建了一个散列。这创造了大量的冗余,但给我们带来了巨大的好处。这样做之后,如果一篇论文以第77页开头,我们可以直接到与这个数字相关的文件中,查找所有提到数字77的专利引用,并且只查找这些引用。我们后来扩展了这种方法,将每个专利行也分解成单词,这样我们就可以以计算上可行的方式搜索重要的关键词,通常是论文标题中两个最长的单词中的任何一个。
目前,我们正在匹配具有第一作者姓氏的引用,并且在文章的第一页(或者,如果缺少,则是卷)或文章名称中两个最长的单词之一上匹配。我们还要求年份一般要匹配;目前,对于基于页面的方法,它必须完全匹配,而对于基于单词的方法,它必须在结构化数据中发布的年份之内。在基于出版年份和参考文献中的字数/数字的两个散列步骤之间,加速至少增加了4000倍(见上图),并且问题变得易于解决。
我们现在还允许没有年份的专利引用,并将它们与MAG中的全套文章进行匹配,只需使用单词/数字散列。这组比较不包括在上图中减少的比较次数中,因为它没有使用完整的方法。
结合起来,这些方法创建了一个松散的15亿个潜在的PCS匹配集。在如此大规模地缩小搜索范围之后,我们使用基于标题、作者、卷、问题、第一页、最后一页和期刊的启发式方法,以更彻底和计算成本更高的方式考虑每个潜在的匹配,以判断我们是否认为它确实是匹配的,并对该判断应用置信度评分。我们最终得到了超过1500万个匹配,估计准确率为99.5%。
这项工作还广泛使用了BU共享计算集群(SCC),因为这项工作具有高度并行性,并且在SCC上运行的代码可以在不到一个小时的时间内连续运行。整个过程在SCC上运行大约需要一天的时间。
更多的信息
这项工作的当前结果是可用的,包括我们的论文和从1926-2018年美国专利到1800-2018年微软学术图文章的引用。