专利中对科学的依赖：TechWeb：波士顿大学

首席澳门威尼斯人注册网站研究员：Matt Marx， Questrom战略与创新

介绍

这项工作的目标是建立一个从美国专利（1947-2018）到科学文章（1800-2018）的公开引用集。由于我们迄今为止在专利首页材料上的工作，我们已经建立了大约15MM非常高置信度的科学专利引文（PCS）。PCS极难处理，因为美国科学文章的专利引用是作为非结构化数据提供的，其中有3600万。在比较的另一边，我们使用了公开的微软学术图谱（MAG）中的1.66亿篇文章。MAG数据是完全结构化的，包括标题、作者、出版年份、出版期刊、卷号、发行号和页面范围等信息。

RCS贡献

将美国专利局数据与MAG数据进行全面比较需要5.9 x 1015次比较，因此在计算上是完全不切实际的。马克思博士来到RCS，希望我们的澳门威尼斯人注册可以帮助解决这个问题。Aaron Fuegi提出了处理这个问题的几种方法，并开始与Marx博士密切合作。最初的计划是匹配年份、卷号、期号和第一页。我们做的第一件事是寻找1800-2019年范围内的4位数数字，并将这些数字视为年份，因此对于给定的比较，我们只能与包含适当年份的专利引用进行匹配。如果一个给定的引文提到了两个或两个以上这样的数字，它将被考虑为这两个/所有这些年，但这是好的。然后，我们使用每年的数据，基本上在文件系统中基于给定行中出现的所有数字创建了一个散列。这创造了大量的冗余，但给我们带来了巨大的好处。这样做之后，如果一篇论文以第77页开头，我们可以直接到与这个数字相关的文件中，查找所有提到数字77的专利引用，并且只查找这些引用。我们后来扩展了这种方法，将每个专利行也分解成单词，这样我们就可以以计算上可行的方式搜索重要的关键词，通常是论文标题中两个最长的单词中的任何一个。

Hashing of unstructured US Patent data

目前，我们正在匹配具有第一作者姓氏的引用，并且在文章的第一页（或者，如果缺少，则是卷）或文章名称中两个最长的单词之一上匹配。我们还要求年份一般要匹配；目前，对于基于页面的方法，它必须完全匹配，而对于基于单词的方法，它必须在结构化数据中发布的年份之内。在基于出版年份和参考文献中的字数/数字的两个散列步骤之间，加速至少增加了4000倍（见上图），并且问题变得易于解决。

我们现在还允许没有年份的专利引用，并将它们与MAG中的全套文章进行匹配，只需使用单词/数字散列。这组比较不包括在上图中减少的比较次数中，因为它没有使用完整的方法。

结合起来，这些方法创建了一个松散的15亿个潜在的PCS匹配集。在如此大规模地缩小搜索范围之后，我们使用基于标题、作者、卷、问题、第一页、最后一页和期刊的启发式方法，以更彻底和计算成本更高的方式考虑每个潜在的匹配，以判断我们是否认为它确实是匹配的，并对该判断应用置信度评分。我们最终得到了超过1500万个匹配，估计准确率为99.5%。

这项工作还广泛使用了BU共享计算集群（SCC），因为这项工作具有高度并行性，并且在SCC上运行的代码可以在不到一个小时的时间内连续运行。整个过程在SCC上运行大约需要一天的时间。

专利的科学依赖

介绍

RCS贡献

更多的信息