5月30日消息,上周,搜狗在GitHub发布了机器阅读理解工具包SMRC(Sogou Machine Reading Comprehension)。这是目前业内最全的TensorFlow版本的阅读理解工具集合,从相关数据集的下载到最后模型的训练和测试,一应俱全。搜狗此次开源旨在帮助NLP从业人员快速实现已有的机器理解模型,从而更高效地开发新模型。
搜狗将机器阅读理解任务的流水线分解为4个步骤:数据集读取、预处理、模型构建、训练和评估,在其开源的的SMRC工具包中,以上每个步骤都可以单独拿来使用,嵌入开发者自己的流程中。同时,SMRC对已发表的多种机器阅读理解数据集、模型进行了整合或复现。