新闻动态

NEWS INFORMATION

联系方式
  • 400-123-4567

  • +86-123-4567

  • 广西壮族自治区河池市四会市标化大楼3966号

  • admin@jemogeneralbsc.com

  • 18703855363

行业动态

搜狗开源业内最全「阅读理解工具集合」,助力研发人员快速构建高效模型_千亿体育登录首页

发布日期:2021-05-25    已浏览 次    发布者:千亿体育手机登陆

本文摘要:中文数据集CMRC2018模块。

中文数据集CMRC2018模块。另一方面,用户也可以继承base_dataset,开发定制其他数据集的读取器。

数据处理为了训练模型的数据,必须制作词汇表、提取语言特征,将线性特征构成索引。这个工具包获得了符合这些拒绝的模块。

VocabularyBuilder、Featureeextractor、Batchgenerator。模型构建机器读者解读任务的核心部分是构建有效高效的模型。SMRC不仅获得了内置模型(我们在后面说明),还获得了机器读者解读任务中常用的神经网络组件,以便用户构建自定义模型。根据功能API的思想,SMRC将纸箱作为Tensorflow层的MRC,Embedding:Vanilabeding、PartiallyTrainabeding、CoVembeding、ElmoEmbeding、Berteding等。

Recurent:BiSTM和BiGRU是基本的循环层,SMRC还获得了CUDNN版本-CudnBiSTM和CudnBiGRU。相似度函数:SMRC获得了计算文本之间词级相似度的一系列函数,如DotProduct、TriLinear和MLP等。

Attendtion:注意力层一般与相似函数一起使用,如BiAttention、UniAttention和SelfAttention。基本层:一些基本层作为机器读者的解读模型,如VaritionDropout和Highway、ReduceSequence。基本操作:这些主要是屏蔽操作者,如maskedsoftmax、masklogits。

通过继承基础模型和人群上述组件,开发人员基本上可以慢慢构建大多数主流机器读者的解读模型。模式培训在培训模式的时候,我们一般都比较关心指标是如何随着train/dev集合而变化的,什么时候继续执行earlystopping,模式发散需要多长时间等等。由于大部分模型都使用类似的训练战略,SMRC获得了训练模块,主要功能是维持训练、评价、推理小说处理、保留最佳权重、与指数移动平均值合作、记录训练概要。各模型还获得了作为保留和读取模型权重的界面。

二、内置模型获得非常丰富的内置模型是SMRC的许多特色,这些内置模型都是数不胜数的优秀模型的再现。其中BiDAF:与以前工作中的注意机制不同,BiDAF的核心思想是双向注意力,模拟了query-to-context和context-to-query的注意力。

(Bidirectional。Attention,FlowforMachineComprehension(ICLR小姐2017)DrQA:解决目的问题对外开放域的问题。

DrQA用于文字映射、基本语言特征和非常简单的注意机制,证明了没有简单结构设计的非常简单的模型也能在机器读者的解读中取得良好的结果。(ReadingWikipediatoAnswerOpen-DomainQuestions)FusionNet:根据过去工作中注意力方法的分析,Huang等人明确提出了FusionNet,从三个方面扩大了注意力。他们明确提出了用于语言的历史和fully、aware、attention,模型融合了不同语义层的信息流。

另外,这个想法也限于自然语言推理小说。R-Net:R-Net的主要贡献是我自己的机制。上下文和问题的门控制给定后,引进段落自给总结段落整体的证据,改进段落的应对。(GatedSelf-Matching,NetworksforReadingComprengComprensionQuestionAnswering)QANet:QANet的系统结构改编自Transformer,包括卷积和自我关注。

由于不用于循环层,QANet在训练时间内提高了313倍的速度,在推理小说时间内提高了49倍的速度。IARNN:SMRC建立了两种基于内部注意力的RNN(IARNNS),不利于句子回应,在回答自由选择任务中有效。

IARNN-word在输出RNN模型之前对问题上下文的单词作出反应展开权重。与仅构建输出字映射的IARNN-word不同,IARNN-hidden可以通过计算注意力的权重和可选的上下信息来捕捉多个单词之间的关系。BiDAF:在BiDAF的基础上,引进了多段机器读者读取的模型。

基于BiDAF,BiDAF--------------------------------------------------------------------------------------------------------BiDAF-------------------------------------------------------------------------------------------------------------Bi-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------(Simple、And、EffectiveMulti-ParagraphReadingComprension(ACL-2018)BERTELMo:BERT和ELMo等多项自然语言的实际训练模式在SMRC中,BERT、ELMo和Cove被用作映射层,以获得强烈的上下回应。同时,SMRC还包括作为机器读者解读的BERT模型和更改版本。三、慢建设和检查SMRC获得了非常简单的模块,对用户来说非常简单易懂,具有可扩展性。

对于主流读者的解读模式,只有十几个完成的代码才能完成训练和测试。以Squad1.0为例,缓慢构建并训练内置模型(DrQA):1、iTunes数据集$wgethtps://rajpurkar.github.io/SQuad-explor/dataset/train-v1.json$htttps://rajpurkar.github.io/SQuad/daset/dain-v1.json$htithttps:/darthththorkar.gr.githththorkar.ithor.ithur.ithor.it/stitithor.ithexpr.it/dadastrexpr.dastr.corendendetindetin-den-v1.jor.jor.jor.jor.jor.jor.jor.jorandandevititithor.jor.jor.jevithththtithththtindar.jor.jor.jor.jor.jor.jor.jor.jor.jor.jor.jor.jendindevindendevindendendevititindevindevithor.cor.cor.cor.cor.vithor.cor.cor.conder.cor.cor.corandendendendentindentitinder.cor.cor.cor.cor.cor.cor.cor.cor.cor.cor.cor.cor.cor.conde特征提取器只在语言特征中使用:feature_transformer=featureextractor(features=[match_lema、match_lower、pos、ner、context_tf)、build_vocab_feature_names=set([pos、ner)、word_conterer、contrtext_t_tf)、buineatures=s=setret([pos、netramerer)、wortrtrturturtrerturertrerere)、wourtrtrtrextextextextextextext_t_t_tf)、werextforextf)、werererertf)、wonertrtrtrtraneranereraconterererererter、w、wertconererererterterantertererererer、w、wertcontcontcherterontertertertereronterntererontententerntererntenternternternternternernernernternterns=wernternternternternternternternternternternternternternternternternternternternternternernernterntratch_generator=batchgenerator(vocab、train_data、traing=true、batch_size=32、traditfion_fields=feature_transformer.feature_size_vertion_fion_fitralds=featratureraturensforere_forture_ftiture_fionalds=fitrelelereratforels=ftfeleratfelelerert=feratferelelere_fe_felererereratfelererelere_fe_felelerere_ftfererereratfe_fe_fe_feratferererererenene_ferelerere_ferelerererererert=ferenene_fe_fererenererererene_fenerenenenenerere_ft=fererenene_fe_ferenene_fe_fe_fe_fenerenenenenenenes=ferenererererererere_fe_ferenerferffererere_ft=ferere_fffe_ferferferererfffft=fenererererererererererererere_fe_fere_fene_f因为model=DrQA(vocab、word_embeding、features=feature_transformer.features、\feature_vocab=feature_transformer.vocab)model.compile()model.train_and_everaluature(tranturand_beranturerturturerert_b)mererturturererer.turan_eranerturturture(turturanterertinturtur.turturtertererer.turererer.ter.teranerturturturturererterererte)(turtur.turanerererturturture)(turturanturtur.tererturturanerererturtur.tur.turerererturturanererer.terterterererererererererertenterertertert_bortur.turanertur.turturtur.turturturtur.turturturturerererturturturturturturturturturturturturerrerererererererererererrererererertententerererert_turturt_terterterenenertertertertererertertenterterturturturer_t_terererte_turturert_terererte_t_t_tererererererererererererterterererererererererertererererententenertertent_turtur_tenentererererere_t_t_tenententer_terterter_tertererererererterterterent_t_t_turturere_terererererthe_t_t_te_turertenenenturthenenertererertertererterturturerertertererererererererertererererertererererterert根据上述代码,可以在不同的数据集中尝试不同的模型,考虑效果。

SMRC在Github中获得的比较结果如下:Table-1是SQuAD1.0的模型结果,复活模型与原模型的性能大致相同。另一方面,模型再次加入BERT和ELMo这样的预训练后,其结果往往没有大幅度提高,因此也是NLP的新趋势。

SQuAD2.0和CoQA的任务与SQuAD1.0不同,因此有些模型不需要应用于这两个数据集。基于BiDAF、BiADF等模型的测试,内置模型有时比原模型更好。

此外,BiDAF还可应用于CMRC数据集,搜狗搜索获得的测试结果F1/EM为57.01/35.0,获得了新的基础。四、搜狗搜索开源搜狗读者解读工具子合集总结,获取TensorFlow版本数据合集加载、预处理、神经网络模式基础、培训和评价等原创读者解读任务框架,开发商需要慢慢构建自定义的机器读者模式。

另外,SMRC还通过统一的框架获得了十几种机器读者的解读模型,使开发者的再现和检查有数的模型变得容易。这些工作将大大加快相关的学术研究。同时,SMRC也给所有想评价和尝试着地机读者解读技术的算法员工带来了初学者的捷径和产品化的初学动力。

目前,搜狗搜索已将技术应用于产品和业务。在法律领域,搜索犬律师的解说机器人没有逻辑分析和推理小说的能力,在一贯的面谈过程中,挖掘起诉书的结构化数据,帮助用户明确再次发生的事实,在充分正确解读用户法律表达意见的基础上,提出可能的裁决结果、法律建议或相近的案例的医疗领域,搜索犬搜索的智能诊断功能 上面的病。参考资料:[1]SMRCToolkit[2]SOGOMachineReadingComprhengComprontolkit[3]论文原文《文档门控制器对外开放域解说》[4]搜狗获得国际顶级挑战赛CoQA第一名[5]CoQA:AConversationQuestionAnstion域解说》。

下一篇文章发表了注意事项。


本文关键词:千亿体育手机登陆,千亿体育登录首页

本文来源:千亿体育手机登陆-www.jemogeneralbsc.com


Copyright © 2004-2021 www.jemogeneralbsc.com. 千亿体育手机登陆科技 版权所有    ICP备31176340号-4