MC-AFP 是一个基于公众可用的 Gigaword 数据集(AFP 部分)生成的机器理解数据集。创造这样数据集的技术在论文「Building Large Machine Reading-Comprehension Datasets using Paragraph Vectors」中有所报告。
我们生成了一个大约有 2 百万样本的数据集,中国直播网,在上面估算人类的准确率大概为 90%。一种结合了循环神经网络的表征能力与全连接多层网络判别能力的全新神经网络架构在此数据集上取得的最好结果是:83.2% 的准确率。
压缩包中附上的是加密的 MC-AFP 数据集以及密码。
项目地址:https://github.com/google/mcafp
论文:Building Large Machine Reading-Comprehension Datasets using Paragraph Vectors
摘要:我们提出的技术对机器阅读理解任务有双重贡献:使用 paragraph-vector 模型创造大型机器理解(MC)数据集的技术;一种全新的、混合的神经网络架构,它结合了循环神经网络的表征能力与全连接多层网络的判别能力。我们使用 MC-数据集生产技术建立了一个大约 2 百万样本的数据集,在上面我们凭借经验判断出了人类水平(大约 91)的准确率,以及各种计算机模型的表现。在我们试验过的所有模型中,我们的混合神经网络架构获得了最高的表现(83.2)的准确率。该架构与人类水平之间的差距为未来模型的提升提供了足够的空间。
论文地址:https://arxiv.org/pdf/1612.04342v1.pdf
,中国直播网
特别声明:本文为中国直播网直播号作者或机构上传并发布,仅代表该作者或机构观点,不代表中国直播网的观点或立场,中国直播网仅提供信息发布平台。
版权声明:版权归著作权人,转载仅限于传递更多信息,如来源标注错误侵害了您的权利,请来邮件通知删除,一起成长谢谢
欢迎加入:直播号,开启无限创作!一个敢纰漏真实事件,说真话的创作分享平台,一个原则:只要真实,不怕事大,有线索就报料吧!申请直播号请用电脑访问https://zbh.zhibotv.com.cn。