国内新闻

您所在位置:首页 > 国内新闻 > 正文

科大讯飞机器阅读理解稳居全球第一 SQuAD 2.0榜单记录被刷新

文章作者:www.gxdthg.com.cn发布时间:2020-01-30浏览次数:1437

3月20日,哈尔滨工业大学hit和iflytek研究(hfl)联合实验室和河北省迅飞人工智能研究所联合团队在斯坦福大学主办的国际权威机器阅读理解评估小组2.0(斯坦福问答数据集)挑战赛中再次获得冠军。此外,远高于人类平均水平的电磁指数(精确匹配率)和F1指数(模糊匹配率)为评价创造了新的记录。

1.png

国际机器阅读理解评估小组自2016年发布以来,受到了业界的广泛关注。SQuAD Challenge在智能行业被公认为机器阅读理解领域的顶级测试。参与者需要提交一个系统模型,在阅读完数据集中的一篇文章后,该模型将根据文章的内容回答几个问题。然后,通过与人工标注的答案进行比较,得到精确匹配和模糊匹配(F1-分值)的结果。

在三年的比赛中,谷歌、微软亚洲研究院、小发猫研究院、阿里巴巴达摩研究院、平安科技、上海交通大学、复旦大学等众多国内外知名研究机构和大学踊跃报名。

与SQuAD 1.1评估相比,这个SQuAD 2.0评估进一步增加了回答问题的难度:增加了一个新的“无法回答的问题”(unanswerable question),即一个无法通过阅读文章来回答的问题。机器阅读理解模式需要通过阅读章节和问题来选择“答案”或“拒绝答案”,这对机器阅读理解模式是一个全新的挑战。

本次比赛中,由理工大学迅飞联合实验室和河北省迅飞人工智能研究所联合团队提交的“BERT DAE AoA”模型整合了业界领先的自然语言语义表示模型BERT和团队不断积累和改进的级联注意机制。比赛中,电磁指数(精确匹配率)达到87.147,F1指数(模糊匹配率)达到89.474,将本次评估的技术指标推向一个新的水平。

2.png

从局外人的角度来看,我们不应该认为技术评估中的积累只是“象征性的姿态”,离我们的生活环境很远。事实上,这一系列评估的最终目标是更好地将技术应用于实际产品,从而改善人们的生活。

例如,机器阅读理解技术已经应用于汽车和司法领域:一些车载电子教学产品可以在用户提出相关问题后快速反馈相关章节,并利用阅读理解技术进一步挖掘和反馈给用户更准确的答案,从而大大提高了用户信息获取的速度。

在司法领域,哈尔滨工业大学迅飞联合实验室生产的“法小飞”是业内知名的“群体宠物”。“飞肖飞”是一名运用对话阅读和理解技术的智能法律咨询助理,能够为用户提供法律咨询及相关服务,质量非常高,速度非常快。

人们从未停止探索。在竞争指数上超越人类水平还远未结束。目前,科大迅飞继续积极探索其他类型的阅读理解,以实现先进认知基础技术、教育认知技术、司法认知技术等技术在政府事务和公共服务领域的应用。也许这将是机器阅读理解中“理解和思考”这一最终目标的全新开端。