您的位置: 影像科 科普知识详细

一文看尽2018全年AI技术大突破

发布时间:2018-12-26

    2018,仍是AI领域激动人心的一年。

    这一年成为NLP研究的分水岭,各种突破接连不断;CV领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信;新工具、新框架的出现,也让这个领域的明天特别让人期待……

    近日,Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告,原文作者PRANAV DAR。量子位在保留这个报告架构的基础上,对内容进行了重新编辑和补充。

    这份报告总结和梳理了全年主要AI技术领域的重大进展,同时也给出了相关的资源地址,以便大家更好的使用、查询。

    报告共涉及了五个主要部分:

  •     
  •         

                自然语言处理(NLP)         

        
    
  •         

                计算机视觉         

        
    
  •         

                工具和库         

        
    
  •         

                强化学习         

        
    
  •         

                AI道德         

        

    下面,我们就逐一来盘点和展望,嘿喂狗~

    自然语言处理(NLP)

    2018年在NLP历史上的特殊地位,已经毋庸置疑。

    这份报告认为,这一年正是NLP的分水岭。2018年里,NLP领域的突破接连不断:ULMFiT、ELMo、最近大热的BERT……

    迁移学习成了NLP进展的重要推动力。从一个预训练模型开始,不断去适应新的数据,带来了无尽的潜力,甚至有“NLP领域的ImageNet时代已经到来”一说。

    ■ ULMFiT

    这个缩写,代表“通用语言模型的微调”,出自ACL 2018论文:Universal Language Model Fine-tuning for Text Classification。

    正是这篇论文,打响了今年NLP迁移学习狂欢的第一枪。

    论文两名作者一是Fast.ai创始人Jeremy Howard,在迁移学习上经验丰富;一是自然语言处理方向的博士生Sebastian Ruder,他的NLP博客几乎所有同行都在读。

    两个人的专长综合起来,就有了ULMFiT。想要搞定一项NLP任务,不再需要从0开始训练模型,拿来ULMFiT,用少量数据微调一下,它就可以在新任务上实现更好的性能。

    他们的方法,在六项文本分类任务上超越了之前最先进的模型。

    详细的说明可以读他们的论文:

    https://arxiv.org/abs/1801.06146

    Fast.ai网站上放出了训练脚本、模型等:

    http://nlp.fast.ai/category/classification.html

    ■ ELMo

    这个名字,当然不是指《芝麻街》里那个角色,而是“语言模型的词嵌入”,出自艾伦人工智能研究院和华盛顿大学的论文Deep contextualized word representations,NLP顶会NAACL HLT 2018的优秀论文之一。

    ELMo用语言模型(language model)来获取词嵌入,同时也把词语所处句、段的语境考虑进来。

    这种语境化的词语表示,能够体现一个词在语法语义用法上的复杂特征,也能体现它在不同语境下如何变化。

    当然,ELMo也在试验中展示出了强大功效。把ELMo用到已有的NLP模型上,能够带来各种任务上的性能提升。比如在机器问答数据集SQuAD上,用ELMo能让此前最厉害的模型成绩在提高4.7个百分点。

    这里有ELMo的更多介绍和资源:

    https://allennlp.org/elmo

    ■ BERT

    说BERT是2018年最火的NLP模型,一点也不为过,它甚至被称为NLP新时代的开端。

    它由Google推出,全称是Bidirectional Encoder Representations from Transformers,意思是来自Transformer的双向编码器表示,也是一种预训练语言表示的方法。

    从性能上来看,没有哪个模型能与BERT一战。它在11项NLP任务上都取得了最顶尖成绩,到现在,SQuAD 2.0前10名只有一个不是BERT变体:

    如果你还没有读过BERT的论文,真的应该在2018年结束前补完这一课:

    https://arxiv.org/abs/1810.04805

    另外,Google官方开源了训练代码和预训练模型

    https://github.com/google-research/bert

    如果你是PyTorch党,也不怕。这里还有官方推荐的PyTorch重实现和转换脚本

    https://github.com/huggingface/pytorch-pretrained-BERT

    ■ PyText

    BERT之后,NLP圈在2018年还能收获什么惊喜?答案是,一款新工具。

    就在上周末,Facebook开源了自家工程师们一直在用的NLP建模框架PyText。这个框架,每天要为Facebook旗下各种应用处理超过10亿次NLP任务,是一个工业级的工具包。

    (Facebook开源新NLP框架:简化部署流程,大规模应用也OK)

    PyText基于PyTorch,能够加速从研究到应用的进度,从模型的研究到完整实施只需要几天时间。框架里还包含了一些预训练模型,可以直接拿来处理文本分类、序列标注等任务。

    想试试?开源地址在此:

    https://github.com/facebookresearch/pytext

    ■ Duplex

    如果前面这些研究对你来说都太抽象的话,Duplex则是NLP进展的最生动例证。

    名字有点陌生?不过这个产品你一定听说过,它就是Google在2018年I/O开发者大会上展示的“打电话AI”。

    它能主动打电话给美发店、餐馆预约服务,全程流畅交流,简直以假乱真。Google董事长John Hennessy后来称之为“非凡的突破”,还说:“在预约领域,这个AI已经通过了图灵测试。”

    Duplex在多轮对话中表现出的理解能力、合成语音的自然程度,都是NLP目前水平的体现。

    2019年展望

    NLP在2019年会怎么样?我们借用一下ULMFiT作者Sebastian Ruder的展望:

  •     
  •         

                预训练语言模型嵌入将无处不在:不用预训练模型,从头开始训练达到顶尖水平的模型,将十分罕见。         

        
    
  •         

                能编码专业信息的预训练表示将会出现,这是语言模型嵌入的一种补充。到时候,我们就能根据任务需要,把不同类型的预训练表示结合起来。         

        
    
  •         

                在多语言应用、跨语言模型上,将有更多研究。特别是在跨语言词嵌入的基础上,深度预训练跨语言表示将会出现。         

        
预约挂号 结果查询 举报邮箱 官方微博 官方微信
官方微信