人工智能关键技术|人工智能7大关键技术( 二 )


回归过程与有监督的机器学习相同,除了:
在机器学习中,用于开发(训练)模型的数据称为训练数据,而且它可以是明确出于训练目的而保留的数据子集;
在机器学习中,通常用另一个数据子集来验证训练模型,该子集的预测结果是已知的;
在回归中,可能不需要使用模型来预测未知结果,相反在机器学习中则会对结果做假设;
机器学习中可以使用许多不同的算法类型来代替简单的回归分析 。
开发无监督模型通常更难一些,它要从未做标记的数据中检测模式并预测未知的结果 。
强化学习是第三种变体,它是指机器学习系统制订了目标而且迈向目标的每一步都会得到某种形式的奖励 。它在玩游戏中非常有用,但也需要大量数据(在许多情况下,太多的数据对该方法不起作用) 。
需要指出的是,有监督的机器学习模型通常不会持续学习 。它们从一组训练数据中学习然后继续使用同一个模型,除非使用新的一组训练数据来训练新的模型 。
机器学习模型是以统计为基础的,而且应该将其与常规分析进行对比以明确其价值增量 。它们往往比基于人类假设和回归分析的传统“手工”分析模型更准确,但也更复杂和难以解释 。相比于传统的统计分析,自动化机器学习模型更容易创建,而且能够揭示更多的数据细节 。
考虑到学习所需的数据量,深度学习模型在图像和语音识别等任务上非常出色(远远优于以前针对这些任务的自动化方法,并且在某些领域接近或超过了人类的能力) 。
人工智能关键技术|人工智能7大关键技术



04 自然语言处理自20世纪50年代以来,理解人类语言一百思特网直是人工智能研究者的目标 。这一领域被称为自然语言处理(Natural Language Processing,NLP),包括诸如语音识别、文本分析、翻译、生成的应用程序及其他与语言有关的目标 。
在“了解认知”的调查中,53%的公司在使用NLP 。NLP有两种基本方法:统计NLP和语意NLP 。统计NLP是以机器学习为基础,而且其性能提升的表现要快于语意NLP 。它需要一个庞大的“语料库”或者语言体系来学习 。
例如,在翻译中它需要大量的翻译文本,而通过统计分析可以发现西班牙语和葡萄牙语中的amor在统计上与英语中的love一词高度相关 。这虽然有点靠“蛮力”,但通常是相当有效的方法 。
语义NLP是近十年来唯一的现实选择,如果能用单词、语法和概念之间的关系有效地对系统进行训练那么它就会相当高效 。
语言的训练和知识工程(通常指为特定领域所创建的知识图谱)可能会消耗大量的人力和时间 。然而,它需要开发知识主体或者单词与短语之间的关系模型 。虽然创建语义NLP模型难度很大,但现在有些智能座席系统已经在使用该方法 。
NLP系统的性能应该用两种方法来衡量 。一种是看它能够理解百分之多少的口语 。随着深度学习技术的发展,该指标不断提高而且往往超过95% 。
衡量NLP的另一种方法是看它能回答多少种不同类型的问题或者看它能解决多少种问题 。这通常都需要语义NLP,但是由于这方面并没有重大的技术突破,所以问答系统和问题解决系统都要基于特定的上下文而且必须进行训练 。
IBM沃森在回答《危险边缘》的问题时表现出色,但是除非进行训练(通常都是以劳动力密集型的方式),否则它回答不了《命运之轮》(Wheel of Fortune,一档综艺节目)的问题 。也许深度学习在未来会应用于问题解答,但现在它还没有 。
人工智能关键技术|人工智能7大关键技术



05 基于规则的专家系统在20世纪80年代,AI的主导技术是基于“if-then”规则集合的专家系统,而且在那个时代开始广泛地应用于商业领域 。如今人们往往认为它没有那么先进了,但是2017年德勤“了解认知”的调研显示引入AI的美国公司里有49%使用了该技术 。
专家系统要求人类专家和知识工程师在特定知识领域中构建一系列规则 。例如,它们通常用于保险承销和银行信贷承销中(但也用于一些深奥的领域,如福爵咖啡的咖啡烘焙或金宝汤罐头百思特网的汤汁调制) 。
专家系统在一定程度上运行良好,而且容易理解 。然而,当规则的数量很大(通常超过几百条),并且规则开始相互冲突时,它们往往会崩溃 。而且如果知识领域发生了变化,那么更改规则将会很困难而且也会很耗时 。
基于规则的系统自其早期的全盛时期以来并没有太大的改进,但是保险和银行等大量使用它们的行业还是希望能够出现新一代基于规则的技术 。研究人员和厂商已经开始讨论“自适应规则引擎”,该引擎将基于新的数据或规则引擎与机器学习的组合来不断修改规则,但它们确实还没有得到广泛应用 。