浅谈大数据和人工智能

百家 作者:全球大数据峰会 2017-09-22 12:22:42

 

  

什么是大数据?

大数据时代,数据不再仅仅指数字或数字构成的,数据的范畴要大的多。包括:互联网上的任何内容,比如文字、图片以及视频;书籍中的文字内容;医院里包括医学影像在内的所有医学档案资料;公司里的设计图纸、设计文档等;科学研究中的各种观测数据以及历史研究成果;甚至我们人类活动本身,也可被看成一种特殊的数据,比如我们在微信朋友圈等社交网络的行为,浏览网络的记录,我们每天的出行轨迹、活动范围等。从以上数据来源的纷繁复杂性,大数据的“大”的特征是不言而喻的,但大数据的特征不仅仅是体量大,还需要具备多维度以及完备性的特点,才足以刻画出一个立体的事物。

什么是人工智能?

学术界将人工智能分为传统人工智能方法和现代人工智能方法。那么传统人工智能方法是怎样的呢?其实简单地讲,传统人工智能的思路是,首先了解人类是如何产生智能的,然后让机器按照人的思路去做。这是对人工智能直觉认识,早期科学家也在这个方向上进行了很长时间的研究,到20世纪60年代末实在发展不下去了。

  20世纪70年代,人类开始尝试机器智能的另外一条发展道路,即采用数据驱动和超级计算的方法。该方法首先被康内尔大学的教授贾里尼克用于研究语音识别,在贾里尼克之前,各个大学和研究所得专家们在这个问题上已经花了近20年的时间,主流的研究方法有两个特点:一是让计算机尽可能地模拟人的发音特点和听觉特征,二是利用人工智能的方法理解人所讲的完整语句。对于第一项研究,又被称为特征提取,大家提取特征的方式不一,好坏也不一。对于第二项研究,大家都采用了传统人工智能方法,基于语法规则和语义规则。但贾里尼克不是语言学专家,而是一位通信专家,在他看来,语音识别其实就是一个通信问题。

 图1 通信过程

  典型的通信过程如图1所示。对端是信息源,将所要表达的观点组织成语言然后表达出来,实际上是信息编码的过程。信息源发出的语音通过声道、空气等媒介传播到本端,本端对所接收的信息进行解读,理解对端意思的过程就是信息解码的过程。既然是通信问题,就采用解决通信问题的方法,为此贾里尼克用两个数学模型分别表示信源和信道,找到数学模型后,下一步就是采用统计的方法用大数据训练模型的参数,这就是“机器学习”的过程。在这个过程中,需要有大量的数据和足够的计算能力。


 图2 数据使用的基本流程

  数据使用的基本流程如图2所示。首先获取大量有效数据,然后对数据进行分析,总结事物的某种规律,将该规律固化成模型也就是知识,后续遇到类似的问题,将其作为该系统的输入,即可预测结果。如果在系统非常复杂的时候,我们无法直接获得我们所需要的信息,我们可以将相关联的信息量化,并且找到二者之间的相关关系,对这种相关关系建立数学模型,间接地得到我们所需的信息。也就是说,对于有确定关系的问题,我们可以通过分析得到固有的模型进行描述。但是大千世界,并不是所有的事物都是有确定模型可描述的,对于这类不确定性问题,通过分析数据间的相关性,以数据驱动的方法进行研究。详细的分析见《大数据时代,我们应该有怎样的思维方式》一文。

  数据驱动方法在20世纪70年代得以起步,在八九十年代得到缓慢稳定的发展。进入21世纪之后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的人工智能优势越来越明显,当前正在从量变到质变的飞跃中。


GBDC(全球大数据联盟)是大数据领域第三方中立性平台,以促进大数据产业发展、提升产业集群创新能力和核心竞争力为宗旨,致力于打造大数据技术产业链、创新链和服务链,探索建立长效稳定的产学研合作机制,突破产业发展的核心技术,形成产业技术标准,搭建有效的合作交流平台。








关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接