浅谈大数据和人工智能
大数据时代,数据不再仅仅指数字或数字构成的,数据的范畴要大的多。包括:互联网上的任何内容,比如文字、图片以及视频;书籍中的文字内容;医院里包括医学影像在内的所有医学档案资料;公司里的设计图纸、设计文档等;科学研究中的各种观测数据以及历史研究成果;甚至我们人类活动本身,也可被看成一种特殊的数据,比如我们在微信朋友圈等社交网络的行为,浏览网络的记录,我们每天的出行轨迹、活动范围等。从以上数据来源的纷繁复杂性,大数据的“大”的特征是不言而喻的,但大数据的特征不仅仅是体量大,还需要具备多维度以及完备性的特点,才足以刻画出一个立体的事物。
学术界将人工智能分为传统人工智能方法和现代人工智能方法。那么传统人工智能方法是怎样的呢?其实简单地讲,传统人工智能的思路是,首先了解人类是如何产生智能的,然后让机器按照人的思路去做。这是对人工智能直觉认识,早期科学家也在这个方向上进行了很长时间的研究,到20世纪60年代末实在发展不下去了。
20世纪70年代,人类开始尝试机器智能的另外一条发展道路,即采用数据驱动和超级计算的方法。该方法首先被康内尔大学的教授贾里尼克用于研究语音识别,在贾里尼克之前,各个大学和研究所得专家们在这个问题上已经花了近20年的时间,主流的研究方法有两个特点:一是让计算机尽可能地模拟人的发音特点和听觉特征,二是利用人工智能的方法理解人所讲的完整语句。对于第一项研究,又被称为特征提取,大家提取特征的方式不一,好坏也不一。对于第二项研究,大家都采用了传统人工智能方法,基于语法规则和语义规则。但贾里尼克不是语言学专家,而是一位通信专家,在他看来,语音识别其实就是一个通信问题。
图1 通信过程
典型的通信过程如图1所示。对端是信息源,将所要表达的观点组织成语言然后表达出来,实际上是信息编码的过程。信息源发出的语音通过声道、空气等媒介传播到本端,本端对所接收的信息进行解读,理解对端意思的过程就是信息解码的过程。既然是通信问题,就采用解决通信问题的方法,为此贾里尼克用两个数学模型分别表示信源和信道,找到数学模型后,下一步就是采用统计的方法用大数据训练模型的参数,这就是“机器学习”的过程。在这个过程中,需要有大量的数据和足够的计算能力。
图2 数据使用的基本流程
数据使用的基本流程如图2所示。首先获取大量有效数据,然后对数据进行分析,总结事物的某种规律,将该规律固化成模型也就是知识,后续遇到类似的问题,将其作为该系统的输入,即可预测结果。如果在系统非常复杂的时候,我们无法直接获得我们所需要的信息,我们可以将相关联的信息量化,并且找到二者之间的相关关系,对这种相关关系建立数学模型,间接地得到我们所需的信息。也就是说,对于有确定关系的问题,我们可以通过分析得到固有的模型进行描述。但是大千世界,并不是所有的事物都是有确定模型可描述的,对于这类不确定性问题,通过分析数据间的相关性,以数据驱动的方法进行研究。详细的分析见《大数据时代,我们应该有怎样的思维方式》一文。
数据驱动方法在20世纪70年代得以起步,在八九十年代得到缓慢稳定的发展。进入21世纪之后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的人工智能优势越来越明显,当前正在从量变到质变的飞跃中。
GBDC(全球大数据联盟)是大数据领域第三方中立性平台,以促进大数据产业发展、提升产业集群创新能力和核心竞争力为宗旨,致力于打造大数据技术产业链、创新链和服务链,探索建立长效稳定的产学研合作机制,突破产业发展的核心技术,形成产业技术标准,搭建有效的合作交流平台。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平引领构建网络空间命运共同体 7991327
- 2 王楚钦晋级决赛 与张本智和争冠 7975707
- 3 于东来连发11条动态 7803118
- 4 聆听大国外交的铿锵足音 7769533
- 5 旺旺:初步判断牛奶中不是老鼠 7642379
- 6 张本智和赢球后摇头庆祝 7546411
- 7 熏鸡事变大结局 7450639
- 8 大范围降雪降温马上来了 7358204
- 9 男子打赏女主播400万自己啃馒头 7225466
- 10 9条具体措施稳外贸 7142504