【速记】北京大数据研究院 黄永贵:高校推动大数据应用之路
作者:互联网
导读
【演讲主题】高校推动大数据应用之路
【演讲内容】北京大数据研究院数据平台部负责人黄永贵和我们分享了北京大学在推动大数据应用方面所做的努力。演讲内容主要包括以下三个方面:
一、大数据应用的理解
二、如何推进大数据应用
三、北京大学在大数据领域布局
01
大数据应用的理解
感谢星环科技提供的这个平台,让我来分享一下北京大学在推动大数据应用道路上做的一些工作。刚刚听到前面几位嘉宾做的分享,感到星环科技在大数据,不管在平台层面还是在技术细节都做了很多工作,也取得了很大的进步。北京大学作为全国最著名的高校,在推动大数据应用在各行各业,带来真实的价值的过程中又做了哪些工作?今天我来给大家分享一下。
我的主题分三类,一个是大数据应用的理解,第二个是推动大数据应用,还有北京大学在大数据领域的一个布局。刚刚孙总说到现在进入了大数据3.0时代,我们在大数据应用的理解正好跟孙总不谋而合。
我理解大数据应用要分三个层面,第一个是算法理论,第二个是建模,第三个是分析与处理工具。所以,针对不同的领域,我们要做的工作也不同,在算法领域主要是数学、统计、数据科学等工作。建模主要是指AI领域的应用,AI是目前国内最火的话题。还有一个是做分析处理的工具,就是Hadoop、Spark等,包括星环科技今天提到的星环云平台。
真正能够用到大数据的企业有哪些呢?我们总结了大概有三类,一类是互联网公司,第二类是做技术方面的企业,例如今天的星环科技等,还有一类是大型国企。其他的小企业谈大数据应用都有点吹牛的成分。
互联网公司有自己的数据,它可以通过互联网手段搜索到各种各样的数据。其次他们也有技术实力,根据他们的业务场景去做模型开发。现在开源软件很发达,他们也可以从网络渠道得到各类的平台软件,对他们的业务做分析和处理。
第二类是解决方案商,就是像星环科技这类的企业。国内的解决方案商很多,星环科技是其中非常优秀的一家。他们提供系统,刚刚孙总还有几位技术总监都介绍了,他们也提供大数据平台方面的解决方案,包括他们也提供AI方面的工具对应用分析进行建模。
第三,就是我们说的大型政企和国企,这是目前对大数据应用需求最多也是最强烈的。经常有一些大型国企向我们说,我们要利用大数据,我们要应用大数据对我们的业务做一些处理,拥抱我们的流程。但是事实上,像中国电信、中国移动,还有国家电网他们都有系统,但他们目前的系统跟大数据系统还有一定的差距。所以,我们跟这种企业谈及大数据应用的时候,通常都会把大数据平台作为一种工具推送给他们,对他们目前的业务系统没有太大影响。随着时间的迁移,老系统可能会逐步替换掉,会慢慢迁移到真正的类似星环科技这种大数据平台上来。正是因为这个因素,我们在推动大数据应用过程中主要跟政企合作,他们有这个诉求。
02
如何推进大数据应用
北京大学作为国内最高等的研究机构,在大数据领域做了很多的探索。
首先北京大学有一个大数据科学中心,开设了大数据专业。是由数学、计算机还有统计科学几个交叉学科组成的一个大数据科学专业。然后我们引进了国外的一流人才,从斯坦福大学、哈佛大学,还有普林斯顿引进很多最顶尖的研究人才。当然我们也会进行实战型的教学,什么叫实战型教学?第一,大数据是一个应用类的学科,你做的再深再好没有人用,价值也是零。所以,我们在培养大数据科学人才过程中,一开始就定位成实战型人才。我们定义的实战型人才,首先,要有参与的项目,做大数据平台、做大数据数据库。其次,当你学了这些数据和知识,就能够为企业解决问题,能够为他们建立各种模型,这个是我们的目标。
第二是在国家层面,我们申请了大数据分析与应用技术国家工程实验室,这是在国家层面推动大数据应用的重要研究中心。国家实验室主要面向大型国企,提供一些技术支持。在大数据过程中,他们在运维、业务中遇到的难题可能需要去做研究,我们会邀请他做一个联合攻关。还有是科研成果转换,我们在北京大学还有国家工程实验室有很多研究员、教授,也有知名企业的研究者,他们有很多成果,这个成果如何转换给企业,给企业生产力带来提高,这是我们一个很重要的探索的东西。
第三个是成立北京大数据研究院,这个是以北京市政府成立的大数据领域研究所为中心,目的是推动大数据在北京推广,为在京企业发展带来一些新的机遇。研究院是采用双聘制,我们会从高校、从研究所、从企业,企业内的比较资深的研究员,工程师,还有CTO,我们都会聘过来。我们要通过这些机制既要了解前沿的理论,也要实现真正落地。还有是研究中心,我们会和很多的企业,用我们研究力量跟他们一起来解决科研难题。我们聘用了很多研究人员和工程人员,他们在几十年的工作中累计了很多有效的成果,我们会把这些成果孵化成企业,以企业的形式对外提供服务。所以说,北京大学在大数据应用领域通过这三个层面推动大数据应用与发展。
刚才说的这三点大家可能会想到,这是一个“产学研”的模式和探索,确实是这样的。因为作为高校不可能做很多工程领域的东西,招几百个工程师做大数据平台,这是不太现实的。我们在大数据应用领域怎么做到“产学研”结合,这是我们要探索的东西。所以,刚才提到的大数据研究中心是我们学和研的结合,主要是培养人才。以这个为基础,我们做一些重点课题的研究,支持国家战略层面的科研和发展。还有是支持对地方政府层面的研究与发展。
然后我们这里还有一个三位一体的设想,我们叫三位一体打造创新生态。机构共建、人才培养、成果共享,实质上我们这三个机构里面科研人员、后勤人员、业务推广人员,是一套人马三块牌子。但每一个机构它的侧重点是不太一样的,国家工程实验室主要面向国家重大应用需求,大数据培训中心是人才培养,大数据研究院是体制创新的试验田。
03
北京大学在大数据领域布局
下面我介绍一下北京大数据研究院。北京大数据研究院是北京大学、北京工业大学,还有中关村管委会、海淀区政府联合成立的以大数据应用为基础的一个研究院。鄂维南院士是研究院院长,我们的学术委员会还有高文院士和张平文院士。我们的目标是在人才培养、科研创新和产业转换平台这一块要做一些探索创新。目前研究院在业务领域进行了很多基础研究,例如深度学习,由北大张志华教授领衔,他在国内深度学习领域的研究是非常顶尖的。人工智能,也是由北大的生物医学影像的李教授负责,同时他也是哈佛医学院的教授,2016年他在生物医学影像领域做的AI的模型已经非常好了。在宫颈癌和肺癌的预测方面,已经可以做到产品化。其他研究还有大数据安全和区块链等等。
在行业应用中心,主要是和一些政府和大型国企成立的研究中心,像北京公共安全大数据重点实验室,是北京市公安局跟我们研究院联合成立的公共安全重点实验室。还有健康医疗,是跟阿斯利康合作成立的。金融大数据中心,这也是研究院的常务副院长杨竞霜博士领衔的。他在华尔街有20多年的从业经验,也是哥伦比亚大学的高材生,博士毕业的。除此之外还有中医、保险、能源等。
我们也做企业孵化,例如墨奇科技在大规模指纹识别已经取得突破性的进展,现在产品化已经做的很好了,目前已经拿到了1600万美元的投资,它的产品已经被公安部还有国家的认证局指定采用,已经在大规模开始使用。还有博雅大数据学院,也是非常有特色的教育平台。
第三个我们成立企业联合实验室,像做地理信息的旋极信息(时空),在国内这个领域排名第一。科大讯飞也和我们联合成立了实验室。包括星环科技,我们一起成立了星瀚大数据联合实验室,在大数据领域做了很多探索。
大数据分析与应用技术国家工程实验室,是在发改委主导下,由北京大学、中山大学、中国科学院,企业方面有360和滴滴出行,联合成立的工程实验室。我们看到实验室名字叫做工程实验室,意味着它会更多面向可落地的东西,不会只是纸上谈兵。这里面也肩负着人才培养、技术服务、联合研究、行动创新、成果转化等这几个使命。实验室主任是张平文院士,鄂维南院士是技术委员会主任,这里面的研究员都是来自于上面三个高校和下面两个企业杰出的工程师。不管在工程领域还是在研究领域都有不俗的成就。
我们在大数据多个领域里都在做研究性的探索。其中可视化的部分是我们的袁晓如教授在研究,他的研究成果已经被日本的最有名的游戏公司,还有美国的暴雪公司等多个游戏公司采用来做可视化。数据挖掘方面,我们的邹磊教授领衔研究的数据库,目前比同类开源的产品快10到15倍。还有共性模型与算法,我们做了一个用来打麻将的强化学习平台,就是类似于阿尔法狗的一个AI平台,现在已经打败了80%以上的人。我们国家工程师要建5个共性平台和N个示范应用,这个示范应用来自于哪里?就是来自于我们的合作企业,把这些研究成果应用到真实的应用场景里去。网络安全方面是360和我们在智能决策、挖掘技术这两块在做市场应用。
还有是经济运行分析,这是一个重大的课题,做宏观经济预测。这部分内容我们要做几项工作,我们利用大数据技术,替代传统一层一层往上送的方式,通过在供应链环节上收集大数据去做经济性指标的预测。目前在安徽两市已经开始做应用落地。在这个过程中,我们也会跟星环科技一起,把落地可用的东西送到客户手上。所以说,我们国家工程实验室是以大数据分析技术为核心,要做技术突破,当然也会做系统和标准化,产业化推进,这都是我们的使命。
刚刚说的这么多实际上是在探索大数据在北京的落地,我们是采用体制创新来推动人才培养,人才聚集,还有科技创新,企业孵化,形成一个良性循环。最后我们的布局是设立三个研究中心,每个研究中心的使命是不一样的,目的都是为了推动大数据应用落地。
我们希望在北京建立高精尖的数据创新中心,建设国际一流的数据科学学科和全球大数据创新中心。这个口号对北京大学来说不是很高,但是对于一个企业来说有点高。说到我们的主办方星环科技,我们由北京大数据研究院,国家工程实验室还有星环科技联合成立了星瀚大数据联合实验室,由张文平院士任实验室主任,孙元浩任副主任。这个联合实验室成立的目的,是希望在大数据、人工智能等领域开展研究,提升研发创新能力。另外,星瀚大数据联合实验室还要去主动承担企业甚至国家的一些课题。除此之外,在专业人才培养和培训服务,以及作为行业智库等方面,星环科技在星瀚大数据联合实验室里面都起了很大的作用。
比如说我们用了星环科技的大数据平台为学生教学。我们有将近200个研究生,有40个博士生,他们如果想做大数据方面分析的话,让他们搭一个平台是很困难的事,学生们的动手能力,以及对IT一些专业领域工具使用经验是很少的。星环为我们提供了一个很好的平台,多租户的环境非常方便,还有可视化的数据智能平台,这些用起来都是非常的方便。对学生来说,让他体验一下什么是大数据平台,对他下一步的研究有一个感性的认识。
还有是在科研方面,我们有50台服务器的资源,这是老师共用的,学生也会用。我们很多老师从企业拿了大量数据来,要做海量数据的分析。在这个时候,我们可以通过星环的平台来做。联合申报项目方面,我们目前跟星环科技在一同申请一些大数据的研究项目。还有技术成果转换方面,我们把我们的一些研究成果通过星环科技平台作为载体送到企业中去,为企业进行服务。第三个是我们北大的数据中心,星环科技作为建设单位之一,在那里面也做了很多工作。刚才说到数据中心,在北大里面我们有一个高性能计算平台,大概有20台服务器,有300块GPU卡,就是用的星环提供的大数据平台。不同平台如何协调,如何正常运作起来,后面还需要我们跟星环的科研人员一起来探索。
刚才提到的宏观经济预测,在安徽的芜湖和合肥做宏观经济预测,我们也会利用我们星环的大数据平台做落地,真正把我们的研究成果落地给政府用。还有智慧城市方面,目前北京在做智慧城市建设,我们也会推动星环的产品去支持智慧城市的建设。
标签:实验室,黄永贵,平台,速记,星环,应用,数据,我们 来源: https://blog.51cto.com/u_15127640/2774595