在小指尖上舞动“大数据”

   2018-10-08 人民日报930
核心提示:在小指尖上舞动“大数据”
     即使事前知道要拍摄,她的穿戴仍是出乎意料的简略:白T恤、黑裙子,当然还少不了带隔层的双肩包来保护笔记本电脑——如同随时都能拿出来写上几行代码。

她的双肩包像个“百宝箱”,里面除了装着电脑,还备着各式接口的数据传输线,几乎能联接这间小会议室里的全部设备

新产品上线前的那几次检验,总是会发现一些意想不到的缝隙,需求连夜打扫,我们往往会阅历几个不眠之夜

张栋栋觉得自己骨子里是个“技术流”,喜欢跟机器打交道,遇到问题也爱“用技术说话”

在北京,“西二旗”是人流量最大的地铁站之一。离此不远的中关村软件园内,互联网公司和高科技企业树立。在网上,“西二旗人”很简略被贴上标签,“码农”是最常见的说法。程序、算法、迭代、优化……有人说,程序员的日子单调到只要睡觉和作业,就像代码里的0和1。

1992年出世的张栋栋却不认同这些观念。她是曙光信息产业股份有限公司大数据及立异事业部的研究人员,也是一位作业在“西二旗”的人工智能算法工程师,首要从事超大规模视频智能分析引擎开发和算法优化作业。“90后”“女人”“程序员”,这些不同的特质会在她的身上碰撞出怎样的火花?记者日前来到坐落中关村软件园的曙光信息产业股份有限公司,领会“90后”人工智能算法工程师张栋栋的一天。

边介绍边演示,桌上这台配备不错的笔记本电脑也有些跟不上她的节奏,系统时不时会有些卡顿

即使事前知道要拍摄,张栋栋今天的穿戴仍是出乎意料的简略:白T恤、黑裙子,当然还少不了带隔层的双肩包来保护笔记本电脑——如同随时都能拿出来写上几行代码。

来到偌大的作业途径时,已是上午10点,张栋栋工位周围的伙伴还不多。“一些人在出差,一些人在开会,一些人可能刚下班。”张栋栋说。为了不影响在工位上作业的伙伴,我们抉择将领会地址换到一间小会议室。楼里的小会议室出奇的多,每间能够容纳五六个人,白板上留着重复擦写后的记号笔痕迹,如同能重现一场场炽热的谈论。

张栋栋的作业跟我们常常能见到的“电子眼”相关。这些散布于各个角落的“电子眼”一贯默默地守护着人们的安全,可是它们是如安在茫茫人海中快速、准确地锁定目标的?又怎样将数量巨大、照应缓慢、内容大多没有运用价值的监控视频变为更易查找、能被深度开掘的高密度数据?在它们的背面,离不开一整套视频智能分析系统的支撑。

为了帮忙我这个外行人快速了解,张栋栋将自己上星期的作业进行了一场“情形恢复”。“狭义上来说,人工智能也是一种算法,要靠数据来不断优化,许多的数据往往包括许多冗余甚至无用的信息,这时就需求数据清洗与整合。”张栋栋指着屏幕说。刚碰头还有些腼腆的她,讲起技术来如同一瞬间放开了,“拿这组人脸图片来说,每张都有标签,标签分许多列,分别标明着所属人的编号、性别、年岁等特征信息,当然其间每个人也可能有多张图片。”

“接下来要进行的是数据的可视化操作,一是为检查图片质量,二是为取得一个核算学上的数据描绘,这时分就会发现一些‘噪音’(指对数据的烦扰和影响)。”张栋栋举例说,“比如一张图片里可能有多个人脸或许没有人脸,归于同一个人的不同图像却发现底子不是一个人,或许相同的图片发现存了两遍等等——系统录入时的误操作会导致这些情况的发生。要保证机器能够学习到高质量的数据,就要把这些数据存在的问题罗列出来,再依据不同的问题找到数据清洗的办法。数据清洗是一个很重要的进程,尽管耗费时间,但关系到后续模型的准确率。”

边介绍边演示,桌上这台配备不错的笔记本电脑也有些跟不上她的节奏,系统时不时会有些卡顿,一贯检验理清思路的我也是相同。为了看起来便当,张栋栋连上了墙上的电子屏幕。这时我发现,她的双肩包像个“百宝箱”,里面除了装着电脑,还备着各式接口的数据传输线,几乎能联接这间小会议室里的全部设备。

键盘起起落落,一行行的代码便落在了屏幕上,远程服务器上记录着她每一次的灵光乍现

清洗完数据,接下来还要对数据进行前期预处理,包括从图片中截取人脸、把涣散的数据会合到同一个大文件中,这些作业都是在为后续的模型操练做准备。张栋栋说:“人工智能对算力有很高的要求,原始数据体量大,处理进程就会耗用许多的CPU(中央处理器)资源,处理时间也比较长。后边操练时,假如数据量太大,我们还会用到散布式并行操练的办法来前进速度。”此外,数据增强也是预处理的一部分,就是对刚才的作业反其道而行之——人为添加数据的“噪音”。

“数据清洗要去除噪音,这个时分为什么又要添加噪音呢?”我有些不解。“这是为了让模型习惯多种实践场景,在人脸辨认里,就是应对逆光、人像不全等极点情况,专业名词叫‘前进模型泛化才干’。”张栋栋解说说。

把这些作业做完之后,还要在正本的算法结构的基础上进行改进,俗称“改代码”。“人脸辨认也有多种算法,需求选择适宜的来修正。我们前期现已对各种算法进行了评价,有一个大约的算法结构,只需拿过来稍微改一下就能够运用了。”

说到这儿,我们才算进入模型操练阶段,张栋栋也正式初步了她今天的作业。“操练的进程其实就是一个下降丢掉函数(猜想值与实在值之间间隔)的进程。”键盘起起落落,一行行的代码便落在了屏幕上,远程服务器上记录着她每一次的灵光乍现,也不会放过任何一个程序毛病。

“在机器学习中,一般会将样本分红独立的三部分——操练集、验证集和检验集,其间检验集用来查验模型的功用怎样。两方面抉择了一个模型或算法的好坏,一个是结构,另一个是模型参数。操练的毕竟目的就是要找到适宜的参数,使检验集的准确率更高。”张栋栋说,当毕竟检验集显现准确率现已比较高,而且现已收敛到一个平稳的情况后,操练就告结束,后续就能够对新数据进行猜想和推理。

“程序员真的能记住这么多的代码吗?”看她双手如飞,我有些猎奇。“其实这就跟我们背诗句、单词差不多,挥洒自如嘛。”张栋栋笑了,“有时分也做不到一字不差,但大致的逻辑和思路是能记住的。”初秋的午后,阳光照射在园区空荡的街道上,翻开的窗边偶然会传来几声鸟鸣,旋即被高低的键盘敲击声所代替。周围几间会议室的灯逐渐点亮,人们进进出出。程序员作业的进程如同不像传说中的那般“压力山大”。

“其实你只看到了一面”,她如同看出了我的疑问,“一个产品从初步阶段的数据收集到毕竟模型操练结束,会出现各式各样的问题。比如新产品上线前的那几次检验,总是会发现一些意想不到的缝隙,需求连夜打扫。我们都很严重,往往会阅历几个不眠之夜。”

现在,张栋栋参与研发的超大规模视频智能分析引擎已在国内几个大中城市落地运用。它依据深度学习技术和人工智能算法树立,集合了视频集聚分发、动态人脸辨认、视频结构化分析、大数据多维分析等多项特色,轻松练就了视频监控的“火眼金睛”,守护着千家万户的安全。

志向的作业和日子需求平衡,就像找到一个最优的“算法”相同

在这个男性占绝大多数的作业里,像她这样的女孩并不多。张栋栋觉得自己骨子里是个“技术流”,喜欢跟机器打交道,遇到问题也爱“用技术说话”。

2015年从北京交通大学信息管理与信息系统专业毕业后,她选择去英国留学,就读于伦敦大学学院网络科学与大数据分析专业,其时人工智能技术刚刚在全球兴起。张栋栋坦言,留学那段时间让她实在认识到,这项技术代表着未来。2016年3月,人工智能公司DeepMind联合创始人戴密斯·哈萨比斯领衔开发的“阿尔法狗”(AlphaGo)与围棋世界冠军、作业九段棋手李世石进行围棋人机大战,毕竟以4比1的总比分制胜。哈萨比斯也毕业于这所学校。“不敢说以这样的‘牛人’为模范,但他的效果对我确实产生了一些影响。”虽已脱离学校,她至今还保持着读论文的习气,“人工智能技术展开太快,必须跟进最前沿的技术,读论文算是最省时省力的办法了。”

不知不觉中,天色渐晚,快到理论上的“下班时间”了,我们也逐渐从作业聊到了日子。张栋栋认为,跟软件园里许多人比较,自己算不上一个加班“狂人”。“志向的作业和日子需求平衡,就像找到一个最优的‘算法’相同,不断下降自己的‘丢掉函数’。”

每天接触最前沿的技术,日子中张栋栋的喜好却是前史、博物馆和古建筑。她还曾参与过一个这方面的公益组织,“我们会带着我们去欣赏博物馆,也会传达一些前史文化知识。”她觉得这些活动能让自己把节奏降下来,调度一下身心。

张栋栋乐于向身边的伙伴们请教,也期盼着自己能通过极力来改进他们的作业。“这是一个‘迭代’的进程,产品是这样,技术是这样,人也是这样。”她认为,“90后”比较独立,对许多问题都有自己的判别,不会随声附和,这在立异方面是优势。“国内在人工智能的运用方面展开很快,可是在一些要害的、底层的理论和技术方面同国外比较还有间隔,这是我们这代人应该极力的方向。”

众 说

沙拔尖(曙光信息产业股份有限公司高级副总裁):

还记住四五年前我的伙伴在台上作陈述时,曾大声呼吁“必定要给‘90后’时机”,转眼间,我们许多团队中“90后”现已挑起了大梁。这几年我们公司的技术主干中,“90后”的比例在快速进步,包括我们承担的一些国家重大项目,其间也有相当多“90后”的身影。

信息产业瞬息万变,新技术不断迭代,具体到产品层面往往时间紧、任务重、困难多、应战大,这些反而让我在“90后”的身上看到了许多闪光点。我记住很清楚,上一年“十一”长假,我们一个项目组40多人几乎是全员加班。长假中间那天是中秋节,我提前告诉他们“中秋那天不许来”,效果当天我跑到公司一看,仍是来了20多人,其间大部分都是“90后”。

张栋栋参与开发的这个视频智能分析引擎,是世界上最大的在线视频分析系统之一。她来公司还不到两年,常常一出差就是几个月,“扎”在项目驻地不断地优化产品。这让我这个“70后”感到“90后”也是能打硬仗的。

跟着经历、经历的不断添加,更多的优异“90后”正出现出来。在我们公司承担的E级超算原型机项目、“地球数值仿照设备”原型设备等重大项目中,“90后”正承担起更多更艰巨的任务。

宋怀明(曙光信息产业股份有限公司大数据及立异事业部总工程师):

我们研发团队的均匀年岁在30岁左右,“90后”现已是这个团队的主力,占比30%以上,在一线从事技术攻关的比例更高。

张栋栋这些“90后”常常要处理许多的数据,在此基础上不断地去操练算法、优化模型,有的时分只为进步那么一点精度和功用,就要做许多数据的核算。但也就是这一点精度,在实践运用时会带来非常显着的效果,让我感觉“90后”在精雕细镂方面是不输于“80后”的。“90后”科技人员的生长布景抉择了他们能够接触到许多的信息,思维改换才干很强,会从不同的角度去看问题,也会检验一些不同的办法来解决问题,这可能是“90后”科技人员的特质,也是立异的优势。我想,往后“90后”在处理具体问题的时分,假如能再多一点坚持,多一些耐性,必定会取得更好的效果。 
 
举报收藏 0打赏 0评论 0
 
更多>同类新闻资讯
  • lee2016
    加关注0
  • 没有留下签名~~
推荐图文
推荐新闻资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报