登录
注册
资讯活动

企业数据之争背后的AI战略

发布时间:2018-01-12 来源:金属加工

最近,企业之间对于数据的争夺屡见不鲜,如顺丰与菜鸟腾讯与华为等,数据之争大有愈演愈烈之势。与此同时,人工智能(AI)技术方兴未艾,诸多政府报告都将AI作为未来的发展重点,高盛年度报告也将AI放到了变革人类文明与发展的重要高度,诸多因素使人有理由相信未来AI将像互联网一样具有推动人类社会进步的革命性力量,甚至会超越互联网彻底颠覆人类的传统认知。在此大背景下,企业间的数据之争便体现出了其AI战略。

AI的崛起加剧了数据战争

(一)数据已成为AI关键资源

目前来看,AI已是大势所趋,在能源、医疗、零售、金融、农业等诸多领域的应用都已初露锋芒,未来还将逐步渗透到人类生活的各个方面。Gartner的技术成熟度曲线显示AI正经历着第一波上升期,埃森哲在《人工智能经济发展新动力》报告中也指出,AI作为一种新的生产要素,可以为许多国家的经济增长带来提拔作用。全球无论是传统企业或是科技巨头,甚至是初创企业都开始纷纷布局AI。

众所周知,当前AI发展的三大要素为算法、算力和数据,缺一不可。以AlphaGo为例,其背后的卷积神经网络系统由许多数据中心作为节点,每个节点有多台超级计算机,通过对互联网上棋谱的学习提升技巧,其算法为继承了蒙特卡洛树搜索算法的深度学习算法,同时使用了“监督学习”、“强化学习”等技巧;硬件算力为AlphaGo背后的超级计算机,其配置可变,最高配置为1920个CPU加280个GPU,计算能力约等于我国天河二号超级计算机的十分之一;数据为自互联网的3万多幅专业棋手对弈棋谱以及AlphaGo自我对弈产生的3000万盘棋局。

综合各种因素,我们认为数据价值将越发重要,已成为AI关键资源。第一,深度学习算法作为近期AI最重要的突破将逐渐普及,随着投入的增加、人才的流动以及算法的逐渐开源化,算法层面的差距将日趋减小,而在算力层面,GPU服务器等基础设施的突破投入大、门槛高,可参与其中的凤毛麟角,同时计算云端化趋势愈发明显,谷歌云计算平台、亚马逊AWS、阿里云等发展迅速,直接接入云计算平台将成为更好选择,因此数据将成为获得AI优势的关键。第二,随着AI的普及与深入,仅基本功能已无法满足需求,企业需要更具针对性、专业化、个性化的AI应用来保持竞争优势,这就需要更大规模的差异化数据集作为训练数据,数据便成为了企业最有可能提高利润的关键。一定程度上,未来AI之争将演化为数据之争。

(二)爆发的AI需求与开源数据集间供需失衡

没有大规模差异化的数据集作为训练数据则高质量的AI无从谈起。目前,构建AI解决方案或产品最困难的通常不是算法或算力,瓶颈往往来自数据的收集和标注。追求更复杂,更准确的AI功能要求训练数据具备更大的规模、更丰富的多样性、更加接近真实应用场景等特性。

当今,可用于机器学习的开源数据集屈指可数,如计算机视觉领域的MNIST、ImageNet,自然语言领域的文本分类数据集、SQuAD,语音识别领域的2000 HUB5 English、VoxForge,推荐和排序系统领域的Netflix Challenge、Million Song Dataset等,全球AI研究大多基于此。但是,显然如此有限的开源数据集很难满足全球爆发式增长的AI需求,此时大规模的用户数据就成为了最佳数据来源,这使得拥有数据优势的企业在AI算法模型优化、商业化落地等方面具备先天优势,因此几乎全球涉及AI的企业都在千方百计的收集用户数据。

大规模数据的收集、存储、分析、利用需要大量人力、物力以及资金的投入,需要企业长期的预算支出,仅大型平台有此实力。在我国,互联网行业发展飞速,形成了BAT等一批大型互联网企业,它们在本行业壮大的同时还在向金融、交通、文娱等行业不断扩张,生态圈初步形成,如今大型互联网平台已掌握社交、电商、交通、文娱、移动支付等诸多行业的大量用户数据,发展AI具有无可比拟的垄断优势。而这些私有数据并不会被轻易共享,首先它们为企业带来巨大价值及竞争优势,企业很少开放,其次,即便这些用户数据为匿名数据,若被开放,仍有可能造成用户隐私的泄露,安全性风险较大。正因如此,企业对于用户数据的争夺也就格外激烈。

数据收集、使用面临的问题

(一)权属界定尚不明确

不同于个人数据、政府数据等有明确法律概念,用户数据概念模糊,加之数据资源本身具有可复制性、动态性、时效性等特殊性,现有法律关于传统权利的界定不能完全覆盖所有数据类型,其权属的界定尚无明确法律规定,从而才有了华为和腾讯的“数据之争”,腾讯指责华为荣耀Magic手机通过非法夺取微信的用户数据来打造其AI功能,华为则辩称数据来自用户,并得到用户授权。用户是数据的生产者,企业对数据进行加工分析为用户提供更好服务,企业通过大量投入使数据产生了价值,那么用户数据属于个人还是属于互联网等平台?若属于个人,那么用户是否也应享有相关产品的收益权?若个人授权企业可免费使用数据,那么企业要交易或共享个人数据时是否必须经过用户同意?这一系列问题尚需进一步深入探讨。 

(二)安全与隐私漏洞

AI自诞生之日起就面临着安全与隐私方面的挑战,随着越来越多用户数据被收集、使用,暴露了更多安全与隐私漏洞。指纹、账户、家庭住址、兴趣爱好、行为习惯、健康状况、医疗记录等大量隐私数据一旦泄露,将对用户个人甚至整个社会带来严重危害,诈骗、信用卡盗刷、人身安全威胁、甚至通过针对不同用户提供不同阅读内容控制公众的认知和判断等,虚拟环境中的数据为不法分子提供了可乘之机,即便数据收集时采用匿名方式,仍可通过相关技术进行破解并关联到用户信息。当今,用户数据被泄露、非法占有等事件已层出不穷,安全和隐私的保障问题将成为AI未来重要的研究课题。

(三)偏差与不公正现象

AI在数据的收集、分析、使用过程中存在大量噪音、干扰、信息污染等不确定因素,可能导致结果出现偏差,在实际应用中则可能导致不公正或歧视现象发生。首先,数据本身可以客观反映真实情况,但是收集过程中由于某些自然、人为因素会造成数据摄取漏洞、出现数据鸿沟,这会使某些特定群体的数据接收相对较少或是完全没有被接收,那么被收集的数据并不能真实代表客户群的多样性,很有可能误导学习系统,得到不理想的学习效果。其次,AI需要数据集作为训练数据,而数据集的制作需要对原始数据进行人为的标注、解释,该过程会受到人的认知、偏好等因素影响,偏差或歧视等问题不可避免会随之产生。

对策建议

(一)持续技术攻关

AI正在上升期,未来也许需要度过泡沫化的低谷期,才可能最终到达稳步爬升的光明期和实质生产的高峰期,这是一个机遇与风险并存的过程,面对尚不明朗的未来,持续的技术攻关是我们一定要坚持的。第一,在大数据支持下机器学习算法大放异彩,但该算法目前仍处于“黑盒”阶段,只看得到输入、输出,如何进行学习、学习机制是否合理不得而知,这为算法的改进、行为边界的预测等带来很大阻碍,应进行重点技术攻关。第二,数据摄取漏洞、数据鸿沟会直接影响AI模拟结果,适当的修正与监督很有必要,引入社会科学的定性分析对数据分析进行补充,增加数据厚度,提高结果可靠性。第三,安全与隐私问题是AI必须面对的挑战,有远见的企业已经在安全与隐私保护技术领域开展了大量工作,形成了同态加密(Homomorphic encryption)、差分隐私(differential privacy)和随机隐私(stochastic privacy)等数据保护先进技术,虽然新技术研发刚刚起步,但其未来应用前景不可小觑,加强用户数据保护技术的研发需要长期坚持。

(二)推进科学立法

对于用户数据的权属界定、安全与隐私的保护、歧视与不公正等问题的解决,最终还应依靠法律法规。欧盟早在2015年就成立专门工作小组,开展AI发展相关的法律问题研究,并于2016年发布了《欧盟机器人民事法律规则》,近期日本公正交易委员会竞争政策研究中心也发布了《数据与竞争政策研究报告书》,我国今年6月1日开始实施的《中华人民共和国网络安全法》是我国网络领域的基础性法律,关于用户数据的安全、个人信息保护等问题提出了要求,但仍不够具体,缺乏细则。我国应尽快开展AI相关的立法研究,明确法律主体以及相关权利、义务和责任,如明确个人数据、默认保护隐私、知情同意、加密等相关法律概念,对数据的归属权、使用权、产品的知识产权等作出详尽解释,并给出对应的处罚机制,加快建立和完善适应数字经济时代的法律法规体系。

(三)加强数据监管

数据争夺日趋激烈,为了更好的发展AI、振兴数字经济,维护数据采集和使用的正当性、合法性和保护隐私性,加强数据监管势在必行。此外,数据作为未来重要的生产要素,对全球各国意义重大,为此,加强数据监管与保护,维护我国数据主权具有长远意义。成立专门负责数据监管的职能机构,除配备专业数据监管人员外,还要聘请各行业相关专家作为外部支持,负责数据采集与使用过程中出现的技术、法律、监管等问题,开展跨领域、跨学科的监测,适时提出监管措施,还要防止过度监管阻碍AI创新的发生。组织制定数据标准及相关规则,如对公开数据的格式提出要求、牵头制定行业数据库等,提高数据可读性,为数据分享和系统间交互提供便利。中国作为数据大国在数据标准的制定方面要积极作为,力争发挥主导作用。

(四)适当开放政府数据

我国除了拥有丰富多样的AI应用场景,还有海量的数据资源作为支撑,这为AI的发展提供了有利环境,我国应把握机遇,充分发挥该优势,抢占AI发展制高点,在此背景下,适当开放政府数据意义深远。随着智能化、数字化的不断成熟,我国网络强国建设稳步推进,政务信息化、透明化发展成为必然,将AI运用于政府工作、适当开放政府数据也正顺应了历史潮流。政府数据蕴含着巨大经济和社会价值,适当公开,满足了目前AI对于大规模多样化数据集的迫切需求,对我国AI的创新发展有着巨大的推动作用。我国在政府数据公开领域已经起步,先后发布了《促进大数据发展行动纲要》、《“十三五”国家政务信息化工程建设规划》等政策文件,从国家层面提出了政府数据公开的整体战略,在未来,战略的落实、行动的执行、需求的不断更新,需要我们持续发力做好政府数据的公开工作。

来源:赛迪智库