企业数据之争背后的AI战略

最近，企业之间对于数据的争夺屡见不鲜，如顺丰与菜鸟腾讯与华为等，数据之争大有愈演愈烈之势。与此同时，人工智能（AI）技术方兴未艾，诸多政府报告都将AI作为未来的发展重点，高盛年度报告也将AI放到了变革人类文明与发展的重要高度，诸多因素使人有理由相信未来AI将像互联网一样具有推动人类社会进步的革命性力量，甚至会超越互联网彻底颠覆人类的传统认知。在此大背景下，企业间的数据之争便体现出了其AI战略。

AI的崛起加剧了数据战争

（一）数据已成为AI关键资源

目前来看，AI已是大势所趋，在能源、医疗、零售、金融、农业等诸多领域的应用都已初露锋芒，未来还将逐步渗透到人类生活的各个方面。Gartner的技术成熟度曲线显示AI正经历着第一波上升期，埃森哲在《人工智能经济发展新动力》报告中也指出，AI作为一种新的生产要素，可以为许多国家的经济增长带来提拔作用。全球无论是传统企业或是科技巨头，甚至是初创企业都开始纷纷布局AI。

众所周知，当前AI发展的三大要素为算法、算力和数据，缺一不可。以AlphaGo为例，其背后的卷积神经网络系统由许多数据中心作为节点，每个节点有多台超级计算机，通过对互联网上棋谱的学习提升技巧，其算法为继承了蒙特卡洛树搜索算法的深度学习算法，同时使用了“监督学习”、“强化学习”等技巧；硬件算力为AlphaGo背后的超级计算机，其配置可变，最高配置为1920个CPU加280个GPU，计算能力约等于我国天河二号超级计算机的十分之一；数据为自互联网的3万多幅专业棋手对弈棋谱以及AlphaGo自我对弈产生的3000万盘棋局。

综合各种因素，我们认为数据价值将越发重要，已成为AI关键资源。第一，深度学习算法作为近期AI最重要的突破将逐渐普及，随着投入的增加、人才的流动以及算法的逐渐开源化，算法层面的差距将日趋减小，而在算力层面，GPU服务器等基础设施的突破投入大、门槛高，可参与其中的凤毛麟角，同时计算云端化趋势愈发明显，谷歌云计算平台、亚马逊AWS、阿里云等发展迅速，直接接入云计算平台将成为更好选择，因此数据将成为获得AI优势的关键。第二，随着AI的普及与深入，仅基本功能已无法满足需求，企业需要更具针对性、专业化、个性化的AI应用来保持竞争优势，这就需要更大规模的差异化数据集作为训练数据，数据便成为了企业最有可能提高利润的关键。一定程度上，未来AI之争将演化为数据之争。

（二）爆发的AI需求与开源数据集间供需失衡

没有大规模差异化的数据集作为训练数据则高质量的AI无从谈起。目前，构建AI解决方案或产品最困难的通常不是算法或算力，瓶颈往往来自数据的收集和标注。追求更复杂，更准确的AI功能要求训练数据具备更大的规模、更丰富的多样性、更加接近真实应用场景等特性。

当今，可用于机器学习的开源数据集屈指可数，如计算机视觉领域的MNIST、ImageNet，自然语言领域的文本分类数据集、SQuAD，语音识别领域的2000 HUB5 English、VoxForge，推荐和排序系统领域的Netflix Challenge、Million Song Dataset等，全球AI研究大多基于此。但是，显然如此有限的开源数据集很难满足全球爆发式增长的AI需求，此时大规模的用户数据就成为了最佳数据来源，这使得拥有数据优势的企业在AI算法模型优化、商业化落地等方面具备先天优势，因此几乎全球涉及AI的企业都在千方百计的收集用户数据。

大规模数据的收集、存储、分析、利用需要大量人力、物力以及资金的投入，需要企业长期的预算支出，仅大型平台有此实力。在我国，互联网行业发展飞速，形成了BAT等一批大型互联网企业，它们在本行业壮大的同时还在向金融、交通、文娱等行业不断扩张，生态圈初步形成，如今大型互联网平台已掌握社交、电商、交通、文娱、移动支付等诸多行业的大量用户数据，发展AI具有无可比拟的垄断优势。而这些私有数据并不会被轻易共享，首先它们为企业带来巨大价值及竞争优势，企业很少开放，其次，即便这些用户数据为匿名数据，若被开放，仍有可能造成用户隐私的泄露，安全性风险较大。正因如此，企业对于用户数据的争夺也就格外激烈。

数据收集、使用面临的问题

（一）权属界定尚不明确

不同于个人数据、政府数据等有明确法律概念，用户数据概念模糊，加之数据资源本身具有可复制性、动态性、时效性等特殊性，现有法律关于传统权利的界定不能完全覆盖所有数据类型，其权属的界定尚无明确法律规定，从而才有了华为和腾讯的“数据之争”，腾讯指责华为荣耀Magic手机通过非法夺取微信的用户数据来打造其AI功能，华为则辩称数据来自用户，并得到用户授权。用户是数据的生产者，企业对数据进行加工分析为用户提供更好服务，企业通过大量投入使数据产生了价值，那么用户数据属于个人还是属于互联网等平台？若属于个人，那么用户是否也应享有相关产品的收益权？若个人授权企业可免费使用数据，那么企业要交易或共享个人数据时是否必须经过用户同意？这一系列问题尚需进一步深入探讨。

（二）安全与隐私漏洞

AI自诞生之日起就面临着安全与隐私方面的挑战，随着越来越多用户数据被收集、使用，暴露了更多安全与隐私漏洞。指纹、账户、家庭住址、兴趣爱好、行为习惯、健康状况、医疗记录等大量隐私数据一旦泄露，将对用户个人甚至整个社会带来严重危害，诈骗、信用卡盗刷、人身安全威胁、甚至通过针对不同用户提供不同阅读内容控制公众的认知和判断等，虚拟环境中的数据为不法分子提供了可乘之机，即便数据收集时采用匿名方式，仍可通过相关技术进行破解并关联到用户信息。当今，用户数据被泄露、非法占有等事件已层出不穷，安全和隐私的保障问题将成为AI未来重要的研究课题。

（三）偏差与不公正现象

AI在数据的收集、分析、使用过程中存在大量噪音、干扰、信息污染等不确定因素，可能导致结果出现偏差，在实际应用中则可能导致不公正或歧视现象发生。首先，数据本身可以客观反映真实情况，但是收集过程中由于某些自然、人为因素会造成数据摄取漏洞、出现数据鸿沟，这会使某些特定群体的数据接收相对较少或是完全没有被接收，那么被收集的数据并不能真实代表客户群的多样性，很有可能误导学习系统，得到不理想的学习效果。其次，AI需要数据集作为训练数据，而数据集的制作需要对原始数据进行人为的标注、解释，该过程会受到人的认知、偏好等因素影响，偏差或歧视等问题不可避免会随之产生。

对策建议

（一）持续技术攻关

AI正在上升期，未来也许需要度过泡沫化的低谷期，才可能最终到达稳步爬升的光明期和实质生产的高峰期，这是一个机遇与风险并存的过程，面对尚不明朗的未来，持续的技术攻关是我们一定要坚持的。第一，在大数据支持下机器学习算法大放异彩，但该算法目前仍处于“黑盒”阶段，只看得到输入、输出，如何进行学习、学习机制是否合理不得而知，这为算法的改进、行为边界的预测等带来很大阻碍，应进行重点技术攻关。第二，数据摄取漏洞、数据鸿沟会直接影响AI模拟结果，适当的修正与监督很有必要，引入社会科学的定性分析对数据分析进行补充，增加数据厚度，提高结果可靠性。第三，安全与隐私问题是AI必须面对的挑战，有远见的企业已经在安全与隐私保护技术领域开展了大量工作，形成了同态加密（Homomorphic encryption）、差分隐私（differential privacy）和随机隐私（stochastic privacy）等数据保护先进技术，虽然新技术研发刚刚起步，但其未来应用前景不可小觑，加强用户数据保护技术的研发需要长期坚持。

（二）推进科学立法

对于用户数据的权属界定、安全与隐私的保护、歧视与不公正等问题的解决，最终还应依靠法律法规。欧盟早在2015年就成立专门工作小组，开展AI发展相关的法律问题研究，并于2016年发布了《欧盟机器人民事法律规则》，近期日本公正交易委员会竞争政策研究中心也发布了《数据与竞争政策研究报告书》，我国今年6月1日开始实施的《中华人民共和国网络安全法》是我国网络领域的基础性法律，关于用户数据的安全、个人信息保护等问题提出了要求，但仍不够具体，缺乏细则。我国应尽快开展AI相关的立法研究，明确法律主体以及相关权利、义务和责任，如明确个人数据、默认保护隐私、知情同意、加密等相关法律概念，对数据的归属权、使用权、产品的知识产权等作出详尽解释，并给出对应的处罚机制，加快建立和完善适应数字经济时代的法律法规体系。

（三）加强数据监管

数据争夺日趋激烈，为了更好的发展AI、振兴数字经济，维护数据采集和使用的正当性、合法性和保护隐私性，加强数据监管势在必行。此外，数据作为未来重要的生产要素，对全球各国意义重大，为此，加强数据监管与保护，维护我国数据主权具有长远意义。成立专门负责数据监管的职能机构，除配备专业数据监管人员外，还要聘请各行业相关专家作为外部支持，负责数据采集与使用过程中出现的技术、法律、监管等问题，开展跨领域、跨学科的监测，适时提出监管措施，还要防止过度监管阻碍AI创新的发生。组织制定数据标准及相关规则，如对公开数据的格式提出要求、牵头制定行业数据库等，提高数据可读性，为数据分享和系统间交互提供便利。中国作为数据大国在数据标准的制定方面要积极作为，力争发挥主导作用。

（四）适当开放政府数据

我国除了拥有丰富多样的AI应用场景，还有海量的数据资源作为支撑，这为AI的发展提供了有利环境，我国应把握机遇，充分发挥该优势，抢占AI发展制高点，在此背景下，适当开放政府数据意义深远。随着智能化、数字化的不断成熟，我国网络强国建设稳步推进，政务信息化、透明化发展成为必然，将AI运用于政府工作、适当开放政府数据也正顺应了历史潮流。政府数据蕴含着巨大经济和社会价值，适当公开，满足了目前AI对于大规模多样化数据集的迫切需求，对我国AI的创新发展有着巨大的推动作用。我国在政府数据公开领域已经起步，先后发布了《促进大数据发展行动纲要》、《“十三五”国家政务信息化工程建设规划》等政策文件，从国家层面提出了政府数据公开的整体战略，在未来，战略的落实、行动的执行、需求的不断更新，需要我们持续发力做好政府数据的公开工作。

来源：赛迪智库

内蒙古工业云平台