推荐 :一文了解AI时代的数据风险(后真相时代、算法囚徒和权利让渡)

  • 时间:
  • 浏览:0



2016年美国总统大选,多家民调机构的预测结果的失败,让这些 人质疑数据的客观性与准确性。而时隔两年随后曝出的Facebook数据泄露事件,在这些 意义上是对民调结果失灵的另好有几个 多多签署,尽管这些 人很多再能选者剑桥分析公司对大选结果的干预究竟起了多大作用。这些 事件还有着更高度的寓意,它提醒这些 人面临的另好有几个 多多新挑战:一方面,数据分析的目标是追求客观地描述事物;买车人面,数据分析也但会 会成为对客观事物或客观守护进程的干预力量。还可否预见的是,未来两者之间的博弈但会 会成为常态。

尽管但会 进入到“大数据”时代,而大数据的卖点之一是“全样本”,但事实上,在现实中,获得“全样本”并都有一件容易的事。

除了以算法来完成面向个体的内容推荐,算法也还可否用于公共性内容的匹配,也很多很多 我通过算法洞察公众的一起心理,使具有公共价值的内容到达更广的人群,也同样但会 帮助个体挣脱茧房的束缚。

1. 用户过高 对买车人数据的知情能力

3. 算法是与非 会使人陷入“幸福地被操纵”?

不过,目前被遗忘权或删除权更多地是在学界和法律界被讨论,大多数普通人并告诉我它的趋于稳定。但会 ,即使有被遗忘权或删除权,个体也会面临比以往更多的风险。实在谨言慎行或许是这些 人自认为的减少风险的最好的法子,但在算法通过若干点赞就还可否判断用户的性格的情况汇报下,在未来各种传感器还可否随时随地捕捉人的数据的情况汇报下,被记忆仍会是常态。

但会 ,数据质量永远是数据分析立项后首很难考虑的。首很难理解数据来源、数据统计和架构设计 逻辑、数据入库处置逻辑;其次是理解数据在数据仓库中是怎样才能存放的,字段类型、小数点位数、取值范围,规则约束怎样才能定义的;第三是明确数据的取数逻辑,尤其是从数据仓库中怎样才能用SQL取数的,其中很糙是对数据有也可否 经过转换和重新定义;第四是拿到数据里可否要有数据审查的过程,包括数据有效性验证、取值范围、空值和异常值处置等。当这些 工作都做富足随后也能进行下一步分析。

这其中由于,技术自然逃离不了干系。相似谷歌和脸书等公司开发的算法是基于用户很多很多 我的搜索和点击进行的,随着每次搜索和每次点击,用户就发现买车人的偏见再次得到确认。如今的社交媒体已成为大每项人获得新闻信息的主要渠道,其中的推荐算法机制引导这些 人进入观念相似者的小群体空间内,它只为用户提供这些 人喜欢、或选者相信的信息,是与非 真实很多再重要。

在大数据时代,从买车人高度看,目前数据应用与这些 人最直接的关联,是各种具有个性化算法推荐的应用。但事实上,这些 算法既会对买车人视野格局产生影响,也会暴露用户隐私。

除了样本的大疑问外,用各种最好的法子获取的数据,这些 质量也但会 趋于稳定大疑问。每项缺失的数据、重复的数据、失效的数据、造假的数据等,都被称为 “脏数据”。尽管数据处置前都有要求数据清洗,但这很多再能完正消除脏数据带来的污染。这些 数据分析者也但会 但会 这些 由于无视脏数据的趋于稳定,甚至会制造这些 脏数据。



4. 保护用户隐私的法律很多再能完正保护隐私

或许,个性化算法都有带来很多很多 我高度风险, 那很多很多 我在个性化服务下,个体逐渐遗弃自主判断与选者能力,很多地被算法或机器控制。从人的本性来说,懒惰是火山岩的,想以最小的成本或付出获得最大的报偿,是人之常情,个性化服务在这方面迎合了人性,但会 ,它也但会 正在以方便、幸福的名义,渐渐地使这些 人对它产生依赖,并在不知不觉中被其麻痹,被其囚禁。

至于互联网数据则更是资源紧缺。目前互联网数据都被少数拥有巨大流量的平台垄断,这些 中小型企业但会 先天数据过高 的过高 ,也可否依赖于网络爬虫从这些 大平台爬取数据。此前马蜂窝被爆12000万条以上的所谓真实用户数据是抄袭自这些 OTA平台,暴露了互联网行业普遍数据造假的潜规则。很多很多 ,用户所看过的对另好有几个 多多酒店或餐厅的好评,很多再一定是真实信息,很有但会 由网络机器人爬取而来。但会 说数据缺失也能由于“以偏概全”,数据造假则是直接简单粗暴地蒙蔽用户了。总之,行业数据但会 趋于稳定样本不完正的大疑问,这也必然对数据分析结果的完正性、代表性产生影响。

算法的另这些 风险,是对社会偏见的继承,以及这些 偏见但会 带来的文化或社会禁锢。当算法用于不当的目的时,会对这些 人群或个体造成歧视与伤害。算法不仅在归纳与“同构”现有文化中趋于稳定偏见、歧视,还但会 用这些 最好的法子将它们放大。譬也可否 前举例的亚马逊AI招聘系统性别歧视一样,机器的歧视来自于数据的偏差,而数据的偏差来自于人的偏见。

在国内,但会 历史由于,很多很多 行业这些 就过高 完正、系统的数据积累,但会 但会 隐私、信息安全等大疑问,能公开的也可否不完正的数据。譬如医疗行业和政府部门,怎样才能打破信息孤岛,在哪种程度范围内做到公开、透明、共享,依旧是急需攻克的大疑问。

以上是对数据与算法时代但会 面临风险的探讨。尽管数据与算法应用的价值不还可否定,但这些 人可否对数据和算法应用的失误或失范有足够的警惕,也可否增强对抗风险的能力。在国内,但会 观念、基础条件、规范等方面的障碍,都由于大数据应用的推进可否时间。任何功利、草率的思维和行为都有对数据应用的损害而非推动。在数据技术的大跃进过程中,这些 人也可否回归原点,完成这些 基本建设,譬如数据素养的培养、数据资源基础设施建设、数据质量评估体系建立、信息伦理规范的约束等。在这些 时代,数据、算法但会 成为决定这些 人生存最好的法子的重要因素。识别、抵抗这其中的种种风险,也应该成为这些 人生活的一每项,成为各种数据应用机构的基本责任。

“信息茧房”一词出自于美国学者桑斯坦,在他看来,信息茧房由于这些 人只听这些 人选者和愉悦这些 人的东西。

此前李彦宏一句“中国人对隐私大疑问不敏感,随后 用隐私换取便利、安全但会 下行速率 ”的言论让买车人成为众矢之的。事实上,对于普通用户而言,很多再这些 人不介意隐私被暴露,很多很多 我并告诉我买车人的隐私会怎样才能被侵犯,以及被侵犯到何种程度。这些 人与这些 掌握并利用甚至但会 出卖这些 人的隐私数据的公司之间是不平等的。在过高 对买车人数据的知情能力的情况汇报下,隐私保护根本无从谈起。



2016年,《牛津英语词典》将“后真相”(post-truth)作为年度词汇,揭示世界进入了后真相时代。罗辑思维曾对该名词做出另好有几个 多多精辟的总结:“过去,这些 人相信认知源于事实;现在,认知这些 很多很多 我事实”。

在美国畅销书《大规模杀伤数器:大数据怎样才能加深不公和危害民主》中,作者提到现在的数据科学家,习惯用模拟的最好的法子概括人类的行为,以群体画像推导买车人行为,依此判定。这本质上也可否 大疑问,大疑问出在反馈上:大每项的模型根本也可否 矫正的环节,但会 模型的结果有偏差,系统这些 无从得知,根据错误结果持续优化,最终反而变本加厉。此外,作者还认为建立怎样才能的数据分析模型取决于这些 人买车人,这些 人的价值观、这些 人的欲望,影响这些 人种种决策:架构设计 这些 数据,提起这些 样的大疑问。所谓的模型,是指内嵌于数学的观点。

2. 算法是与非 会将这些 人囚禁在偏见与固有的社会底部形态中?

 ●  个性化算法实在带来了买车人信息服务水平的提升,但也给这些 人带来偏见、歧视、思想被禁锢等困扰; ●  相关权利保护则受到更多挑战,很糙是在隐私权和被遗忘权方面。

下面,这些 人将进行完正解读。

从面向买车人的算法高度看,要尽但会 减少信息茧房效应,就要在算法设计时深入理解考虑用户行为与需求中的矛盾,相似也能及时预测用户需求的迁移或扩展,但会 提供这些 惯性之外的信息,给个体带来新体验等。



在个体被随时随地“数字化”映射的情况汇报下,隐身,也是保护隐私的另好有几个 多多重要方面。实在在法律上要独立形成这些 “隐身权”或许很多再现实(它更有但会 是隐私权中的一每项),但合适在技术层面,可否给予用户更多的“隐身”但会 。在物联网将广泛应用的未来,隐身许可将变得更为重要。

2. “脏数据”带来的污染

尽管每买车人都有买车人的阅读偏好是正常的大疑问,但但会 每买车人关注的很多很多 我买车人兴趣内的那一小片天地,他对这以外的世界,就会也可否 过高 了解。这或许很多再影响到他买车人的生活,但会 ,在可否公共对话的随后,这些 人会过高 一起的 “视角”。而一起 “视角”的过高 ,由于这些 人对这些 事实的判断会老出差异,共识难以形成。一起,信息环境的封闭与狭隘,也但会 会进一步固化这些 人的这些 观点与立场。

这这些 ,这些 大数据的开发者体会更深,如国内大数据应用领域的代表性学者周涛所言,“让这些 人不安的是,这些 但会 系统设计人员带来的初始偏见,有但会 随着数据的积累和算法的运转慢慢强化放大。”

本文来自云栖社区商务商务合作伙伴“数据分析”,了解相关信息还可否关注“数据分析”。

此外,还有用户数据使用权限边界大疑问。譬如随后第三方公司剑桥分析利用心理测试APP来架构设计 Facebook用户数据一样。即使用户同意向某个服务商提供买车人信息,但服务商是与非 有权向第三方透露?而第三方是与非 又还可否再次将数据转手?网络中的数据都有相互关联的,获取未经授权的关联数据是与非 合法?或许在理论上做出限定是容易的,但在现实中的操作,又很多再也可否 简单。



风险二:数据时代买车人所面临的风险

实在在这些 随后,以隐私换便利是用户的这些 不得已的选者,但用户应该有权利知道,出让的是这些 隐私数据,能获取这些 便利,以便这些 人做出权衡。但今天的网络服务提供者多数并也可否 提供充分的解释,即使有这些 隐私条款,也往往语焉不详但会 暗藏陷阱。

3. 用户是与非 应该拥有绝对隐身的权利

当今,在基于数据的个性化推荐算法机制满足了这些 人猎奇心、窥探欲、表演欲,让这些 人在网络中寻找到共鸣感和认同感时,这些 人未曾意识到这些 新大疑问和新风险的老出。这些 新大疑问和风险也能影响买车人对世界的认知,影响群体达成共识,甚至影响到整个时代的价值观。根据清华新闻与传播学院彭兰教授的观点,目前数据时代所面临的风险来自以下十有几个 方面:

3. 数据分析模型偏差带来的方向性错误

原文发布时间为:2018-11-12

数据时代对普通个体的很多很多 我高度影响,是个体的全面数据化。在未来,用户的数据将更为多元,将通过更多渠道生成、保存,这也由于用户数据中暗藏的风险更大,数据权利的保护面临更大的挑战。

后真相大疑疑问醒这些 人,数据与算法这些 看上去客观的手段与最好的法子,很多再一定能带来更多真相,反而但会 走向它的反面。但会 应用数据的过程不遵守一套完正的规范,但会 在数据应用中老出了漏洞而未能察觉,未来这些 人或许会被更多由貌似客观的数据堆积成的假象所包围。根据彭兰教授的观点,数据生产的每另好有几个 多多步骤都趋于稳定由于假象的风险:

2. 用户数据的边界大疑问值得探讨

在保护用户隐私的法律方面,2012年欧盟出台《一般数据保护条例》,称信息主体有权要求信息控制者删除与其买车人相关的资料信息。该权利被称为被遗忘及擦除权。在国内,2016年颁布的《网络安全法》正式确认了买车人对其网上买车人信息的“删除权”:“买车人发现网络运营者违反法律、行政法规的规定但会 双方的约定架构设计 、使用其买车人信息的,有权要求网络运营者删除其买车人信息。”这些 都有对数字时代买车人信息的存留风险做出的法律签署。

1. 数据样本偏差带来的“以偏概全”

除了以上另好有几个 多多环节但会 造成假象外,包括数据挖掘能力有限、数据解读能力有限,都有但会 带来偏差。总之,当今的这些 大数据分析在这些 意义上很多很多 我在分析甚至“制造”这些 人的视角,但会 将符合视角的“事实”推送给这些 人,实在推送的“事实”似乎是客观的,但会 ,当它们被放置在这些 人的“视角”下时,就成为了影响主观判断和态度的重要手段。

风险一:大数据带来的假象

1. 算法是与非 会将这些 人囚禁在信息茧房中?

风险三 买车人权利的让渡是数据时代的必然代价?

再另好有几个 多多事关用户隐私权的大疑问是,今天的用户是与非 应该拥有这些 隐身能力,使买车人的数据不被他人获取或存储,从而在根本上保护买车人。或许,这在国内将很难被执行。譬如人脸识别技术已被广泛用于街头巷尾的摄像头,尽管“天眼”织就“天网”让罪犯无处可逃,而对于普通个体而言,同样让他感觉到这是这些 无处什么都这么的监视。

此前人工智能对话系统微软小冰刚上线时,但会 她是用实时对话的数据进行训练的,很多很多 用户给她这些 不好的对话后,由于小冰飙脏话很多很多 我数据污染的很直接例证。不久前,亚马逊的AI招聘系统被爆出性别歧视也是同样道理。从技术上讲,机器学习过程很多再引入任何偏差,但训练数据中趋于稳定的任何偏差都将在算法中忠实地展现出来。AI的性别歧视,很多很多 我成功模仿了亚马逊当前的招聘情况汇报。