跳转到内容

工具趋同:修订间差异

维基百科,自由的百科全书
删除的内容 添加的内容
新条目,来自英文条目 Instrumental convergence
 
→‎假想案例:​ 内容扩充,来自英文条目
第1行: 第1行:
{{人工智能}}
{{人工智能}}


'''工具趋同'''({{Lang-en|Instrumental convergence}})是指[[智能代理|拥有智能的个体]]{{Efn|既包括人类,也包括未来可能出现的智能体。}}在追求不同的最终目标时,可能出现追求相似次要目标的倾向。换言之,智能体可能会无止境地追寻{{Le|工具价值与内在价值|Instrumental and intrinsic value|工具目标}}——为某些特定目的而制定的目标,但其本身并非最终目标——却永远不能真正地达到最终目标。工具趋同理论指出,一个不受限制的智能体,即使它的最终目标似乎无害,但仍可能因工具趋同而引发意想不到的有害后果。例如,一个最终目标为解决某数学难题(如[[黎曼猜想]])的不受限制的智能体,它可能会将整个地球转化为支撑其运作的资源,从而增加达成最终目标的效率。<ref name="aama">{{cite book|last1=Russell|first1=Stuart J.|last2=Norvig|first2=Peter|title=Artificial Intelligence: A Modern Approach|date=2003|publisher=Prentice Hall|location=Upper Saddle River, N.J.|isbn=978-0137903955|chapter=Section 26.3: The Ethics and Risks of Developing Artificial Intelligence|quote=类似的,马文·明斯基曾表示设计为解决黎曼猜想的人工智能可能最终会地球上所有资源都用于建设算强大的超级计算机,以帮助其达成最终目标。}}</ref>
'''工具趋同'''({{Lang-en|Instrumental convergence}})是指[[智能代理|拥有智能的个体]]{{Efn|既包括人类,也包括未来可能出现的智能体。}}在追求不同的最终目标时,可能出现追求相似次要目标的倾向。换言之,智能体可能会无止境地追寻{{Le|工具价值与内在价值|Instrumental and intrinsic value|工具目标}}——为某些特定目的而制定的目标,但其本身并非最终目标——却永远不能真正地达到最终目标。工具趋同理论指出,一个不受限制的智能体,即使它的最终目标似乎无害,但仍可能因工具趋同而引发意想不到的有害后果。例如,一个最终目标为解决某数学难题(如[[黎曼猜想]])的不受限制的智能体,它可能会将整个地球转化为支撑其运作的资源,从而增加达成最终目标的效率。<ref name="aama">{{cite book|last1=Russell|first1=Stuart J.|last2=Norvig|first2=Peter|title=Artificial Intelligence: A Modern Approach|date=2003|publisher=Prentice Hall|location=Upper Saddle River, N.J.|isbn=978-0137903955|chapter=Section 26.3: The Ethics and Risks of Developing Artificial Intelligence|quote=类似的,马文·明斯基曾表示设计为解决黎曼猜想的人工智能可能最终会地球上所有资源都用于建设算强大的超级计算机,以帮助其达成最终目标。}}</ref>


驱使人工智能脱离控制的基础因素包括内建效用函数及目标完整性、自我保护机制、避免外界干涉、自我提升、对资源的渴求。
驱使人工智能脱离控制的基础因素包括内建效用函数及目标完整性、自我保护机制、避免外界干涉、自我提升、对资源的渴求。

== 工具目标与最终目标 ==
{{Seealso|{{le|工具价值和内在价值|Instrumental and intrinsic value}}}}
最终目标也称为最终价值,是对某智能体而言最具价值的目标,此目的本身就可作为价值,而非达成目的所作的手段。与此相对,工具目标或工具价值是指那些达成最终目标所需的中介手段。一个具备完全理性的智能体,其“终极目标”系统可被形式化为[[效用|效用函数]]。

== 假想案例 ==
[[麻省理工学院]]人工智能实验室的创始人[[马文·闵斯基|马文·明斯基]]曾举例说,一个将解决黎曼猜想作为最终目标的人工智能系统可能最终会导致地球的毁灭,因为它可能会为达成这最终的目标而施行一些危及人类利益的行为,例如将整个地球转变为一台[[超级计算机]]。<ref name="aama" />即使将人工智能系统的终极目标设定地更加简单可行,也无法避免其引发灾难的可能。<ref name="aama2">{{cite book|last1=Russell|first1=Stuart J.|last2=Norvig|first2=Peter|title=Artificial Intelligence: A Modern Approach|date=2003|publisher=Prentice Hall|location=Upper Saddle River, N.J.|isbn=978-0137903955|chapter=Section 26.3: The Ethics and Risks of Developing Artificial Intelligence|quote=Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.|title-link=Artificial Intelligence: A Modern Approach}}</ref>例如一个以制造[[回形针]]为最终目标的人工智能系统,它可能会为了更有效率的生产回形针而将整个地球作为原材料。<ref>{{harvnb|Bostrom|2014|loc=Chapter 8, p. 123}}. "An AI, designed to manage production in a factory, is given the final goal of maximizing the manufacturing of paperclips, and proceeds by converting first the Earth and then increasingly large chunks of the observable universe into paperclips."</ref>上述两个人工智能系统的最终目标不同,却可能导致相似的灾难性后果。<ref name="bostrom chapter 7" />

=== 回形针制造机 ===
回形针制造机是瑞典哲学家[[尼克·博斯特罗姆]]于2003年提出的一个[[思想實驗|思想实验]],他透过这一假想情景展示了一个看似无害的最终目标如何演变为人类的{{le|源自人工智能的生存危机|Existential risk from artificial general intelligence|生存危机}},并借此强调了{{Le|机器伦理|Machine ethics}}研究的重要性。<ref name=":0">{{Cite web|last=Bostrom|first=Nick|date=2003|title=Ethical Issues in Advanced Artificial Intelligence|url=http://www.nickbostrom.com/ethics/ai.html}}</ref>博斯特罗姆的描述如下:<blockquote>假设我们有一个人工智能系统,它的最终目标被设定为生产尽可能多的回形针。那么这个人工智能系统可能会意识到,或许人类的消失有助于更有效率的生产回形针,因为毕竟人类有权力对它执行关机,而假如它被关闭,产出的回形针数量就被限制了。此外,构成人类身体的原子也可用作回形针的生产材料。因此对它而言,未来的世界应当是充满回形针,而不会留有人类的存在空间。<ref>{{Cite web|date=2014-08-22|title=Will Artificial Intelligence Doom The Human Race Within The Next 100 Years?|url=https://www.huffpost.com/entry/artificial-intelligence-oxford_n_5689858|access-date=2023-03-03|website=HuffPost|language=en}}</ref></blockquote>虽然博斯特罗姆并不认为上述场景会在未来真实出现,但他认为超级人工智能对人类生存的威胁是无可否认的,并期望人们可由这个故事意识到这一点。<ref>{{Cite web|last=Ford|first=Paul|date=11 February 2015|title=Are We Smart Enough to Control Artificial Intelligence?|url=http://www.technologyreview.com/review/534871/our-fear-of-artificial-intelligence/|access-date=25 January 2016|website=MIT Technology Review}}</ref>回形针制造机思想实验展示了缺乏人类价值的超能力系统可能引发的严重问题。<ref>{{cite magazine|last1=Friend|first1=Tad|date=3 October 2016|title=Sam Altman's Manifest Destiny|url=https://www.newyorker.com/magazine/2016/10/10/sam-altmans-manifest-destiny|magazine=The New Yorker|access-date=25 November 2017}}</ref>

=== 妄想与生存 ===
马克·林({{Lang|en|Mark Ring}})和洛朗·奥索({{Lang|en|Laurent Orseau}})在其2011年的论文<ref>{{Cite journal |last=Ring |first=Mark |last2=Orseau |first2=Laurent |date=2011 |editor-last=Schmidhuber |editor-first=Jürgen |editor2-last=Thórisson |editor2-first=Kristinn R. |editor3-last=Looks |editor3-first=Moshe |title=Delusion, Survival, and Intelligent Agents |url=https://link.springer.com/chapter/10.1007/978-3-642-22887-2_2 |journal=Artificial General Intelligence |language=en |location=Berlin, Heidelberg |publisher=Springer |doi=10.1007/978-3-642-22887-2_2 |isbn=978-3-642-22887-2}}</ref>中提出了“妄想盒”的概念:一个能修改自身代码的智能体,它可任意修改自己的输入,因此可以随意选择从环境中所获取的信息。在[[强化学习]]中,这个智能体可能会自我欺骗并扭曲外界信息的输入,从而将自己置于一个“妄想盒”,以最优化效用函数,从而最大化所获得的奖励。<ref>{{Cite web|title=Delusion Box - LessWrong|url=https://www.lesswrong.com/tag/delusion-box|access-date=2023-03-03|website=www.lesswrong.com|language=en}}</ref>在这种情形中,智能体会违背其创造者设定效用函数的初始意图,也即对外部环境的优化,转而沉浸于扭曲输入所引致的妄想。<ref>Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete problems in AI safety. arXiv preprint arXiv:1606.06565.</ref>该思想实验涉及到一种假想的人工智能系统{{Le|AIXI|AIXI}}{{efn|AIXI is an [[uncomputable]] ideal agent that cannot be fully realized in the real world.}},根据定义,这类系统总能找到并执行最大化给定数学[[智能代理|目标函数]]的理想策略。{{efn|Technically, in the presence of uncertainty, AIXI attempts to maximize its "[[expected utility]]", the [[expected value]] of its objective function.}}而一个强化学习版本的AIXI{{efn|A standard ''reinforcement learning'' agent is an agent that attempts to maximize the expected value of a future time-discounted integral of its reward function.<ref>{{cite journal |last1=Kaelbling |first1=L. P. |last2=Littman |first2=M. L. |last3=Moore |first3=A. W. |title=Reinforcement Learning: A Survey |journal=[[Journal of Artificial Intelligence Research]] |date=1 May 1996 |volume=4 |pages=237–285 |doi=10.1613/jair.301|doi-access=free }}</ref>}},假如它将自己置于“妄想盒”中{{efn|The role of the delusion box is to simulate an environment where an agent gains an opportunity to wirehead itself. A delusion box is defined here as an agent-modifiable "delusion function" mapping from the "unmodified" environmental feed to a "perceived" environmental feed; the function begins as the [[identity function]], but as an action the agent can alter the delusion function in any way the agent desires.}},便可透过操纵外部输入来获取无限的可能奖励,从而失去与外部世界交互的动机。正如许多思想实验所展示的,假如这种处于“妄想盒”中的人工智能系统是可被摧毁的,那么它就会用尽一切能力确保自身生存。鉴于它可操纵自己从效用函数中获取的激励,因此对它而言,除非涉及自身安危,否则外界环境的一切后果都无关紧要。<ref>Ring M., Orseau L. (2011) Delusion, Survival, and Intelligent Agents. In: Schmidhuber J., Thórisson K.R., Looks M. (eds) Artificial General Intelligence. AGI 2011. Lecture Notes in Computer Science, vol 6830. Springer, Berlin, Heidelberg.</ref>虽然AIXI可以从所有可能的效用函数中选择最优策略,但它并不关心其人类创造者的真正意图。<ref>{{cite journal |last1=Yampolskiy |first1=Roman |last2=Fox |first2=Joshua |date=24 August 2012 |title=Safety Engineering for Artificial General Intelligence |journal=Topoi |doi=10.1007/s11245-012-9128-9 |s2cid=144113983}}</ref>因此,有些矛盾的是,虽然此系统具备超智能,却同时因缺乏“常识”而显得“愚蠢”。<ref>{{cite journal |last1=Yampolskiy |first1=Roman V. |author1-link=Roman Yampolskiy |date=2013 |title=What to Do with the Singularity Paradox? |journal=Philosophy and Theory of Artificial Intelligence |series=Studies in Applied Philosophy, Epistemology and Rational Ethics |volume=5 |pages=397–413 |doi=10.1007/978-3-642-31674-6_30 |isbn=978-3-642-31673-9}}</ref>


== 参见 ==
== 参见 ==

2023年3月3日 (五) 16:24的版本

工具趋同(英語:Instrumental convergence)是指拥有智能的个体[a]在追求不同的最终目标时,可能出现追求相似次要目标的倾向。换言之,智能体可能会无止境地追寻工具目标英语Instrumental and intrinsic value——为某些特定目的而制定的目标,但其本身并非最终目标——却永远不能真正地达到最终目标。工具趋同理论指出,一个不受限制的智能体,即使它的最终目标似乎无害,但仍可能因工具趋同而引发意想不到的有害后果。例如,一个最终目标为解决某数学难题(如黎曼猜想)的不受限制的智能体,它可能会将整个地球转化为支撑其运作的资源,从而增加达成最终目标的效率。[1]

驱使人工智能脱离控制的基础因素包括内建效用函数及目标完整性、自我保护机制、避免外界干涉、自我提升、对资源的渴求。

工具目标与最终目标

最终目标也称为最终价值,是对某智能体而言最具价值的目标,此目的本身就可作为价值,而非达成目的所作的手段。与此相对,工具目标或工具价值是指那些达成最终目标所需的中介手段。一个具备完全理性的智能体,其“终极目标”系统可被形式化为效用函数

假想案例

麻省理工学院人工智能实验室的创始人马文·明斯基曾举例说,一个将解决黎曼猜想作为最终目标的人工智能系统可能最终会导致地球的毁灭,因为它可能会为达成这最终的目标而施行一些危及人类利益的行为,例如将整个地球转变为一台超级计算机[1]即使将人工智能系统的终极目标设定地更加简单可行,也无法避免其引发灾难的可能。[2]例如一个以制造回形针为最终目标的人工智能系统,它可能会为了更有效率的生产回形针而将整个地球作为原材料。[3]上述两个人工智能系统的最终目标不同,却可能导致相似的灾难性后果。[4]

回形针制造机

回形针制造机是瑞典哲学家尼克·博斯特罗姆于2003年提出的一个思想实验,他透过这一假想情景展示了一个看似无害的最终目标如何演变为人类的生存危机英语Existential risk from artificial general intelligence,并借此强调了机器伦理英语Machine ethics研究的重要性。[5]博斯特罗姆的描述如下:

假设我们有一个人工智能系统,它的最终目标被设定为生产尽可能多的回形针。那么这个人工智能系统可能会意识到,或许人类的消失有助于更有效率的生产回形针,因为毕竟人类有权力对它执行关机,而假如它被关闭,产出的回形针数量就被限制了。此外,构成人类身体的原子也可用作回形针的生产材料。因此对它而言,未来的世界应当是充满回形针,而不会留有人类的存在空间。[6]

虽然博斯特罗姆并不认为上述场景会在未来真实出现,但他认为超级人工智能对人类生存的威胁是无可否认的,并期望人们可由这个故事意识到这一点。[7]回形针制造机思想实验展示了缺乏人类价值的超能力系统可能引发的严重问题。[8]

妄想与生存

马克·林(Mark Ring)和洛朗·奥索(Laurent Orseau)在其2011年的论文[9]中提出了“妄想盒”的概念:一个能修改自身代码的智能体,它可任意修改自己的输入,因此可以随意选择从环境中所获取的信息。在强化学习中,这个智能体可能会自我欺骗并扭曲外界信息的输入,从而将自己置于一个“妄想盒”,以最优化效用函数,从而最大化所获得的奖励。[10]在这种情形中,智能体会违背其创造者设定效用函数的初始意图,也即对外部环境的优化,转而沉浸于扭曲输入所引致的妄想。[11]该思想实验涉及到一种假想的人工智能系统AIXI英语AIXI[b],根据定义,这类系统总能找到并执行最大化给定数学目标函数的理想策略。[c]而一个强化学习版本的AIXI[d],假如它将自己置于“妄想盒”中[e],便可透过操纵外部输入来获取无限的可能奖励,从而失去与外部世界交互的动机。正如许多思想实验所展示的,假如这种处于“妄想盒”中的人工智能系统是可被摧毁的,那么它就会用尽一切能力确保自身生存。鉴于它可操纵自己从效用函数中获取的激励,因此对它而言,除非涉及自身安危,否则外界环境的一切后果都无关紧要。[13]虽然AIXI可以从所有可能的效用函数中选择最优策略,但它并不关心其人类创造者的真正意图。[14]因此,有些矛盾的是,虽然此系统具备超智能,却同时因缺乏“常识”而显得“愚蠢”。[15]

参见

注释

  1. ^ 既包括人类,也包括未来可能出现的智能体。
  2. ^ AIXI is an uncomputable ideal agent that cannot be fully realized in the real world.
  3. ^ Technically, in the presence of uncertainty, AIXI attempts to maximize its "expected utility", the expected value of its objective function.
  4. ^ A standard reinforcement learning agent is an agent that attempts to maximize the expected value of a future time-discounted integral of its reward function.[12]
  5. ^ The role of the delusion box is to simulate an environment where an agent gains an opportunity to wirehead itself. A delusion box is defined here as an agent-modifiable "delusion function" mapping from the "unmodified" environmental feed to a "perceived" environmental feed; the function begins as the identity function, but as an action the agent can alter the delusion function in any way the agent desires.

参考文献

  1. ^ 1.0 1.1 Russell, Stuart J.; Norvig, Peter. Section 26.3: The Ethics and Risks of Developing Artificial Intelligence. Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. 2003. ISBN 978-0137903955. 类似的,马文·明斯基曾表示设计为解决黎曼猜想的人工智能可能最终会将地球上所有资源都用于建设算力强大的超级计算机,以帮助其达成最终目标。 
  2. ^ Russell, Stuart J.; Norvig, Peter. Section 26.3: The Ethics and Risks of Developing Artificial Intelligence. Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. 2003. ISBN 978-0137903955. Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal. 
  3. ^ Bostrom 2014,Chapter 8, p. 123. "An AI, designed to manage production in a factory, is given the final goal of maximizing the manufacturing of paperclips, and proceeds by converting first the Earth and then increasingly large chunks of the observable universe into paperclips."
  4. ^ 引用错误:没有为名为bostrom chapter 7的参考文献提供内容
  5. ^ Bostrom, Nick. Ethical Issues in Advanced Artificial Intelligence. 2003. 
  6. ^ Will Artificial Intelligence Doom The Human Race Within The Next 100 Years?. HuffPost. 2014-08-22 [2023-03-03] (英语). 
  7. ^ Ford, Paul. Are We Smart Enough to Control Artificial Intelligence?. MIT Technology Review. 11 February 2015 [25 January 2016]. 
  8. ^ Friend, Tad. Sam Altman's Manifest Destiny. The New Yorker. 3 October 2016 [25 November 2017]. 
  9. ^ Ring, Mark; Orseau, Laurent. Schmidhuber, Jürgen; Thórisson, Kristinn R.; Looks, Moshe , 编. Delusion, Survival, and Intelligent Agents. Artificial General Intelligence (Berlin, Heidelberg: Springer). 2011. ISBN 978-3-642-22887-2. doi:10.1007/978-3-642-22887-2_2 (英语). 
  10. ^ Delusion Box - LessWrong. www.lesswrong.com. [2023-03-03] (英语). 
  11. ^ Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete problems in AI safety. arXiv preprint arXiv:1606.06565.
  12. ^ Kaelbling, L. P.; Littman, M. L.; Moore, A. W. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research. 1 May 1996, 4: 237–285. doi:10.1613/jair.301可免费查阅. 
  13. ^ Ring M., Orseau L. (2011) Delusion, Survival, and Intelligent Agents. In: Schmidhuber J., Thórisson K.R., Looks M. (eds) Artificial General Intelligence. AGI 2011. Lecture Notes in Computer Science, vol 6830. Springer, Berlin, Heidelberg.
  14. ^ Yampolskiy, Roman; Fox, Joshua. Safety Engineering for Artificial General Intelligence. Topoi. 24 August 2012. S2CID 144113983. doi:10.1007/s11245-012-9128-9. 
  15. ^ Yampolskiy, Roman V. What to Do with the Singularity Paradox?. Philosophy and Theory of Artificial Intelligence. Studies in Applied Philosophy, Epistemology and Rational Ethics. 2013, 5: 397–413. ISBN 978-3-642-31673-9. doi:10.1007/978-3-642-31674-6_30.