人工智能与语言_第1页
人工智能与语言_第2页
人工智能与语言_第3页
人工智能与语言_第4页
人工智能与语言_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能与语言

1.1人工智能是指机器对人类智能的描述。这是自计算机科学出版以来的一个新兴边缘学科。计算机的使用和用户体验的培养,以及人们能够接收和处理信息的能力,已经成为一门只有人才能够胜任的工作。虽然人工智能所包括的内容有图象和模式识别、逻辑定理求证、机器翻译和自然语言理解等一系列研究课题,但就其核心来说,自然语言理解占有其特殊的地位。因为自然语言的习得和运用的语言智能,是人类认识和了解世界最基本的智能,也是人类所具有的区别于其它动物的最为复杂和最为独特的一种智能。如果计算机具备了这一智能,其它智能就可能较为容易解决。因此,人工智能在某种程度上说来可以看成是人类语言智能的摸拟,涉及到一系列语言学问题。2.1作为人类自然语言智能的摸拟,自然语言理解(understandingofnaturallanguage)首先面临的是自然语言和人工语言的关系及其转换的可能性问题。所谓自然语言理解,就是人们通常意义下的人机对话,也就是通过某些程序,让计算机自动分析和处理自然语言,完成自然语言和人工语言之间的相互转换,以便人和计算机能够直接对话交流。由于人类社会所使用的是诸如英语、汉语等自然语言,而计算机使用的则是高度形式化了的人工语言。要达到人机对话交流这一目的,就必须了解自然语言与人工语言的特殊关系,找到两者间的相同和可以转换的地方。语言作为信息的载体,是人类思维的物化过程。因此,要找到自然语言和人工语言的相同之处和可以转换的地方,揭示两者之间的对立统一关系,就必须对其符号性质及其功能作一番研究。2.2一般说来,从语义学角度看,人类自然语言是一种作为模糊动态系统的语言,由于其特殊的交际功能和符号功能,使得自然语言中大多数语言单位均构成一种相容集合和模糊集合。相容集合是指语言单位的意义处于某种相似关系,不允许完全对等互换;模糊集合则是指语言单位意义边缘的模糊性和游离性,所表示的概念往往难以给出一个绝对精确和明晰的界说。例如,在自然语言中,同义词之间并非是一种绝对的对等互换关系,其间往往存在着上下义的包容关系。另外,一个词的内涵与外延之间也非一对一的关系,自然语言的词汇中经常出现一词多义现象。从语用角度看,一个词相对固定的指名意义与语用中的具体使用意义间也还存在一定的矛盾。与此相反,人工语言是作为一种明晰的静态系统语言。在这一高度形式化的语言中,其语言单位意义均构成非模糊的对等集合,语义指称对象在这一系统中占有严格固定的位置,这种位置又用该语言的严格确定关系来表示。在人工语言中,虽然我们可以任意设定某个符号来指称一个客体或代表一个命题,但一旦符号及其指称关系确定之后,不但其内涵和外延处于一种明晰的对等状况,其指称意义和使用意义也不会随着语境和上下文关系的变化而变化。2.3作为模糊动态系统的自然语言虽然与作为明晰静态的人工语言相去甚远,但两者之间毕竟存在着可以沟通的地方。其最为基本的共同之处在于作为信息的载体,自然语言和人工语言都具有逻辑意义的内涵同构。人工语言是人们为了控制电子计算机而编制出的一套高度形式化的逻辑程序语言,虽然其编码是由二进制符号“0”和“1”组成,但其程序的演绎仍是以逻辑的真伪为依据。自然语言中每一话语语句中也都存在着隐性的逻辑特征,人们理解语言和获取信息的过程往往也是一种从逻辑意义上判断真伪的过程。因此,有的语言学家认为自然语言和人工语言之间并不存在一道不可逾越的鸿沟,自然语言同样可以用逻辑和数学的方法来进行研究。例如:判断ChinaistothewestofPacificOcean一句的真伪,其成真条件是世界上分别有China和PacificOcean各自所指称的客体,两者所指称的客体必须处于istothewestof所表示的空间关系中。该句实际上构成了一个从二元关系到真值(“0”或“1”)的特征函数。设c=China,p=PacificOcean,W=istotheWestof,通过谓词演算,如果W(c,p)=1,该句为真;如果值域为“0”,则该句为假。电子计算机在其信息的处理和演绎过程中,要判断输入话语的真伪,也是遵循这一过程。必须先找出输入话语信息的成真条件,然后才能作出相应的理解和判断。计算机理解语言的过程实际上就是自然语言和人工语言相互转换的过程。由此可见,无论自然语言和人工语言,都具有某些位于更高的逻辑-信息平面上的原概念。这些概念能在一定程度上克服和消解语言和言语、模糊与明晰、以及相容与对等集合之间的矛盾。此外,作为信息载体的语言,由于人类思维的共性和经验的相似性,某些语法语义单位都带有某种普遍性,人工语言和自然语言都必须遵守句子结构的某些普遍形式原则。再加上人工语言的概念语义系统是在自然语言的语义和人的经验基础上建立起来的,人工语言中又引进了某些具有语法结构和语义解释的符号系统。这在目前计算机自然语言理解常用的诸如prolog等智能语言中极为常见。这些都为自然语言向人工语言的转换提供了可能,也为计算机自然语言理解研究的可能性和可行性提供了可靠的理论依据。3.1人类语言智能的过程是人类通过以语言和思维为核心的活动而获取知识和认识世界的过程。作为人工智能核心课题的自然语言理解,实际上正是用电子计算机对人类语言这一过程进行的摸拟。计算机自己本身并没有智能可言,不可能自行理解人类社会的自然语言。要使计算机理解自然语言,就必须赋予计算机一定的“语言智能”,即根据某种“语言智能”过程的假设给计算机编制出一套详细而准确的程序模式来摸拟人理解自然语言的过程。这就要求我们对自然语言的结构系统有一个比较清楚合理的认识,找出其语法、词汇、句型和语义之间的关系,并制定出一套较为严密的分析方法和形式化的表达手段。要作到这一点,就必须借助于一定的语言学研究成果。3.2目前,计算机自然语言理解已经经历了两代系统,正在进入第三代系统的酝酿。从全世界已有的数十种自然语言理解系统来看,它们都是依据了一定的语言学理论,并在一定的语法和语义分析原理与方法上建立起来的。早期的自然语言理解系统是建立在以纯粹的形式主义观点解释语言的基础上的。这些系统只是从结构角度考虑语句中的句法信息以及词本身的部分语义信息,因而语义分析能力极为有限,很难处理自然语言中的歧义现象。当时的SAD-SAM和BASEBALL等系统都只能在极为有限的范围内进行人机对话,处理极为有限的信息。后来,人们注意到语言理解的过程是运用一切有关知识和智力来理解内容和获取信息的过程,仅仅局限于一个孤立语句的结构分析是远远不够的,根本不能说明语言交流和信息获取的过程。因此,人们把注意力开始转向了语义分析,在语义的形式和表达上进行了大量的研究。其代表有香克(R.Schank)的“概念从属理论”(conceptualdependence),吴兹(W.A.Woods)的“扩充转移网络”(ATN)和维诺格拉德(T.Winograd)的“积木世界”(SHRDLU)等。3.3香克的“概念从属理论”是以语义网络为基础的一套符号系统。网络中的节点被用来代表概念,节点之间的连线用来表示已知的关系。这是一种心理学模式,用以解释人们怎样表述句子的意义。早在1963年,语言学家凯茨(Katz)和福德尔(Fodor)就提出了一种观点,认为有一套固定的原概念(primitives)可以用来建构所有的意义。香克在这一基础上,设计出一种原行为(primitiveactions),通过组合来表达世界上所发生的任何事件。与香克的原行为发生关系的是一组深层结构的中项位,负责对每一具体行为分别加以不同的填充。例如在表述“力的实施”(PROPEL)这一原行为时,必须具备行为者(actor)、行为对象(object)和方位(direction)。“概念从属理论”被设计为一种独立的符号系统,使用时不依附于任何一门特定的语言,目的是能使其成为不同语言转换的中介语(interlingua)。3.4吴兹的LUNAR系统是用“扩充转换网络”构建的一套自然语言理解系统,帮助地质学家分析和评价有关月球岩石和土壤组成成分。从理论上讲,“扩充转换网络”是建立在用逻辑表述自然语言意义的观点之上,其使用的语言也属一种逻辑语言。该系统的语义解释部分就是通过由标志符、语句和指令等三部分构成的形式提问语言来对所需处理的语句作出语义解释,属于形式语义学范围。因此,用逻辑表述自然语言的目的,就是通过形式语义学和语言哲学的研究,对自然语言怎样表述意义作一番形式的解释。几乎所有计算机语言理解模式都应用了其中的某些概念。例如组合性原则的应用。组合性原则又叫弗雷格原则,认为任何短语的意义可以由其组成部分的意义操作运算获得。例如要对某一语句进行描述,得出该语句的意义,可先找出单词的意义,然后组合成短语。以此类推,直到形成整个句子的意义。3.5维诺格拉德的“积木世界”自然语言理解系统的句法分析是根据语言学家韩礼德(M.K.Halliday)的系统语法(systemicgrammar)理论设计成功的。维诺格拉德认为,人们在阅读某个语句时是运用其全部知识和智力来理解的,其中包括有关语法、上下文、世界知识、句子主题和句法特征等方面,而语句主题和句法特征又最为主要。系统语法也把句法特证看得极为重要,因为系统语法强调语言的系统性,认为语言包含许多子系统,而句法的每个特征则是系统中的一个子系统项。该系统处于同其它系统的等级和同时关系的位置,而这一位置又属于多系统的。要对一个系统进行识别和配属特征,必须取决于其所处说明的上下文之中对比的潜力。按照韩礼德的观点,系统是指语言的聚合关系。虽然语言主要是由语句、词组和词三级单位组成,但语言分析根本的着眼点则在于造句时对句法特征选择的分析。不同语言的句法特征有不同的固有表现形式,就英语来说,句首的词往往代表整个语句的特征。“积木世界”是一套问答理解系统。因此,该系统根据上述情况来识别句法特征,再按照系统语法逐层分解句子,最后求得理解。4.1人工智能在自然语言理解中出于研究的需要,既要借助于一定的语言学理论和语言学研究成果,同时也对语言学理论和语言学研究成果提出了一系列新的要求与研究课题。从目前的一些自然语言理解系统的试验模型来看,所借鉴和利用的语言理论都存在着某些不尽如人意和不足之处。如前所述,人们理解语言的过程是运用一切有关知识和智力来理解内容和获取信息的过程,仅仅局限于一个孤立语句的结构分析是远远不够的,不能描述和说明语言交流和信息获取的过程,满足计算机自然语言理解的需要。因此,还必须注意上下文语义和客观环境的影响等因素的分析。此外,自然语言是一种作为模糊动态系统的语言,语言单位的相容集合和模糊集合使得许多词语所表达的概念都不能有一个绝对精确和明晰的界说,其所指范围往往总是随着交际情境和上下文的变化而改变。这样就导致了某些语义的模糊和歧义。再加上自然语言语言单位的相容和模糊集合同人工语言语言单位的对等和非模糊集合之间的矛盾,使得自然语言向人工语言转换过程中某些语义信息的丧失。这些都是计算机自然语言理解过程中急需解决的问题,也是目前语言学理论研究所面临的重大研究课题。4.2对于歧义和模糊问题的研究,一直是语言学家和人工智能专家所共同关注的课题。自然语言由于语言的相容集合与模糊集合,使得语言描写的各个层面上都存在着不同程度的模糊和不确定性。在词汇层面上,除一词多义外,同一个词的同一意义在不同的上下文和使用场合可能会具有不同的涵义,同一个词的不同搭配也会带来意义的改变。在句法结构层面上,同一语句往往可作不同的结构分解,不同的结构分解又可带来不同的语义解释。因此,自然语言理解系统的程序必须为模糊和歧义问题的解决提供必要的说明,涉及到指定特定的附加机制来过滤不恰当的句法和语义分析。4.3凯茨和福德尔提出的选择限制(selectionalrestriction)是自然语言理解系统中采用最多的一种附加过滤机制。按照选择限制的观点,即使某个单个的单词或许有多种可能的意义,但在作为整体的句子中却是非歧义性的。就单词的意义而言,我们既要看到其限定意义特征的语义标志,也不能忽略意义特征可能的伴随条件。例如,在yellowspirit中,spirit一词可具有多种含义。当其表达“酒液”时具有“物质体”的语义标志,而作为“精神”的含义时却没有。当形容词yellow用来描述一种颜色时,要求被修饰的名词应具有“物质体”的语义标志,而作为“怯懦”用时,则要求被修饰的名词具有“生命体”标志。如果spirit一词在这一短语中没有“生命体”标志,yellowspirit在这里就只能表现为“黄色的酒液”一种可能意义。语义标志的应用虽然只是一种未经修饰的机制,却具有计算机效应,特别是在限定的范围内。4.4蒙太古语法(Montaguegrammar)对自然语言的描写和分析被看成是组合性原则运用的重要体现。按照蒙太古语法的观点,自然语言中许多悬而未决的语义现象可在严格的组合性原则范围内进行操作运算并加以形式的验证。蒙太古语法系统中包括有一套句法规则和语义规则,两套规则处于一对一的并行匹配中。每当应用某条特定的句法规则进行操作运算时,同时也伴随有一条相应的语义规则运算。当这条规则将一些句法项通过运算组合一个新的句法项时,语义规则也将相应的语义项组合为一个与新句法项相对应的新语义项。因此,两套规则总是以一种对应和匹配的关系并行进行操作运算的。美国布朗大学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论