-
>
心灵元气社
-
>
县中的孩子 中国县域教育生态
-
>
(精)人类的明天(八品)
-
>
厌女(增订本)
-
>
这样学习才高效/杨慧琴
-
>
心理学经典文丛:女性心理学
-
>
中国文化5000年
汉字部首解说
¥10.4¥14.8现代汉语新型构式的语义认知研究
¥35.9¥49.8中国语言问题散论
¥25.2¥42.0面向汉语国际教育的语法研究与教学
¥24.0¥40.0事实挖掘与理论探索:汉语语法问题的多维思辨
¥12.6¥42.0
汉语产词语法功能考察及词类体系构建 版权信息
- ISBN:9787500465454
- 条形码:9787500465454 ; 978-7-5004-6545-4
- 装帧:暂无
- 册数:暂无
- 重量:暂无
- 所属分类:>
汉语产词语法功能考察及词类体系构建 本书特色
中文摘要
随着信息社会对信息自动化处理要求的不断提高,越来越需要
计算机能对自然语言进行深层分析,比如文本校对、机器翻译、自
动文摘等等,这就要求我们为计算机提供尽可能多的语言知识尤其
是语法知识,使其能够进行正确的分析进而做到真正的“理解”。
现有的汉语语法体系,可以说已经研究得比较深入了,但其主要是
面向人的,面对计算机这个新的交际伙伴,其研究成果还是显得有
些粗糙。因此,要真正实现信息自动化处理,必须加大汉语语法研
究的力度,加细语法刻画的颗粒度,构建真正适合计算机处理自然
语言需要的汉语词类体系。本书正是在这样的服务宗旨下展开研
究的。
本书研究主要从如下三个方面展开:
1.以语料库为信息源,采用统计并辅以内省的方法,详细考
察了名词、动词、形容词和副词中高频的3514个词的语法功能,
构建了语法功能信息库,并以信息库中统计的数据为依据,彻底贯
彻“按照词的语法功能划分词类的标准”,依据“句法功能完全相
同即为一类”的原则,对3514个常用词进行了分类,*终分出
676类,其中,一词一类的有364类,两词一类的有107类,两词
以上同类的有205类,对于一词一类和两词一类的,我们放到词典
里描述,剩下的205类就是新实词词类体系所包含的类别。
2.从句法功能复杂度和分类结果两个方面对现有的词类体系
和我们构建的词类体系进行了对比研究。研究结果表明,只有
lO.1%的词在两种体系中的句法功能复杂度是相同的,而有
84.1%的词在旧体系中的句法功能复杂度是高于新体系的。这说明
现有的词类体系夸大了汉语中词的多功能现象,归属同一类别的
词,不管是有1项功能还是具有10项功能都给以相同的标记显然
有失偏颇,不能客观地反映汉语的实际情况。另外,从分类结果
看,新体系中存在一个词类包含旧体系中多个词类的情况,这说明
旧体系通过找“特点”来为词归类的做法不可取,必须在详细考
察的基础上才能做到“词有定类”。
3.从清华大学100万字的汉语句法树库中提取了l 1206个v+v
序列和10081个v+n序列进行了考察。前一种序列匹配后只有一
种句法关系的有2679种组合模式共10296个实例,正确率分别为
82.9%和91.9%。后一种序列匹配后只有一种句法关系的有1462
种组合模式共7189个实例,正确率分别为70.7%和71.3%。其他
有两种以上句法关系的模板,尽管不能确定具体实例中究竟是哪种
关系,但相对于旧体系来说,其歧义的数量大大减少了。统计结果
表明,新体系在外显式歧义结构的消解和基本名词短语的识别方面
都起到了很好的作用。
关键词:句法功能;词类体系;句法分析;歧义消解
汉语产词语法功能考察及词类体系构建 节选
r />
前言
一课题的提出
本书的研究工作是以大规模语料为基础,在充分考察每一个实
词语法功能的基础上自底向上地重构现代汉语实词词类体系。这是
一种彻底按照词的句法功能标准重构汉语实词词类体系的尝试,同
时也为计算机进行自动句法分析提供更详细完备的句法信息,以期
减少句法分析中的结构歧义现象。
在过去的语法研究中,有关现代汉语词类问题一直是语言学界
关注的焦点,诸多语言学家曾投人大量精力进行了深入研究,形成
了现代汉语词类体系,但其研究的服务对象主要是面向人的。随着
计算机科学技术飞速发展以及信息社会对信息自动化处理的要求不
断提高,语法研究的应用对象由过去面向人发展到现在不仅面向人
还面向计算机,而且后一个方面显得越来越迫切和重要。鉴于此,
本书的研究工作由以往主要是面向人的语法研究转向主要面向计算
机。目前的信息处理技术,比如文本校对、机器翻译、自动文摘等
越来越多地需要对自然语言进行深层分析。开发这类应用系统,就
要求我们为计算机提供尽可能多的有关自然语言知识和非语言知
识,前者又包括句法知识、语义知识乃至语用知识等等。
衡量一个自然语言处理系统的水平,可以看它处理到语言单位
中的哪个层级,同时更要看它对不同性质的语言知识掌握到什么程
度。无论是比较传统的基于规则的处理策略,还是基于统计的方
法,在对语言知识的需求这一点上实际都是一致的。所不同的是,
采用基于规则方法的研究者一般诉诸专家的理性知识,由人根据已
有的知识储备来对语言知识进行抽象,比如根据一个词能作主语、
宾语、定语、中心语等功能给以名词“n”的标记;而采用基于统
计方法的研究者一般求助于计算机对大规模语料库进行统计分析,
由计算机来抽象出语言知识,比如以一定的数据结构记录统计结果
等。两种研究方法孰优孰劣,不能笼统判断,只能跟具体的应用目
标结合起来,由实践结果来评价。统计方法已经在像语音识别、自
动分词和词性标注这样相对浅层的自然语言处理中有不俗表现,但
在深层分析方面,比如分析句子的树结构或者句法成分的语义关系
等领域还没有显示出特别的优势。于是又有学者提倡把两种方法结
合起来使用,比如通过统计,给出带有概率值的规则。在我们看
来,无论采用哪种方法,首先都要求人自身先对自然语言有深入的
了解。就规则方法来讲,这一点是显然的;就统计方法来讲,虽然
不那么明显,但道理也是一样的。现有的对自然语言深层知识的统
计,一般是建立在经过标注的熟语料库基础上的,而从生语料库到
熟语料库,就具体的加工方式而言,当然有人工方式,也有计算机
自动加工方式或者人机互助的方式等等,但加工什么内容,标注哪
些信息,仍然取决于人对自然语言的认识。
具体到中文信息处理方面,如果从宏观上以处理对象的单位大
小为指标来看,中文信息处理在汉语的字处理方面已经比较成熟,
词处理阶段的形式方面比如说分词和词性标注等已经取得了一定的
成果,并且基本上可以达到应用的目的,词的意义处理、词组和句
子的结构处理还比较薄弱,至于篇章处理和各层次的环境处理还在
摸索中。目前的研究主要在句子一级展开,包括自动分析句子的内
部句法关系、给出结构成分间的语义关系等不同深度的分析。单就
自动句法分析来看,作为汉语研究者需要考虑这样两个问题:一是
从自动句法分析的需要考虑,重点应该为计算机提供哪些语言知
识;二是现有的技术条件和语言学研究水平又能够为计算机提供
多少。
基于对上述两个问题的思考,选择了本研究课题。
对于**个问题的回答,主要是根据中文信息处理已有的研究
成果和从目前的实际需要出发,初步确定了本课题研究的主要内
容。一般来说,自动句法分析的操作对象是句子或短语的词类标记
序列,“客观的句法分析只能根据词类的标记序列来推知句法结
构,如果词类问题没有解决好,或者词类和句法分析脱钩,那就无
法根据词类序列去分析句法结构,这样就会影响整个语法体系的科
学性和实用价值。”①由此看来,要进行自动句法分析,除了要为
计算机提供必要的语义知识、词语搭配知识以及关于客观世界的知
识外,更重要的是要为其提供比较完备的语法知识,尤其是语法基
础的词类知识。从20世纪80年代中后期开始直到现在,研究人员
已经在汉语词语的语法功能分类和属性特征描述方面开展了卓有成
效的工作,希望为计算机分析汉语句子结构打下一个很好的基础。
但实际上,这个“基础”并不能真正满足计算机进行自动句法分
析的需要,因为其分类并不是在详细考察每个词的语法功能的基础
上进行的,所以目前迫切需要解决的问题是,对汉语实词的句法功
能进行全面系统的考察,在这个考察过程中得到的结果,不仅可以
检验以往对词的语法知识的概括是否合适,从而进行相应的调整;
而且可以根据统计分析的结果为自动句法分析构建比较合理的实词
词类体系,这样的知识对于没有任何隐含知识的计算机来说是进行
句法分析必不可少的。只有尽可能地把每类词的句法功能描述清
楚,为计算机提供更加精细和完备的词类体系,才能指导它分析出
正确的句子结构,给出正确的语义解释。而从发展趋势来看,越来
越多的高级自然语言处理应用系统的研究与开发,诸如信息提取、
机器翻译等,也都离不开这样的语法知识的支持。
对于第二个问题的回答,则主要是结合我们对目前现代汉语词
类体系以及自动句法分析的具体需要这两方面的认识,大致确定了
本课题研究应该追求的合理目标。从历史上看,汉语的词类体系是
以印欧语语法的词类体系为蓝本的。尽管经过几代语言学家的研
究,根据汉语的实际情况作了一些局部调整,比如增加了量词、助
词和语气词,从形容词中分出区别词等等,这些局部调整的确不乏
闪光之处,但是基本的格局没有改变,依然无法摆脱模仿的痕迹。
由于始终摆脱不掉印欧语词类体系的羁绊,所以*终导致汉语词类
划分并不是严格地按照词的语法功能来进行的。特别是实词分类,
似乎名词、动词、形容词是生来就有的、不必加以验证的词类。尽
管说语言学界对词类问题进行过几次大讨论之后逐步达成共识,认
识到语法功能是词类划分的唯一标准,但在实际操作中,这一标准
并没有被真正彻底地贯彻。就现有的词类体系看,“不管哪种类
型,也不管是哪个版本,无一不带有先验性。它们都不是对客观存
在的词进行全面分析和全面归纳的产物,而是先由语法学家所构拟
然后又由语法学家加以解说的框架,这样的框架必然带有语法学家
的成见和缺陷。”①具体说来有这样几个方面:(1)每个词类到底
有哪些语法功能,这一点很不明确,一般的语法书上仅列出几条
“语法特征”。例如,说名词可以受数量结构修饰;不能受副词修
饰;可以作主语、宾语等等,但即便是这几条特征也往往缺乏普遍
性。(2)属于同一词类的词,其语法功能可能有很大差异。例如,
“领导”可以作主语、宾语、定语、体词性偏正结构的中心语等,
而名词“期间”只具备上述功能的*后一项。(3)不同词类的词,
其语法功能也许反而相似。例如,形容词“富裕”跟动词“信
任”,形容词“虚假”跟名词“实物”等等。(4)一些词的语法
功能没有得到充分的描写。例如, “期间”用在体词性偏正结构
中,另一直接成分通常是动词或动词性结构,把“期间”看作名
词或现有词类体系中的其他词类都不太合适。(5)缺乏对词的各
种语法功能的定量描写。例如,一个词能作主宾语的概率是多少,
作谓语的概率是多少,这种数据对于自动句法分析很有用处。①目
前还只有对词类语法功能频率的一些小规模调查。这样粗糙的词类
体系在句法分析中能起到多大作用呢?我们不妨举个例子来看一
下。例如“接待/v两/m位/q领导/n期间/n”这个短语,计算机
在进行自动句法分析时,处理的是这样一个词类标记序列:
VT M Q N N
我们希望给计算机提供一套形如“NP+VP—s”的句法规则
后能够得到正确的句法分析结果,实际上这样的句法分析难度是很
大的。任何一位读者,如果仅仅知道VT、M、Q、N分别代表及物
动词、数词、量词、名词,不看具体的词语序列,都很难确定标记
序列所对应的是哪一种句法结构,更何况是机器。对于这样的情
况,计算机只能给出所有可能的句法结构。对于上述例子,在人看
来是没有句法歧义的,因为人看到词语序列中的每个词语时都能激
活跟具体词语相联系的许多知识,而在计算机看来却是充满歧义
的。怎样才能使计算机在分析的过程中自动选择正确的结构分析,
那就只能尽量为计算机所面对的每一个词类标记提供尽可能详细的
信息。就现有的词类体系看,“领导”和“期间”的语法功能差别
很大却给以相同的标记,这样粗糙的词类知识,难以有效地支持自
动句法分析。诚然,自动句法分析中的歧义现象并非都是由语法方
面的因素造成的,还有语义等其他方面的一些因素,所以我们构建
的实词词类体系,并不奢望能解决自动句法分析中碰到的由于复杂
语义和篇章层面等因素造成的诸多问题,只是期望对因句法关系的
不同而产生的歧义能起到一定的作用。
在整个研究过程中,面对上述**个问题,促使笔者关注这项
研究的实用价值,而对第二个问题的思考,则引导笔者从计算机的
角度来对现有的现代汉语语法理论和具体的语言研究工作进行评
第四章
新旧词类体系的对比研究
现有的各家词类体系,不管采用何种分类标准,总的说来是大
同小异的。**个层次上的分类,数目多少会有差别,名称术语也
不一致,但是结合第二个层次上的小类或者说附类总体考虑,会发
现这些差别大多是非实质性的。因为大类和小类在不同的词类体系
中可以上下浮动,两者之间并没有绝对界限,所以说是非实质
性的。
现在争议较多的、分歧较大的是三大类实词的句法功能问题、
兼类问题,以及某些类的范围问题。后两个分歧,不是本文研究的
重点,所以在此不展开讨论。我们关注的重点是各类词究竟具有哪
些句法功能,只有功能确定了,才便于进行句法分析。对于三大类
实词的句法功能问题,尽管各家词类体系列举的都是每类词的主要
语法功能,但是也不尽相同。为了跟新体系的实词句法功能进行对
比,我们首先对目前具有代表性的几家词类体系的实词句法功能研
究情况进行了梳理。
**节三大类实词的句法功能
汉语中的词不像印欧语那样有丰富的形态变化,所以不论一个
词可以出现在多少语法位置上,其词形都是相同的。汉语词在句法
上的这种多功能现象,使语法学界在三大类实词的句法功能问题上
存在分歧。汉语中词的多功能现象究竟严重到什么程度?能不能加
以适当处理,找到一种可操作的解决办法?带着对这两个问题的思
考,我们根据比较权威的朱德熙《语法答问》、《语法讲义》、黄伯
荣、廖序东《现代汉语》、胡裕树《现代汉语》、陆俭明《现代汉
语语法研究教程》等几部语法著作以及其他一些比较有影响的论
文,对现有的词类体系中提到的这三类词的句法功能进行了梳理。
一名词的句法功能
根据统计,现有词类体系认为名词的句法功能主要有以下
几种:
1.能作主语,如:
卫星发射成功。
2.能作宾语,如:
去信阳罗山、光山看亲戚。
3.能作定语,如:
生产力是生产关系的物质基础。
4.能作谓语,如:
今天周末。
5.能作状语,如:
集体参加课外活动。
我们电话联系。
6.能作宾语,如:
把书递给我。
7.能作中心语,如:
学校领导给我们提出了几点建议
给我一些纸。
二动词的句法功能
根据统计,动词的句法功能汇总结果如下:
1.能单独作谓语,如:
你来我很高兴。
我上学,他上班。
2.能受副词“不”或“没有”修饰,我们称这种功能为
中:,如:
不思考就不会进步。
她今天没有来。
3.能带宾语,我们称这种功能为述语。,如:
作为新一代的接班人,要勇于探索,勇于创新。
满脸皱纹的老农,放下了手中的工具,开始讲述当年的情景。
4.能作补语,如:
他工作了60年之后,才从总裁的岗位上退下来。
教练、队医、心理老师以及父母的帮助鼓励下,他逐渐地调整
过来。
5.能作动词的宾语,我们称这种功能为宾,如:
同时,积极推进城镇医药卫生体制的改革,打破垄断。
我的夫人以及代表团的每位成员都深受感动。
6.能带补语,我们称这种功能为述,如:
部分比赛紧张激烈,秩序井然,一些场次的比赛踢得较为
精彩。
奥运火炬将于明天抵达澳大利亚,在澳境内传递历时100天。
7.能作状语,如:
对棉花、石油等战略物资运输优先安排。
《上海星报》等英文报刊的全文供读者免费查阅。
8.能作主语,如:
我们一方面资源短缺,供给不足。
汉语产词语法功能考察及词类体系构建 作者简介
p>作者简介
徐艳华,女,1976年生,山
东烟台人,2003年获烟台师范学
院文学硕士学位,2006年获南京
师范大学文!学博士学位,现为
-
字海探源
¥25¥78 -
《标点符号用法》解读
¥8.3¥15 -
文言津逮
¥10.2¥28 -
那时的大学
¥12¥28 -
现代汉语通用字笔顺规范
¥19.6¥58 -
2020年《咬文嚼字》合订本
¥23.8¥60