选举罕见的论文,超卓
也说“汉语词汇量”
持久以来,汉语不单以难学著称,并且还经常被责备为词汇欠缺、表达贫乏。生为汉人,实可谓双倍之不幸——语言进修所需的时间原来就已经比他人多了好几倍,不意最末学到的工具还不及人家几分之一。
毛喻原先生便为那种论点供给了详细数据:“我们晓得,汉语一部通俗的《新华字典》所收单字(含繁体、异体)是一万一千一百个摆布,清初所编的《康熙字典》所收汉字是四万七千多个,比来出的《汉语大字典》所收汉字也才五万六千个。与英语比拟,汉语的词汇量长短常小的。即便一部欧美通俗学生所用的字典所收单词也至少在十六至十七万个以上。如闻名的《牛津字典》所收单词是六十多万个。篇幅更大的《韦伯斯特大词典》所收单词几乎到达一百万之多。仅从词汇量来比力,汉语和英语在那方面的区别长短常浩荡的。”
显然,毛先生“汉语词汇量十分小”那一结论,是用“科学办法”计算出来的,即:拿英语单词总量减往汉字字数总量。显然,那么简单的标题问题,连小学生都难不倒,底子用不着毛先生亲身脱手。不外,小学生同时还晓得,加减法的运算有一个先决前提,即“单元”必需相等。例如,五匹马与四头牛就欠好相加;七颗白菜减三根萝卜也不知该等于啥。再举一个简单的例子:假设有人给你开工资,年薪一百万,你必然欣喜若狂,找不着北;但万一他后面再补上一个“分”,呢?由此可见“单元”之重要。
于是我们如今要问,毛先生自编自算的那道数学题能不克不及成立?更切当地说,“五万六千个字”与“十六万(或者六十万以至一百万)个词”,二者的“单元”能否一致,彼此之间有没有可比性?
英语的单词由字母组合而成,但汉字同样也能够组合成词;假设说,英语26个字母构成的词可达百万之巨,那么,五万六千个汉字彼此搭配又能构成几个“词”呢?
《现代汉语词典》媒介写道:“那部《现代汉语词典》是以笔录通俗话语为主的中型词典,供中等以上文化水平的读者利用。词典中所收据目,包罗字、词、词组、熟语、成语等,共约五万六千余条。”
不消说,区区“五万六千余条”与英语的上百万比拟,只能算是小巫见大巫。问题在于,我们应该若何定义汉语的“词”。
先来举个简单的例子。寡所周知,英语一个礼拜中的七天,一年中的十二个月,个个都是专名。不消说,它的词汇总量中一定包罗那十九个单词。然而,翻遍全世界的《新华字典》、《汉语辞海》,恐怕也找不到“礼拜一”、“二月”如许的词条。《现代汉语词典》仅仅收录了“礼拜”,那也就是说,利用者只要本身在后面填上一个数字,即可以表达肆意一个详细的日子,因而完全没有需要把一礼拜的七天、一年的十二个月通盘列举出来。诚然,它确实收了“日曜日”一词,但现实上也是无关紧要。因为,没有一个讲汉语的人是在查了词典以后才晓得“日曜日”的,也少少有人会为了“日曜日”往查词典。事实上,假设不是有意提醒,恐怕底子就不会有人想到词典里竟然会收有“日曜日”如许一个词条。换句话说,编者即便不收,也绝不会有人责备“不全”;相反,一部英语词典,若是少了Sunday,便堪称严重疏漏。当然,讲英语的人也是在“识字”之前便早已晓得了Sunday,但差别的是,他们还要进修若何书写,更不免因遗忘而核查。反之,中国人只要记得“星”、“期”、“日”那几个汉字,就绝不存在“日曜日”若何写的问题。词典不收的词,当然也就意味着记忆中无需保留。讲英语的人,能否个个提笔能写Sunday, January,我们没有实凭实据,不敢妄下结论;但至少中国人,即便已经拿到四、六级证书,实要挠来测试一番的话,恐怕就有很多要当场“出丑”——写不全那十九个普通俗通的日用词汇。
我们且来设想一段对话。
甲:“就那么点活,礼拜一该干完了吧?”
乙:“礼拜一?礼拜八也干不完!”
日历受骗然没有“礼拜八”如许的日子,而乙之所以那么说,无非是为了发泄或者抱怨,以表达工作之不成能。对方天然立即也能大白他的意思——至于相不相信那是另一回事。那么试问:那“礼拜八”算不算一个“词”呢?有人可能要狡辩说,既然现实中找不到对应物,那当然就不克不及算。但神话故事中的人物都没有现实对应物,我们又该若何阐明凤凰麒麟、雷公电母呢?照此而论,岂不是连天主魔鬼、天堂天堂都要废除吗?假设父母给小孩讲故事,编一个童话王国,里面的荒唐国王偏要以八天为一周,把礼拜八定为日曜日,谁又能说不可呢?假使认可了“礼拜八”,岂不也能够有“礼拜九”、“礼拜十”、“礼拜十一”甚至“礼拜一万三千五百七十九”?如许的“词”,能够说要几有几,永无行境。
再如,英语有pork(猪肉)、beef(牛肉)、mutton(羊肉)、venison(鹿肉),《现代汉语词典》却一概查不到。假设说,那就证明了英语词汇丰富,那我们则要进一步诘问:为什么没有“狗肉、猫肉、虎肉、龙肉、凤凰肉、麒麟肉、金丝猴肉、长臂猿肉”呢?为每一种动物创造一个表达其肉的词,词汇量岂不是又将大大地丰富吗?
汉语词典不收“礼拜一”、“二月”、“猪肉”、“牛肉”,其实不能承认那些“单词”的存在,更不克不及由此而认为汉语民族没有如许的概念。独一可以证明的,就是汉语完全用不着像英语那样,把它们当成正儿八经、需要认实进修、锐意记忆的单词。事实上,它们只是借助于“一”、“二”、“星”、“期”、“月”、“肉”等通俗汉字,如有若无、模模糊糊地“存放”在大脑某个不起眼的角落里,召之即来,暂时凑合,用毕闭幕,各回原处。简言之,讲汉语的人是“记字不记词”。那种并世无双的特征付与了汉语许多便利,限于篇幅,那里就纷歧一介绍了。
于是,问题便回结为,一种语言的“词汇量”事实是若何统计出来的?假设完全根据词典而定的话,英语显然就捡了个大廉价,而汉语便颇有些“傻帽”——谁让你不收呢?然而,如许的比力能说公允合理吗?
且来打个例如:年末评优,张三列出十条长处,李四却多达上百。外表上看,“先辈”非后者莫属。不意,听他逐个报来,竟然是:下馆子必付款,上公园定买票;没病不告假,有屁夹着放;饭前便后勤洗手,左邻右舍不骚扰;迄今未进劳改所,三更不怕公安局;通情达理,从不夺老年人的座位,操行肃静严厉,绝不掀女同事的裙子……
英语词汇之所以如斯“丰富”,拆穿了,次要就是靠李四那类“先辈事迹”给撑起来的。
反过来说,汉语假设也能效仿李四那套“搞笑”,其“词汇量”同样繁若群星,不可偻指算。值得一提的是,毛先生在那方面现实上已经开了先河,树了楷模。
请看其题目:《论汉语的险境和诡谬》。
何谓“诡谬”?查《现代汉语词典》,“诡”字下列有“狡辩”、“诡怪”、“阴谋”、“诡谲”、“诡秘”、“诡异”、“诡诈”。而“谬”大约总与“谬论”、“错误”、“荒唐”等有关。“诡”者,天然不免其“谬”也,但即使逻辑思维中能够做那种推理,语言构造上恐怕也不克不及如斯搭配。那个口子一开,后患可谓无限。譬如:“工习”——工做进修;“成业”——成家立业;“食觉”——食饭睡觉;“拉屁”——拉屎放屁。
那类“强行婚配”在毛先生的高文中实可谓三步一岗,五步一哨,比昔时日本鬼子的封锁线还要密集。例如:“传通”、“断逗”、“欠然”、“亮敝天然”、“语义脱臼”,个个让人耳目一新,大长常识。最令人拍案喊绝叹为看行的恐怕要属“钝挫”与“挫钝”。实可谓:翻来覆往都是戏,前移后挪皆成词。
说到那里,突然想到一个类似的“洋戏法”。刘易斯·卡罗尔在《爱丽丝镜中游记》中,编了一首名为《废话》的诗:
“’Twas brillig, and the slithy toves
Did gyre and gimble in the wabe;
All mimsy were the borogoves,
And the mome raths outgrabe.”
时值昏烤,厮头灵奸
且旋且锥,远坪之间。
全数迷塞,悲弱不胜。
没路无途,吼啸阿嚏。(石心莹译)
此中许多词,均为做者斩首往尾,各取一半而成。例如,“slithy”(灵奸)就是“lithe” (乖巧)与“slimy”(奸诈)二词的“优化组合”。至于“吼啸阿嚏”,则是“介于吼喊与唤啸之间的声音,此中同化着喷嚏声。”那就难怪爱丽丝读得稀里糊涂,一头雾水;即便是给她做阐明的矮胖子Humpty Dumpty本身良多也说不清,道不明。
因为该书的时髦,惹得很多人也心脱手痒,依法泡造,例如,由smoke(烟)和fog(雾)构成smog,由motor与hotel构成motel(汽车旅店),由breakfast与lunch合成brunch——将早饭与中饭合为一餐的饭。近来还呈现了一个kidult,由kid(小孩)与adult(成人)合并而成,专指年纪18-25岁,不克不及自立,依靠父母,老也长不大的年轻人。不外,那种魔术事实没有成为构词的“邪道”,玩玩也就不时兴了,实正传播下来的其实不多。
毛先生能否师从“老刘”,继续遗志,我们不得而知。不外,正所谓:西方不亮东方亮,洋风不起土风起。毛先生若屈尊往当小学教师,我堂堂华夏民族势必辈出“造词巨匠”;毛先生若降贵往编词典,汉语势必一洗“词汇量十分小”之羞耻。像“诡谬”、“断逗”、“欠然”、“钝挫”、“挫纯”等等,必定一个不漏,通盘收进。假使赏光再加上本人首创的“礼拜N”、“某某肉”,甚至“工习”、“成业”、“食觉”、“拉屁”,不要说区区“十六万”,恐怕就是一百六十万、一千六百万都打不住。那么说吧,即便按最守旧的估量,以五万六千个汉字为原料,摘用毛氏构词法,编一部收词一亿六万万的《汉语大词典》,也不外是小菜一碟,唾手可得。
伶俐的读者想必早已从那一番“正话反说”中看出问题的症结所在了。毛先生以及其他“拼音文字至上论者”之所以会得出“汉语词汇贫乏”那种谬论,关键就在于他们漠视了,或者说底子就不大白一个极其简单的根本事实,即汉语中底子就没有“词汇量”如许的说法,因而也就底子不成能统计出“词汇量”的大小。汉语民族权衡文化程度,用的是“字数”,而不是“词数”。一小我只要掌握了必然数量的汉字,就能够像玩积木一样,为所欲为地组合出无数个词来,出格是碰上毛先生如许的组词巨匠,其“词汇量”几乎近乎于天文数字。
汉语的“字”与英语的“词”,其区别几乎就有如白菜萝卜,鲤鱼麻雀,单元悬殊,二者之间底子就不具备可比性。不外,假设换个角度,好比,抉择某个特定的“文化水平”如小学或中学为基准,别离审查两边各自所能到达的程度,以及那一程度所能发扬的感化,则也无妨用来充任一种比力原则。
毛先生现实上也谈到了那个问题:“据说初习汉字的人,只要掌握了最常用的二千个摆布的汉字,就可读懂百分之九十五的时髦于社会的一般文本,并且丝毫不会感应有任何阅读方面的困难。那在西方语言的文字里是无论若何也办不到的。比拟之下,在西语世界(好比说欧美),即便你拥有五千个摆布的词汇量,你也难以应付通行于社会的一般文本。此词汇量用于日常的白话扳谈还能够,但要用于学理切磋和文本阐释显然千万不克不及。”
根据现行的教学要求,小学识字量为2400,九年造义务教导的识字量为3800。那也就是说,中国人小学还没结业,就已经“丝毫不会感应有任何阅读方面的困难了”。那么反过来,英语民族要想“读懂百分之九十的时髦于社会的一般文本”,事实需要多大的词汇量,如许的词汇量事实又要上到“几年级”才气掌握呢?
我们那里不诡计列举详细数据,且看一个“间接”的例子:纽约市立大学唐德刚传授说,该校十万学生,此中有一半看不懂《纽约时报》。
《纽约时报》必定不是专业刊物,面向的是一般读者,其难度最多可能也就相当于我们的《光亮日报》、《羊城晚报》、《南方周末》吧。一个讲汉语的人,假设上了大学,竟然还看不懂《南方周末》,几乎能够誉为“世界第九大奇观”。然而,如许的“全球奇看”,在英语国度却实属一般,见怪不怪。为了让读者有一个亲身体味,我们无妨从比《纽约时报》简单得多的《二十一世纪报》中抉择一个句子:
Smoking and drinking alcohol are the main causes of mouth and throat cancer. That includes tumours of the oral cavity, throat, tongue, gums, and larynx.
第一句很简单——烟酒致癌,第二句则是逐个举例。然而,您能讲得出详细名称吗?诚然,该文是登载于“科学版”,但充其量也不外是“科普”,为何“非医界”就读不懂或者至少读不爽,非得乞助于词典呢?中国人读报,有查字典的吗?退一步讲,即便“科学版”仍嫌深邃,“娱乐版”总该是雅俗共赏、老小咸宜吧?那么试问,议论歌唱家的文章,您敢读吗?先别夸口,好比,“女高音”、“男低音”,您晓得响应的英语单词吗?最初,请您猜猜,将《纽约时报》通读一遍,需要几单词?告诉您,万万别吓着——五万!趁便再说一句,莎士比亚的词汇量据说为三万。
辜正坤传授指出:“词法、语法的严谨形式固然有助于西方人陶冶他们在思维体例上的严谨性,但是因为要掌握那种语言的繁琐形式必需花很大的功夫,因而从进修成本方面来对待那个问题的时候,会发现它的那一长处又在必然水平上被抵消了。我们以幼儿进修一门语文所需要破费的履历和时间来看那个问题。中国儿童记住2000---3000个汉字,就能够阅读《人民日报》而不会有几生词。印欧语系的儿童即便记住了8000摆布的单词,在阅读《华盛顿邮报》时仍然会有良多生词。举例来说,当人民日报呈现‘水仙花’那个单词时,中国儿童虽然也许不晓得那事实是什么花,但是他不需查字典就晓得那是一种花。‘水仙’两个字也是常用字,能够搀扶帮助儿童揣度那种花至少不是菊花、桃花、牡丹花及许多儿童已经晓得的种种花卉。也就是说,他即便不晓得事实是什么详细的花,他也已经晓得1)那是一种花;2)那不是此外所有那些他已经晓得的花。晓得什么是一种常识,晓得什么工具不是什么,也是一种常识。因而,假设将那个词中所含的信息量规定为3,则中国儿童已经不教而知其2!可是,关于一个印欧语系的儿童来说,恐怕就不是如许。假设将那个词所含的信息量照样规定为3,则西方儿童所能获得的有效信息量只能是0!以英语为例,水仙花喊narcissus,假设该儿童不晓得那个单词,他就无法根据那个词自己的构成部门推知它是什么意思。因为那个词的构成成分没有太多的常用的能够令人一看而知是什么工具的那种成分。narc有‘缉毒捕快’的意思,narco有‘麻醒、昏睡’的意思。但它们一方面不属于最常用的词类,另一方面也不克不及表示那个词自己是一种花。并且儿童还未必能把narc零丁别离成一个词。因而,印欧语系儿童面对的是一个完全的生词,不晓得就不晓得,必需做为一个完全的生词来记住。傍边国儿童看到‘水仙花’那个生词的处所的时候,他可能略一停顿,根据本身的理解便陆续读下往,而印欧语系的儿童却会因为那个生词而完全给卡住了,因为他假设压根儿就不晓得那个生词是什么意思,他就难于决定事实它是一个具有关键意思的词呢仍是能够跳过不管的词。在那种情状下,印欧语系儿童关于那个生词的信息吸收量几乎等于0.2大于0。因而利用汉语的中国儿童比利用英语的西方儿童的均匀吸收阅读信息要大2倍!当然,应该考虑到,英语中也有许多孪生词的前缀、后缀等词法形式可搀扶帮助印欧语系儿童阐发所阅读的词类可能是属于哪一类的词类及词义。但是,要晓得那种感化是有限的,因为事先记住那种笼统的没有任何丹青性特征的成百上千的前缀、后缀自己对人的记忆来就是一个挑战。让儿童先往记住那些工具是不现实的,很可能让他们腻烦那种语言进修。所以,就总体而言,记住2000~3000个汉字的儿童能够比力随便地阅读《人民日报》,而记住3000个英语单词的印欧系儿童阅读同等水平的英语版《人民日报》时,却会困难重重。那里边有一个十分重要的工具,那就是:汉字的每一个字自己就具有意义自我阐释的感化。因为它的根底来源于丹青文字。丹青就是外部世界事物的缩影。一个字就是表达的含义从它的书写自己就已经展现出来了。那等于说每个汉字就是本身的含义小词典。假设有两个、三个、四个字构成的汉字词组,则各个单字便等于能够彼此阐释,互证互释互彰。上面的‘水仙花’三字词就是一个例证。由汉字构成的文章是一个词义互释文本。那就是为什么掌握汉字的儿童只需要相对来说较少的词汇量就能阅读文章的关键原因。”(着重号为做者本人所加)
毛先生根据英汉“词汇”的比照,得出了一个严重发现,即:汉语“小词量——大文本”。那一点我们从上面的阐述以及小我的切身体味中早已深切体味到了。但万分遗憾的是,他却没有顺藤摸瓜顺水推船瓜熟蒂落地得出英语“大词量——小文本”的结论,以致于让本人白白地捡了一个廉价。以毛先生的渊博学识及思维才能,不会连如许的小问题都联想不到吧。原因看来只要一个,即如许的结论其实是有损英语的“光辉形象”。
不幸的是,毛先生有意回避,却拦不住他人无心揣度,以至“别有专心”的量疑:既然小词量便足以应付大文本,要那么大的词汇量干什么——莫非食饱了撑的?
我们无妨来打几个例如。一道标题问题张三只要非常钟便能解出,李四却要花五个小时,二者的智力显然就不成同日而语。一项工程明明一百万便能完成,偏要投进一个亿,此中必定就有不成见人的勾当。一座山头队伍甲仅需一个连就能拿下,队伍乙却要动用一个团以至一个师,前者便堪称精兵强将,后者不外一群乌合之寡。
然而,日常生活中无数那类以少胜多,以小造大的事例,一旦拿到汉英语比力上来却通盘都行欠亨了,所有的构想都要反过来推理,所有的结论都要反过来阐明。例如,毛先生又发宏论了:“关于汉语的小词汇量可以对于大文本的那一现象,我们还可做进一步的阐发。有人认为那是因为汉字的单元信息含量大,所以,用少量的词就可表达良多内容。那似乎为‘小词量——大文本’的关系供给了某种阐明。但我们认为事实并不是如斯,之所以有那一现象发作,是因为:一、也许汉字对事物的分理条理不敷缜密,不敷精巧,即对事物的诸种存在,及诸种可能的存在,汉语中没有产生出响应的词来与之对应。也就是说,汉语在表达事物之丰富存在时,其语汇老是显得欠然和阙如;二、也许是文本自己的内容就十分简单和有限,即汉情面愿往表达的工具仅仅是属于大千世界的一个有限局域,其丰富性和可能性打了折扣。汉人的心智其兴致不在世界的全体,而是某一个部门。恰是基于那两点,所以才会有‘小词量——大文本’关系的产生。”
鬼话颠来倒往,最初仍是回结到“语汇欠然”的老话题上来。我们也就不再纠缠。至于说到“汉人心智兴致”,则明显涉及另一个问题,即语言词语若何反映世界,需要专门的篇幅讨论,那里也就不予深究。不外,若将那段话与毛先生前面的说法做个比力,却不难看出他的自相矛盾。一方面,他说:“与英语比拟,汉语的词汇量长短常小的”;另一方面,他又说汉语是“小词量——大文本”。试问,根据一般法例停止逻辑思维的人,事实应该从中得出如何的结论呢?前者无疑是“褒英贬汉”,但后者莫非不是恰好相反,“褒汉贬英”吗?毛先生当然是勇敢的“拼音文字至上论者”,但万一有人偏偏要断章取义,以其矛攻其盾呢?
总而言之,毛先生拿“汉字”与“英词”停止比照,是犯了一个连小学生都不应犯的极其差劲的错误,天然也就只能得出“诡谬”的结论,从而把本身逼进一个彼此矛盾,无法圆说的窘境。当然,他到底实的是欠缺通俗常识,仍是为了“褒英贬汉”的特定目标而有意“搅混水”,那就只能是“天知地知”了
做者:江苏大学 何南林