【文档说明】现代汉语词典系列数据库课件.ppt,共(22)页,85.001 KB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-92535.html
以下为本文档部分文字说明:
《现代汉语词典》系列数据库中国社会科学院语言研究所2006概述来源:根据《现代汉语词典》的系列辞书建立的数据库;用途:电子辞书的查询和发布;辞书编纂和修订的参考资料;从聚合的角度研究汉语词汇的资料;用比较的方法研究辞书的资料;《现代汉语词典》系列数据库一、
数据库主要内容二、数据的一致性三、数据库的主要应用功能四、关于缺字问题一、数据库主要内容•词典的版本信息•词条信息•偏旁部首•检字表•其他一、数据库主要内容词典的版本信息(以第三版为例)包括:书号书名版次作者出版单位出版时间发行
单位印刷单位印次印数开本字数印张定价防伪前言说明总目音节表检字表凡例附录等。词条信息包括:词目异体/繁体字拼音释义特征。一、数据库主要内容偏旁部首:偏旁部首、偏旁部首笔画。检字表:归属于某偏旁部首的汉字、除去偏旁部首笔画外的汉字笔画。
其他:词条中其他一些可供查询、统计的语法、语义、语用、构词等特征。二、数据库与辞书数据的一致性数据的原始排列顺序与辞书数据保持一致数据内容和辞书数据保持一致数据库主体结构保持一致各版本《现代汉语词典》辞书之间同种标记不同标法的数据在库中也要保持一致(主要表现在各种计算机字库中没有的标记
、符号、序号等)。三、数据库的主要应用功能经过对词典内容的结构化处理,数据库里有以下几类信息可以用于检索、统计、分析和比较:1、词目部分:字、词、语素、字数、偏旁部首、偏旁部首笔画、除去偏旁部首笔画外的汉字笔画、繁体字、异
体字、可插入特征、结构词特征、重叠词特征、儿化等。2、语音部分:原拼音、转写拼音、同音、轻声、第二音节无辅音特征、重读、结构词发音等。三、数据库的主要应用功能3、语用部分:学科分类(语、经、地质、地、等)。语用信息(<书>、<方>、<古>、<文>、<口>、<京>、<简>等)。4、词类部分:1
2个词类。5、释义部分:释义中所包含的字、词、短语、句子等字符串。6、其他部分:多音、近义词、从属条目、外来语、专有名词、义项数等。7、版本信息:凡例中的信息、偏旁部首、检字表、版次、时间、作者、前言、说明等。三、数据库的主要应用功能1、查词释疑2、模糊查询3、
类别查询4、比较查询5、统计查询6、逆序查询7、版本信息四、关于缺字问题在WINDOWSXP操作环境中,使用GBK宋体字库,以《现代汉语词典》第三版为例,缺字共计695个汉字(不包括各种符号)。我们对这些缺字逐个作了字形分析,决定用字形描述的办法来说明
这些字。四、关于缺字问题1、缺字的分析695个缺字中,有399个汉字在计算机字库中没有对应的简体字、繁体字或异体字,我们称其为绝对缺字。另外296个缺字在计算机字库中可以找到各自对应的简体字、繁体字或异体字,我们称其为相对缺字。对这些缺字都要进行缺字描述。四、关于缺字问题2、缺字的描述缺字描
述公式=X[字型描述:结构描述]X=词典数据库中的缺字标记。字型描述=组成该字的若干个拆分的部首或字形。:=字形描述与结构描述的分隔符号结构描述=该字由若干个拆分的部首或字形所组成的方式。四、关于缺字问题2、缺字的描述A、绝对缺字的描述结构描
述:左右、上下、外里、左中右、上中下、左上下、上下右、上外里等字形描述:直接对应结构顺序进行字形排列举例:X[是鸟:左右];tíX[彳亢亍:左中右];hángX[];sīX[九田:上下];lā四、关于缺字问题2、缺字的描述B、相
对缺字的描述用修改汉字结构中部分部首或字形的办法来描述举例:X[鰶:魚改鱼];jìX[顣:頁改页];cùX[譆:訁改讠];xī四、关于缺字问题3、计算机缺字分类统计:A、绝对缺字399个:左右结构汉字有246个;左中右结构汉字有1个;左上下结构汉
字有5个;外里结构汉字有16个;外里右结构汉字有1个;外里下结构汉字有1个;上下结构汉字有63个;上左中右结构汉字有1个;上下右结构汉字有2个;上外里结构汉字有1个;结构和修改结合及结构和短语描述结合的结构描述的汉字有7个;采用修改缺字结构中拆分部分的偏旁部首或字型来描述的
汉字有55个;四、关于缺字问题3、计算机缺字分类统计:B、相对缺字296个:通过简写偏旁部首进行缺字描述的有142个;通过简写非偏旁部首部分进行缺字描述的有142个;通过繁写非偏旁部首部分进行缺字描述的有2个;即要简写
偏旁部首部分又要简写非偏旁部首部分的有10个;四、关于缺字问题3、计算机缺字分类统计:C、几个因字体变化而产生的缺字:计算机中的汉字由于字体的变化而字型有所改变的汉字有4个。这四个汉字在处于小四号字体时该字字型与词典中汉字字型不一致,而处于其
他字号字体时该字字型则与词典中汉字字型相一致。这四个汉字是:四、关于缺字问题4、关于GB18030-2000大字符集695个缺字在GB18030-2000中的补充情况:GB18030-2000简体繁/异体总字数已补充22514
5370仍然缺少30322325四、关于缺字问题另外,在GBK和大字符集中有个别汉字字形与《现代汉语词典》中的字形有细微的差别,这会影响数据库与纸质词典在字形上的一致性:《现代汉语词典》拼音字符集差别最:日改宀zuì宀取:上下GB18030取与
最的下半部分忄朮:左右chù怵GBK术与朮山厂火:上外里tàn炭GBK中间部分四、关于缺字问题5、缺字的检索检索中设计了偏旁部首检索方式。通过偏旁部首在数据库的检字表中检索出相应的汉字,其中包括缺字描述式,选择这个缺字描述式,就能够从数据库中读取该字的相关内容。谢谢!