Skip to content

基于同义词词林实现上下位关系自动抽取

Notifications You must be signed in to change notification settings

HapuHXY/task2-cilin

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 

Repository files navigation

《同义词词林(扩展版)》

哈尔滨工业大学信息检索研究室在《同义词词林》的基础上研制, 最终的词表包含77492条词语,其中一词多义的词语为8860个,共分为12个大类,94个中类,1428个小类,小类下再以同义原则划分词群,最细的级别为原子词群,体现了良好的层次关系.

编码特点

  • 大类编号:分别用一位大写英文字母A到L来表示 A 人

  • 中类编号:在大写字母后面加一位小写英文字母表示 Ab 男女 老少

  • 小类编号:再加两位十进制整数表示

Ab01 男人 女人 男女 男女老幼
Ab02 老人 成年人 老小
Ab03 青年人
Ab04 婴儿 儿童
  • 词群编号:再加一位大写英文字母表示
Ab01A 男人 男子 男子汉 男儿 汉子 汉 士 丈夫 官人 男人家 光身汉 须眉 壮汉 男士 爷儿 先生
Ab01B 女人 女子 女性 女士 女儿 女 娘 妇 妇女 妇道 妇人 女人家 小娘子 女郎 巾帼 半边天 娘子军 石女 红装 家庭妇女 农妇 才女 女流 少妇 姑娘 小姐 仕女 贱人 工青妇 巧妇 村姑 女中
Ab01C 男女 士女 儿女 红男绿女 男男女女 少男少女
Ab01D 男女老幼
Ab02A 老人 老 老者 老汉 老翁 翁 长老 长者 遗老 耆老 叟 父 老头儿 老头子 老年人 老头 老记 中老年人 白发人 年长者 老朽 老寿星 公公 老奶奶 老太太 老家伙 老太公
Ab02B 成年人 壮年人 大人 人 丁 壮丁 佬 中年人
Ab02C 老小 老少 大小 老幼 老老少少 白叟黄童 大大小小 遗老
Ab03A 青年人 青年 小伙子 青少年 后生 弟子 子弟 初生之犊 年青人 小伙 小青年 年轻人 知识青年 社会青年 少年人 芝兰 待业青年 男孩子
Ab04A 婴儿 婴孩 婴 新生儿 产儿 赤子 乳儿 毛毛 小儿 早产儿 婴幼儿 宝宝 女婴 弃婴 圣婴
Ab04B 儿童 孩童 稚童 童稚 童子 孩子 孩儿 孩子家 小儿 小人儿 雏儿 幼儿 娃儿 娃娃 娃子 小子 小小子 竖子 孺子 稚子 童蒙 幼 童 孩 小 孺 囡 小朋友 小不点儿 少年儿童 童男童女 报童 少儿 小孩 小孩子 幼童 小娃 文童 伢儿 女孩儿 毛孩子 小家伙 妞 顽童 男童 学龄儿童 山里娃 农家娃
  • 原子词群(词段)编号:再加两位十进制整数表示,最后一位的标记有3种,其中“=”代 表“相 等”、“同义”;“#”代表“不 等”、“同类”,属于相关词语;“@”代表“自我封闭”、 “独立”,它在词典中既没有同义词,也没有相关词。
Ab01A01= 男人 男子 男子汉 男儿 汉子 汉 士 丈夫 官人 男人家 光身汉 须眉 壮汉 男士
Ab01A02= 爷儿 爷们 爷儿们
Ab01A03= 先生 子 君 郎 哥 小先生

Ab01B01= 女人 女子 女性 女士 女儿 女 娘 妇 妇女 妇道 妇人 女人家 小娘子 女郎 巾帼 半边天 娘子军 石女 红装 家庭妇女 农妇 才女
Ab01B02= 女流 女人家 妇道人家 娘儿们 妞儿
Ab01B03= 少妇 婆娘 婆姨 娘子 小娘子
Ab01B04= 姑娘 少女 丫头 千金 小姐 闺女 室女 姑子 黄花闺女 大姑娘 小姑娘 童女 老姑娘 春姑娘
Ab01B05@ 小姐
Ab01B06= 仕女 贵妇人 太太 夫人 少奶奶 奶奶 贵妇
Ab01B07= 贱人 祸水
Ab01B08@ 工青妇
Ab01B09@ 巧妇
Ab01B10= 村姑 农家女
Ab01B11@ 女中

Ab01C01= 男女 士女 儿女 红男绿女 男男女女 少男少女

Ab01D01@ 男女老幼

Ab02A01= 老人 老 老者 老汉 老翁 翁 长老 长者 遗老 耆老 叟 父 老头儿 老头子 老年人 老头 老记 中老年人 白发人 年长者
Ab02A02= 老朽 风中之烛 枯木朽株 朽木粪土
Ab02A03= 老寿星 寿星
Ab02A04= 公公 爷爷 老爷爷 老太爷 老爹 老公公 老爷子 老大爷 老人家 丈人 丈 老 老父 父老 寿爷
Ab02A05= 老奶奶 老太婆 老妪 妪 媪 老婆儿 老婆子 老妇
Ab02A06= 老太太 老婆婆 老大娘 姥姥 奶奶 阿婆 嬷嬷 老妈妈 老大妈
Ab02A07= 老家伙 老糊涂
Ab02A08@ 老太公

Ab02B01= 成年人 壮年人 大人 人 丁 壮丁 佬 中年人

Ab02C01= 老小 老少 大小 老幼 老老少少 白叟黄童 大大小小
Ab02C02# 遗老 遗少 遗老遗少 封建残余

Ab03A01= 青年人 青年 小伙子 青少年 后生 弟子 子弟 初生之犊 年青人 小伙 小青年 年轻人
Ab03A02= 知识青年 知青
Ab03A03@ 社会青年
Ab03A04= 少年人 少年 苗子 苗 年幼 未成年 未成年人
Ab03A05= 芝兰 龙驹 千里驹
Ab03A06# 待业青年 务工青年
Ab03A07# 男孩子 少男

Ab04A01= 婴儿 婴孩 婴 新生儿 产儿 赤子 乳儿 毛毛 小儿 早产儿 婴幼儿
Ab04A02= 宝宝 宝贝 乖乖 囡囡 小鬼 宝贝疙瘩 宝贝儿 小宝宝
Ab04A03# 女婴 男婴
Ab04A04@ 弃婴
Ab04A05@ 圣婴

Ab04B01= 儿童 孩童 稚童 童稚 童子 孩子 孩儿 孩子家 小儿 小人儿 雏儿 幼儿 娃儿 娃娃 娃子 小子 小小子 竖子 孺子 稚子 童蒙 幼 童 孩 小 孺 囡 小朋友 小不点儿 少年儿童 童男童女 报童 少儿 小孩 小孩子 幼童 小娃 文童 伢儿 女孩儿 毛孩子 小家伙
Ab04B02= 妞 妮子 妮儿 丫头 黄毛丫头 阿囡 女孩子 小妞 女童
Ab04B03= 顽童 小淘气 淘气鬼 孩子头 孩子王 淘气包
Ab04B04= 男童 男孩儿 童男
Ab04B05@ 学龄儿童
Ab04B06@ 山里娃
Ab04B07@ 农家娃

算法思想

利用同义词词林的编码和结构特点:

  • 词林中的大类词具有最强的概括性,可以作为上位词,其中第一至第四类大多为名词,可以进行上下位关系词对的抽取,第五大类为形容词,第六至第十大类是动词,第十一大类为虚词,第十二大类是难以分至其他类别的敬语,对这些类不作考虑。
  • 大类到中类和小类的抽取:对于中类词,若中类词是具有概括性的类别词,如“Bh 植物”,则将其纳入上下位关系抽取任务中,由此得到<中类词,大类词>,<小类词,中类词>上下位关系词对;若中类词是偏向描述性的属性词,如“Ac 体态”,则对中类词不作考虑,得到<小类词,大类词>词对。这一步需要手工选取,再进行自动抽取。
  • 小类到词群和词段的抽取:每个词群的第一个词是小类中的标题词,词群进一步向下细分成不同的词段,其中第一个词段的第一个词也是小类的标题词,抽取该标题词作为上位词,将词段中除标题词之外的词作为对应的下位词。

参考文献

About

基于同义词词林实现上下位关系自动抽取

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages