【文档说明】黄玉兰提纲工作总结.pptx,共(35)页,301.535 KB,由精品优选上传
转载请保留链接:https://www.ichengzhen.cn/view-332490.html
以下为本文档部分文字说明:
工作总结---黄玉兰提纲➢工作汇总有意义串研究工作汇总➢搜索日志分析系统smark拼音汉字系统调研有意义串相关工作词聚类调研工作汇总--搜索日志分析系统smark(1)任务:◼根据所给的搜索日志进行数据分析,提供有用信息。◼提供数据中所能反映的商机◼以网页的形式提供服务。
工作汇总--搜索日志分析系统smark(2)已完成的工作:◼重复串的TopN排序。◼搜索词的TopN排序。◼查询词的统计信息,如时间分布,地域分布等。◼查询词分类,用户分类。◼加入检索功能。◼网页展示界面。工作汇总--搜索日志分析系统sm
ark(3)Smark系统数据展示界面Smark系统功能选择界面工作汇总--拼音汉字转换系统调研(1)任务:◼调研拼音到汉字的转换方法◼对快速输入法提出自己的设计想法工作汇总--拼音汉字系统调研(2)工作进展:◼对音字转
化的现状有了基本了解◼整理了音字转换系统的组成◼提出改进之处工作汇总--有意义串相关工作◼熟悉师姐的程序,处理不同数据⚫商业网页数据、专利数据等⚫根据不同数据改进程序◼写有意义串方面的专利⚫面向互联网的有意串挖掘⚫专利文献的领域术语抽取方法以及专利搜索辅助系统◼改进
发现有意义串的方法⚫基于伪相关反馈的领域词典生成算法⚫基于窗口的有意义串挖掘方法◼有意义串挖掘软件GoldMiner⚫重写有意义串挖掘程序⚫加入检索功能以及界面展示功能工作汇总--词聚类调研◼目标:给定一个新出现的有意义串,可以找跟它相近的词,通过这些词推测
这个有意义串的意思和用法。◼完成情况:⚫整理10多篇关于聚类的文章⚫实验效果不是很好,有待改进提纲◼工作汇总◼有意义串研究有意义串研究➢背景改进方法工作计划背景--有意义串定义◼定义:包含具体语义,并且能
够做为一个灵活独立的语言单元在不同语境中使用的字符串◼特点:结构上:结构较稳定,具有一定的凝固性。语义上:表意完整单一、所指明确。语用上:使用环境灵活多样。统计上:在大规模真实文本中有一定流通度。小说语料专利语料BBS标题语料背景--有意义串应用◼索引词优化◼社会热点挖掘◼文本表
示◼语料建设◼专业术语提取背景--现有的方法◼切分方法组合是利用词汇的共同属性,如MI、MI和RIDF、MI和ContextDependence等。◼组合方法基于压缩的切分方法等。背景--邻接类别(1)◼左邻接类别:在串左边出
现的字或词的种类数量。◼右邻接类别:在串右边出现的字或词的种类数量。◼邻接类别:左邻接类别和右邻接类别的较小值。背景--邻接类别(2)招聘版主申请版主须知各位版主请看请教版主一个启动的问题请教版主关于还原卡的问题左邻接类别=4右邻接类别=5邻接类别=min{4,5}=
4背景--位置成词概率◼位置成词概率(Position-WordProbability):汉字c的位置成词概率PWP(c,pos)计算如下:背景—提取流程有意义串研究◼背景◼改进方法◼工作计划改进方法◼
基于伪相关反馈的领域词典生成算法◼基于窗口的有意义串挖掘方法基于伪相关反馈的领域词典生成算法(1)主要思想:◼把领域词典生成的过程视为一个信息检索的过程◼假设初始检索出来的前若干个结果与领域相关,将结果加到词典中,重新检索。
查找重复串上下文邻接分析成词概率分析分词词典成词概率表语料有意义串更新词典更新成词概率表基于伪相关反馈的领域词典生成算法(2)基于窗口的有意义串挖掘方法◼方法1.从整个语料集上查找有意义串。2.把整个语料集分成若干个子语料
(如小说语料按章节份),从子语料中查找有意义串。3.把上两步的结果合并起来。◼效果1.提高精度,找到只在局部出现而全局信息不够高的重复串。(小说语料实验效果并不是特别明显)2.提高速度有意义串研究◼背景◼改进方法◼工作计划工作计划◼
提高有意义串挖掘算法的效率◼将有意义串加入到不同应用中◼有意义串分析、展示系统工作计划(1)--提高有意义串挖掘算法的效率◼精度前N个词的准确应经很高。(BBS标题10M语料的前500个词的准确率为95%)
后面的词的准确率越来越低。希望用统计的方法提高这部分的准确率。◼速度现处理有意义串的速度还不高。处理速度主要跟生成的重复串的数目有关。工作计划(2)--将有意义串加入到不同应用中◼领域词典如专利领域,开发专利词典。在专
利检索过程中,辅助专利分析师或普通的专利检索者。◼文本分类将有意义串挖掘应用到文本分类中。先找出文档集合中的有意义串,再根据有意义串对文档进行分类。◼文本聚类或者话题聚类可以应用到短文本的分析中。◼安全应用用一个词进行聚类,找出词
形或者用法与其相近的词。如“法轮功”与“法车仑功”属于词形相近的词。◼热点发现在以句子(或段落)为单位的窗口中,两个有意义串经常共现,则两个有意串很可能构成一个热点话题。如“山西煤矿”和“矿难”就组成了一个社会
热点话题。工作计划(3)--有意义串分析、展示系统◼做一个有意义串展示平台,展示内容如下:⚫有意串的语用环境。有意义串的左右邻接词包含有意义串的句子⚫同义词通用词典和有意义串各找一些⚫同形词同上,尝试用编辑距离作⚫共现词经常会在一个句子或段落中出现的词已完成的论文◼基于
伪相关反馈模型的领域词典生成算法.黄玉兰,龚才春,许洪波,程学旗.第三届全国信息检索与内容安全学术会议◼基于多重索引模型的大规模词典近似匹配算法.龚才春,黄玉兰,许洪波,白硕.第三届全国信息检索与内容安全学术会议.◼CaichunGong,Yula
nHuang,XueqiCheng,ShuoBai.DetectingNear-DuplicatesinLarge-ScaleShortTextDatabases.InProceedingofthePacific-AsiaConferenceonKnowledgeDiscoveryandDat
aMining2008.审稿中.已完成的专利◼面向互联网的有意串挖掘。张华平、贺敏、黄玉兰、龚才春◼专利文献的领域术语抽取方法以及专利搜索辅助系统。张华平、黄玉兰、龚才春◼一种短文本的新词发现方法和系统。龚才春、黄玉兰◼一种新词发现方法和系统。龚才春、
黄玉兰已完成的软件◼搜索日志分析系统smark◼有意义串挖掘软件GoldMiner谢谢!