您好、欢迎来到现金彩票网!
当前位置:尊博彩票 > 分词单位 >

中文分词的一些最新研究进展

发布时间:2019-06-06 10:05 来源:未知 编辑:admin

  最近,读了几篇这两年发表的关于分词的会议论文,发现现在主要的研究方向是解决分词的领域适用问题,采用的主要模型是已有的分词算法+训练集+部分标记语料的半监督学习方式,分词算法包括感知器、条件随机场,部分标记的语料主要为维基百科的汉语语料。现在主要介绍一下各文章的关注重点和异同。

  因为水平问题或对论文本身的理解问题,可能在阐述过程中有各种各样的错误,还望不吝指出,毕竟才开始研究工作,写博客也是为了记录自己的成长过程。

  传统的分词方法在训练集和测试集为同一领域时可以获得很好的分词效果,但是当夸领域分词时,分词效果就迅速下降了(由于专业词汇等原因);并且训练集的制定是一个浩大的工程,不可能制造非常大的训练集(需要人工标注),因此只专注于监督学习,分词性能已经很难提高了。但是互联网的发展给我们带来了新的启示,如何从浩瀚的互联网中挖掘出有意义的分词辅助信息是新的研究方向。而互联网中的文本的易获取性、实时性、领域广泛性、分词辅助信息(超链接、字体、颜色、布局)等也使这种想法变为了可能。

  当然了,相比于被人工精确分割的训练集而言,这些互联网文本所带有的分词辅助信息是很少的,因此直接使用互联网文本来训练模型是不可行的。

  在Jiang, Sun等(2013)提出的方法中,为了充分利用在互联网文本中带有分词标注信息的语言学知识,使用了判别学习算法。

  也就是说,自然标注的语料信息并不能直接训练模型,但是可以帮助我们排除掉那些分词错误的分词结果候选。

  该文中在解码算法中进行如上所述限制,去除掉解码中不合法的分词候选。通过剪枝搜索空间,使用已知的精确标注的训练集得到的模型m1的性能肯定不会比不使用剪枝得到的模型m2效果差。然后,如果通过基模型m2和j剪枝后的模型m1标注上文提及的互联网语料,如果得到的结果不一样,则将m1标注的结果放入训练集中,以训练增强分类器。伪代码如下所示:

  当然了,如果可以获取更多的部分标注数据,可以使用在线算法来训练模型。如下图所示:

  除了这种方法外,Liu等人(2014)也引入了字典来帮助分词。该字典只包括很少有歧义的词,然后使用前向最大匹配算法来匹配出语料中的词,并给该词以及该词周围的字标上相应的标记,如下图所示,“狐岐山”为字典词,因此识别出来后就可以给狐岐山标上标记“狐/b岐/m山/e”,然后“狐岐山”前后邻接的字标上标记为“在”为{e, s},而“救”为{b, s}。

  为了减少单一匹配策略带来的错误,可以使用多种匹配策略来检测词语,如果这些所有的方法都将一个字串序列标记为相同的词,那么这个词就可以被认为是正确标记的。

  另外,该文在使用维基百科语料进行部分标记时,也考虑了语料本身噪音带来的影响。比如下图所示,“旅游业”在不同的网页文本中被分成了不同的词,但是在这些语境中也不能认为是错误。

  为了解决这些语料带来的噪音,一个直观的方法是尽可能采用领域相近的语料,这样训练语料中的歧义(由于领域不同)就会降低。

  对了,这篇文献的基础分词算法是CRFs。使用部分标注数据来训练CRFs,在这种情况下,全标注训练集可以看做是部分标注训练集的特殊情况,使用的是Tsuboi等人(2008)提出的算法来对CRFs使用部分标注数据训练。

  Yang等人(2014)也是将部分标注学习算法应用于CRFs进行中文分词,为了解决Jiang[1]等人的解码算法可能强化基模型错误的问题,在选择部分标记数据时,只选择错误率最高的前K个语料句子。

  文章目录中文自动分词前言一、whatis中文分词二、中文分词的用途三、中文分词的特点和难点四、常见的中文分词方法五、中文分词工具1、HanLP中文分词A、python调用hanlp进行中文分词2、Bo...博文来自:贾继康的博客

  中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以...博文来自:likika2012的专栏

  深度长文:中文分词的十年回顾本文作者:上海交通大学赵海、蔡登,清华大学黄昌宁,香港城市大学揭春雨 要点:本文回顾了中文分词在2007-2017十年间的技术进展,尤其是自深度学习渗透到自然语言处理以来的...博文来自:smith24122412的专栏

  中文分词实现原理:1、基于词典分词算法也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基...博文来自:cuiy0818的博客

  摘要:中文分词是中文信息处理的重要基础,本文详细阐述了目前主要的几种中文分词算法的技术原理、中文分词目前的瓶颈和评价准则,以及中文分词的具体应用。中文分词指将一个汉字序列切分成一个个单独的词。现有的中...博文来自:ScarlettYellow的博客

  中文分词研究入门 导读本文首先简单介绍了自然语言处理和科研过程中重要的四部曲——调研、思考、编程和写作,然后对中文分词问题进行了说明,介绍了中文分词存在的难点如消歧、颗粒度问题、分词标准等。接着,本文...博文来自:爱无止尽的博客

  这篇介绍以下最近大热的[BERT](,它在11个NLP任务中刷新了成绩,效果确实惊人。...博文来自:triplemeng的博客

  数学之美系列二--谈谈中文分词转自:数学之美系列-----统计语言模型在中文处理中的一个应用     上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要...博文来自:zhoubl668的专栏:远帆,梦之帆!

  自然语言中的分词(一)分词的基本背景序言:最近了解了一下分词的知识、所以前来总结一下目前只要包括分词的背景介绍分词的理论方法介绍几种常见分词工具的分词方法超详细实现常见的分词方法分词的基本问题汉语分词...博文来自:jiangzhenkang的博客

  (一)中文分词基础背景•一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。•例如:   –阿三炒饭店:     –阿三/炒饭/店阿三/炒/饭店•和英文不同,中文词之间没有空格,所以实现中文搜索引擎...博文来自:ForgetThatNight的博客

  转自:本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jie...博文来自:北冥有小鱼

  中文分词:词性标注:词性标准课参考哈工大LTP词性列表。命名实体识别:博文来自:broccoli2的博客

  THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac...博文来自:入坑AI

  一、中文分词技术综述1、全文检索技术所谓全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找...博文来自:xiaomin1991222的专栏

  大家好依旧是我上海SEO(SWJ),前段时间一直有网友问我关于分词方面的内容,特别是中文分词再百度中的使用,前端时间SWJ写过2篇关于分词技术的文章如果你没看过我推荐你看下。这2篇分别是:《什么是中文...博文来自:轻轻草原

  随着需求的变化和技术的发展,互联网企业对数据的分析越来越深入,尤其是自然语言处理处理领域,近几年,在搜索引擎、数据挖掘、推荐系统等应用方面,都向前迈出了坚实的步伐。自然语言处理领域涉及的技术非常多,为...博文来自:狮子座明仔知识集散场

  一、正向最大匹配FMM从左到右将待分词文本中的最多个连续字符与词表匹配,如果匹配上,则切分出一个词。二、逆向最大匹配从右到左将待分词文本中的最多个连续字符与词表匹配,如果匹配上,则切分出一个词。三、双...博文来自:JiaJia

  一安装和测试Python下的中文分词工具参考的帖子“四款Python中文分词系统简单测...博文来自:xiaopihaierletian的博客

  本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以...博文来自:FlySky1991的专栏

  三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。...博文来自:xiaopihaierletian的博客

  史上最全中文分词工具整理-干货!一.中文分词 分词服务接口列表 二.准确率评测:THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0、ICTCLAS(2015版)、jieba(C++版...博文来自:Larry的博客

  中文分词词库,格式如下: 00000001 李 168 n 00000002 李浩 133 nr2 00000003 互联网式 121 b ...

  JAVA中maven的使用,中文分词,以及了解协同过滤算法如何做词频分析

  所需要抽取的文本进行分词和词性的标注,将中文划分为独立存在的词, 并且辨别这些词的词性,将每一个词的词性标注在每一个词的后面。这样做可以方便我们对一些需要的词的抽取,并且能更加方便的进行词频统计。

  中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块...博文来自:自然语言处理技术

  公众号“素质云笔记”定期更新博客内容:THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算...博文来自:素质云笔记/Recorder...

  如题,实现网页爬虫,将制定URL下的网页内容进行爬查,去掉HTML代码后保存到本地,并对这些内容进行中文分词,建立索引,而后提供全文搜索服务。爬虫、分词并建立索引,可以单独执行,也可以整合在一起进行定...博文来自:11097082的专栏

  30万 中文分词词库,42537条伪原创词库,dict.txt,fingerDic.txt,httpcws_dict.txt,out.txt,百度分词词库.txt,词库地址.txt,词库下载地址.tx

  中文网页分词 1.目的 通过设计、编制、调试一个中文网页分词程序,加深对词法分析原理得以应用的理解 2.设计内容及要求 程序输入:中文网页 程序输出:有意义的中文词组,并标注其词性,如动词、名词、形容

  结巴分词是国内程序员用Python开发的一个中文分词模块,可能是最好的Python中文分词组件?中文分词的原理1、中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一...博文来自:天台的猫爷爷的博客

  ##使用LSTM网络实现中文分词本文使用jupyternotebook编辑,导出为py文件,去掉不加注释的本段后可直接执行(前提是下载了整个项目,且文件地址正确配置)。项目git地址为git@gith...博文来自:AI在路上

  隐马尔可夫模型(HMM)在中文分词中的应用隐马尔可夫模型的详细解释隐马尔可夫模型的一些范例介绍隐马尔可夫模型中有两个序列,一个是状态序列,另一个是观测序列,其中状态序列是隐藏的。用具体的例子来解释。 ...博文来自:CQUPT_Wan的博客

  作者:竹间智能Emotibot链接:来源:知乎著作权归作者所有。商业转载请联系作者获得授...博文来自:u012879957的专栏

  ElasticSearch 是一个基于 Lucene 的搜索服务器,是一个分布式、可扩展、实时的搜索与数据分析引擎,它能从项目一开始就赋予你的数据以搜索、分析和探索的能力,基于 RESTful web...博文来自:郭朝的博客

  1. 什么是Attention机制? 其实我没有找到attention的具体定义,但在计算机视觉的相关应用中大概可以分为两种: 1)学习权重分布:输入数据或特征图上的不同部分对应的专注度不同,对此...博文来自:Slow down, Keep learning and Enjoy life

  一、背景    一直以来,应用的流畅度都关乎着用户的体验性,而体验性好的产品自然而然会受到更多用户的欢迎,所以对于广大的工程师来说,界面的卡顿优化一直是Android应用性能优化的重要一环。而当前应用...博文来自:u012874222的博客

  用以前以前写过的自定义课表软件 ,Android 自定义View课程表表格 原生View截图合成分享的图片 看到的是图片只显示到11节处,下面的没有...博文来自:ShallCheek

  一、前言最近由于研究需要,要用到线性判别分析(LDA)。于是找了很多资料来看,结果发现大部分讲的都是理论知识,因此最后还是看的一知半解,后来终于找到了个英文的文档,作者由PCA引入LDA,看过后豁然开...博文来自:jnulzl的专栏

  相信学习编程的同学,或多或少都接触到算法的时间复杂度和空间复杂度了,那我来讲讲怎么计算。        常用的算法的时间复杂度和空间复杂度 一,求解算法的时间复杂度,其具体步骤是: ⑴ 找出算法...博文来自:杨威的博客

  面试一般都带简历的,简历上都会写自己做过什么项目,而且要写自己做过的能做出来的。 如果项目经理让你说说自己做的项目时,你就答你在简历上写的东西。 先从业务上说起,都啥功能,干啥的。在多加点就是你用了什...博文来自:猫儿

  描述 在PHP中可以通过定义session_set_save_handler,将服务器session数据存储在不同的介质上,比如存储在文件里,apc或memcache缓存中,或存储在数据库里。可对统...博文来自:yagas的专栏

  在学SVM中的实验环节,老师介绍了libsvm的使用。当时看完之后感觉简单的说不出线. libsvm介绍 虽然原理要求很高的数学知识等,但是libsvm中,完全就是一个工具包,拿来就能用。当时...博文来自:问道于盲

  阅读内容为:FX系列微型可编程控制器用户手册(通讯篇)中计算机链接功能章节。 采用本方法通信,pc端的实现,其实就是,把操作按照协议(2种)翻译成相应的字符串,通过串口发送给plc。 编写一应用程...博文来自:pengjc2001的博客

  我们可能经常会用到这一功能,比如有时,我们不希望用户没有进行登录访问后台的操作页面,而且这样的非法访问会让系统极为的不安全,所以我们常常需要进行登录才授权访问其它页面,否则只会出现登录页面,当然我的思...博文来自:沉默的鲨鱼的专栏

  jquery/js实现一个网页同时调用多个倒计时(最新的) 最近需要网页添加多个倒计时. 查阅网络,基本上都是千遍一律的不好用. 自己按需写了个.希望对大家有用. 有用请赞一个哦! //js ...博文来自:Websites

  旋转,应该是三种坐标变换——缩放、旋转和平移,中最复杂的一种了。大家应该都听过,有一种旋转的表示方法叫四元数。按照我们的习惯,我们更加熟悉的是另外两种旋转的表示方法——矩阵旋转和欧拉旋转。矩阵旋转使用...博文来自:candycat

  强连通分量: 简言之 就是找环(每条边只走一次,两两可达) 孤立的一个点也是一个连通分量   使用tarjan算法 在嵌套的多个环中优先得到最大环( 最小环就是每个孤立点)   定义: int Ti...博文来自:九野的博客

  没有仔细看是否正确,先保存到这里,以后研究一下 一、参考文章:博文来自:cibiren2011的专栏

  局部异常因子算法-Local Outlier Factor(LOF)在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常数据。异常检测也是数据挖掘的一个方向,用于反...博文来自:wangyibo0201的博客

  SQL Server查询和检索操作。 一道例题学会查询和检索操作: 1、在SQL SERVER 2008上附加teaching数据库,其中三张表的含义解释如下: 学生表dbo...博文来自:J.Anson的博客

http://williestat.com/fencidanwei/359.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有