1 中文分词算法概述
中文分词是自然语言处理、数据挖掘等信息处理领域的基础,也一直是领域内研究的难点和重点。不同于英文,在中文文本中,词与词之间没有空格进行分隔,无法通过简单的字符串分割得到词组。中文当中易于分割的只有字、句、段,而词语却没有明显的分隔标识。因此通过分隔符来进行中文分词是及其困难的。中文文本的语法缺乏规范化,规则和结构十分复杂,相同的文本用不同的分词方法可能产生歧义,同时中文词语的数量也极为庞大,并且还在不断扩充。针对这些问题,国内学者提出了不同的中文分词算法。目前中文分词的方法主要有基于文本匹配的分词算法,基于理解的分词算法,基于统计的分词算法。近年来,随着对中文分词研究的深入,中文分词的准确度及速度都在不断提高。
2 中文分词在医学领域的应用
近年来数据挖掘技术越来越受到医学研究人员的重视,中文分词在医学领域也得到越来越广泛的应用。
2.1 中文分词用于抑郁症预防干预
在这个发展迅速的信息时代,人们倾向于在网络上抒发自己的情绪、寻求问题的答案。社交媒体(微博,facebook,twitter…)是允许用户自创和交换内容的互联网应用,是一个拥有大量数据的超集,从中能够挖掘出用户的的思想动态和行为倾向。对用户的社交平台的记录(例如用户所发的微博,在百度知道、贴吧上的提问)应用中文分词技术进行处理分析,提炼出有用的关键词,能够为对用户心理状态的分析和可能的动机与行为的预测提供一定的依据,从而提前做好干预措施。
中文分词在此方面的应用的主要思想是通过网络爬虫等方法采集用户的社交网络记录,采用一定的分词算法进行处理,用基于向量空间模型,基于频繁项集等短文本聚类的等方法等提炼出关键词,对结果进行分析和预测。当结果表明此用户有抑郁的倾向时,例如:关键词体现为“绝望”,“痛苦”,“孤独等”,便可根据用户信息联系其亲友、单位、学校等对其进行帮助,必要时进行心理疏导和治疗,避免悲剧的发生。
该方法具有提取用户心理状态信息的能力,但仍需要完善。对微博等短文本处理提取出的关键词特点不够显著时,需要进一步对文本进行情感分析,找出负向情感的文本记录。再对其进行主题抽取找出关键词,分析用户的特点。
2.2 中文分词用于电子病历数据挖掘
电子病历中存在着大量的数据,通过中文分词技术的应用,挖掘出真实电子病历中的隐含信息,对疾病与药品进行分析,发掘有价值的信息,对于医学研究与应用具有重要的意义。
电子病历中包含了患者的个人信息,和医生的诊断、检查结果、治疗方法记录等等医疗信息,是病人就诊的全部记录。病历中的文本是由医务人员录入的,是非结构化的数据。因为病历文本中存在药品名称、疾病名称、组织器官名称等不常见的医学专用词,所以病历文本的分词在普通中文分词的基础上还需要进行词典的扩充。由此,利用中文分词进行电子病历的数据挖掘的主要思路为:通过网络爬虫对药品等数据进行提取,加入至自定义词典中,使用扩充的词典对病历进行分词和词性标注,获得疾病和药品的信息,再用关联分析法对疾病和药品进行分析。通过挖掘信息,总结出患者接受治疗过程中各种药物和治疗方法所产生的疗效,医学研究者更容易找到易患病人群的年龄、地区等规律,既能给潜在发病者预防的契机,也能给医生接诊相似病例带来一定的参考价值,为医学研究提供一定的思路,推动医学的智能系统的发展。
用中文分词进行电子病历挖掘的难点在于自动分词的准确性,基于词典的方法和基于有监督机器学习的方法是目前的主流方法,但是中文病历还目前还缺乏有针对性的、完整的专业领域词典,仅仅靠网页数据的提取和人工标注语料难以完全解决未登录词的问题。针对此问题,哈尔滨工业大学的张立邦等学者提出了基于无监督学习的方法,通过EM算法从生语料中估计词的出现概率,利用字串的左右分支信息熵构建良度,将未登录词识别转化为最优化问题,在未登录词的识别上取得了较好的效果,但精度还能够继续完善。如何提高无监督学习的准确率,是未来需要解决的问题。
2.3 中文分词用于药物研究
近年来,中文分词在药物研究领域也得到了越来越多的应用。以中药的研究为例,通过对古今文献的文本挖掘,能够总结出一定的用药规律,例如各种药材的搭配比例。中草药材的名称不是常见词语,需要扩充进词典中,扩充的方法可以是网页信息提取,人工输入词典或者语料库加工。通过对某一症状的用药记录进行分词,统计出各种药材的使用频次以及用量比例,能够挖掘出治疗效果最佳的药材配方。
文章来源:《医学信息》 网址: http://www.yxxxbjb.cn/qikandaodu/2021/0314/1224.html
上一篇:医学院校移动教学的设计与实现
下一篇:计算机网络在医学信息中的实际应用