一、自然语言处理
自然语言处理(natural language processing,NLP)也称自然语言理解(natural language understanding,NLU),从人工智能研发的一开始,它就作为这一学科的重要研究内容探索人类理解自然语言这一智能行为的基本方法。
二、自然语言处理研究的内容
自然语言处理研究的内容非常广泛,根据其应用目的的不同,大致列举了如下一些研究方向:
(一)机器翻译(machine translation,MT):实现一种语言到另一种语言的自动翻译。
(二)自动文摘(automatic summarizing):将原文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
(三)信息检索(information retrieval):也称情报检索,,利用计算机系统从海量文档中找到符合用户需要的相关文档
(四)文档分类(document categorization):也称文本分类或信息分类,利用计算机系统对大量的文档按照一定的分类标准(例如根据主题或内容划分)实现自动归类
(五)问答系统(question-answering system):通过计算机系统对用户提出的的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并作出相应的回答
(六)信息过滤(information filtering):通过计算机系统自动识别和过滤那些满足特定条件的文档信息。通常指网络有害信息的自动识别的过滤,用于信息安全和防护,网络内容管理
(七)信息抽取(information extraction):从文本中抽取特定的实践或事实信息
(八)文本挖掘(test mining):有时又称数据挖掘,指从文本中获取高质量信息的过程
(九)舆情分析(public opinion analysis):舆情分析是一项十分复杂,涉及问题众多的综合性技术,它涉及网络文本挖掘,观点挖掘等各方面的问题
(十)隐喻集散(metaphorical computation):研究自然语言语句或篇章中隐喻修辞的理解方法
(十一)文本编辑和自动校对(automatic proofreading):对文字拼写、用词、甚是语法、文档格式等进行自动检查、校对和编排
(十二)作文自动评分对作文质量和写作水平进行自动评价和打分
(十三)光读字符识别(OCR):通过计算机系统对印刷体或手写体等自动识别,将其转换为计算机可以处理的电子文本,简称字符识别或文字识别
(十四)语音识别:将输入计算机的语音信号转换成书面语表示
(十五)文本转换 :将书面文本自动转换成对应的语音表示,又称语音合成
(十六)说话人识别/认证/验证:对一说话人的言语样本做声学分析,依次推断说话人的身份
综上所述:涉及人类语言的任何应用技术都隐含这自然语言处理的问题。当然,上面所列举的这些研究内容覆盖面较广,很多内容不仅仅是自然怨言处理的问题,如信息检索、舆情分析、文字识别,甚至社交网络、社会计算等,除此之外,还有情感计算、语言教学、口语考试自动评分等,这些研究往往包含很多其他技术
三、自然语言处理涉及的几个层次
如果抛开语音学研究的层面,自然语言研究的问题一般会涉及自然语言的形态学、语法学、语义学和语用学等几个层次。
在实际研究中,语义学和语用学的问题往往是相互交织在一起的。语法结构的研究离不开对词汇形态的分析,句子语义的分析也离不开对词汇语义的分析、语法结构和语用的分析,他们之间往往互为前提。
四、自然语言处理面临的困难
自然语言处理最终应用目标包括机器翻译、信息检索、问答系统等非常广泛的应用领域。进一步归结,实现所有这些应用的目标最终需要解决的关键问题就是歧义消解问题和未知语言现象的处理问题。
一方面,自然语言中大量存在歧义现象
词汇形态歧义消解是自然语言处理需要解决的基本问题,如
I’ll see Prof.zhang home
对此例句系统需要正确的识别“I’ll”是单词I和will的缩写,而”Prof.”中的“.”只是表明是“Professor”的缩写,并非句子的结束。自动化研究所取得的成就
对汉语而言,尽管不存在形态变化的问题,但如何划分词的边界始终是中文信息处理中面临的难题
对此例句有两种划分:
(1)自动化 研究所 取得的成就
(2)自动化 研究 所 取得的成就
显然两个句子结构完全不一样put the block in the box on the table
“on the table” 可以修饰“box”,也可以限定“block”,于是有两种不同的语法结构
(1)put the block [in the box on the table]
(2)put [the block in the box] on the table
另一方面,对于一个特定的系统来说,总是有可能会遇到未知词汇、未知结构等各种意想不到的情况,而且每一种语言又随着社会的发展而动态变化着,一个实用的自然语言处理系统必须具备较好的未知语言现象的处理能力,而且有足够的对各种可能输入形式的容错能力,即我们通常所说的系统的鲁棒性问题。
总而言之,目前的自然语言处理研究面临着若干问题的困扰,既有数学模型不够奏效,有些算法的复杂度过高,鲁棒性太差等问题,也有数据资源匮乏,覆盖率低,知识表示困难等知识资源方面的问题,当然,还有实现技术和系统集成方法不够先进等方面的问题。正是有这些问题和困难,才使得自然语言处理研究更加充满挑战,更需要我们去创新和探索!
注:本文摘自《宗成庆统计自然语言处理》