写在前面
由于毕业论文使用到部分自然语言处理的相关概念和工具,在写作过程中梳理了一部分与其相关的概念。这些概念都非常基础,但是部分是自然语言处理的重要概念,对理解这个领域能够有一定的帮助。
自然语言处理相关概念
自然语言处理
自然语言处理(Natural Language Processing,简称NLP)是人工智能和语言学领域的分支学科,融语言学、计算机科学、数学等于一体。清华大学自然语言处理与社会人文计算实验室首页这样写到:
语言是人类区别于动物的根本标志,没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界(只有当计算机具有处理语言的能力时,机器才可能通过图灵测试)。
语料库
语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 “text corpus” 的涵意即为 “body of text”。
切词
中文切词(又称中文分词,Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。
在这种情况下,出现两个声音:
- 其一,中文切词成为了自然语言处理,尤其是中文自然语言处理的一个主要研究点。但就目前既有资料来看,中文分词基本上可以视为一个已经解决的问题。(吴军《数学之美》)。
- 其二,切词是中文自然语言处理的特有工作,因为汉字之间没有空格间隔。这种切词特有论已经有人给出了反思,可参考:
- 任何自然语言处理都有一个先行环节,叫 tokenization(符号化),就是把输入的字符串分解成为词汇单位:无论何种书面语,没有这个环节,辞典的词汇信息就无以附着,在词汇类别的基础上的有概括性的进一步句法语义分析就不能进行。
词频
TF - 词频
在一份给定的文件里,词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
DF - 文件频率
即有多少份文件出现该词。测定有多少分文件出现过该词,然后除以文件集里包含的文件总数。
IDF - 逆向文件频率
逆向文件频率(inverse document frequency,idf)是一个词语普遍重要性的度量。某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:
TF-IDF
tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
举例
- 条件:
- 假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,
- 如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,
- 计算:
- TF(词频):那么“母牛”一词在该文件中的词频就是3 / 100 = 0.03。
- IDF(逆向文件频率):log ( 10,000,000 / 1,000) = 4。
- TF-IDF:最后的 tf-idf 的分数为0.03 * 4 = 0.12。
文本聚类
文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。
参考资料
- 维基百科
- 百度百科
- 台湾维基 - 中文切词
- 中文处理的迷思之一:切词特有论 - 我爱自然语言处理