自然语言处理心得体会 自然语言处理技术与应用讲座报告

学历教育 2025-05-02 10:31:57

自然语言处理 - 期末复习总结

章内容主要是NLP中的各种概念及方法的介绍。

自然语言处理心得体会 自然语言处理技术与应用讲座报告自然语言处理心得体会 自然语言处理技术与应用讲座报告


自然语言处理心得体会 自然语言处理技术与应用讲座报告


自然语言处理心得体会 自然语言处理技术与应用讲座报告


目前自然语言处理的研究从大的角度可分为两类方法:理性主义与经验主义方法。

第二章内容主要是几种乔姆斯基文法和自动机以及它们之间的关系。

文法、语言与自动机之间的对应关系:

详见《统计自然语言处理(第2版)》P39。

自顶向下分析法、自底向上分析法、转移网络文法、自顶向下线图分析法

LR分析算法、GLR分析算法

详见PPT上内容

包括N-gram、困惑度、数据平滑(加一平滑、减值法/折扣法、Good Turing、线性插值(Jelinek-Mercer)、回退式数据平滑(Katz))

未完。。。

自然语言处理中距离计算总结

距离计算在自然语言处理中得到广泛使用,不同距离计算方式应用与不同的环境,其中也产生了很多不同的效果。

1 余弦距离

余弦夹角也可以叫余弦相似度。中夹角可以用来衡量两个向量方向的异,机器学习中借用这一概念来衡量样本向量之间的异。

余弦取值范围为[-1,1]。求得两个向量的夹角,并得出夹角对应的余弦值,词余弦值就可以用来表示这两个向量的相似性。夹角越小,趋近于0度,余弦值越接近于1,它们的方向就更加吻合,即更加相似。当两个向量的方向完全相反时,夹角的余弦取小值-1。当余弦值为0时,两向量正交,夹角为90度。因此可以看出,余弦相似度于向量的幅值无关,于向量的方向相关。

公式描述:

Python代码实现:

2 欧氏距离

欧几里得距离即欧几里得空间中两点间的直线距离。

Python实现:

3 曼哈顿距离

曼哈顿距离也成为城市街区距离。用来表示两个点在标准坐标系上的轴距之和,即从一个路口到另外一个路口,驾驶距离不是两点之间的直线距离。

Python实现

4 明可夫斯基距离

明氏距离又叫明可夫斯基距离,是欧氏空间中的一种测度,被看作欧氏距离和曼哈顿距离的一种推广。

python实现

可参照之前代码

5 切比雪夫距离

python实现

6 杰卡德距离

杰卡德(Jaccard)相似系数:两个A和B的交集在元素在A、B的并集中所占的比例,称为两个的杰卡德相似系数,用符号J(A,B)表示。杰卡德距离:在占比中所取的是两个中不同元素。

Python实现:

7 汉明距离

在信息论中,两个登场字符串之间的汉明距离对应位置上的不同字符的个数。也就是说,将一个字符串变换成另一个字符串所需要替换的字符个数。

例如:“toned”与“roses”之间的汉明距离就是3

python实现:

版权声明:本文内容由互联。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发 836084111@qq.com 邮箱删除。