当前位置： > 财经>正文

文本分类方法总结黄金走势分析方法有哪些种类和特点

2023-08-27 09:35:31 互联网未知财经

文本分类方法总结

1 机器学习的文本分类方法

1.1 特征工程

1.1.1 文本预处理

1.1.2 文本表示和特征提取

1.1.3 基于语义的文本表示

1.2 分类器

朴素贝叶斯分类（Naïve Bayes）

用朴素贝叶斯分类算法做中文文本分类

KNN

SVM

最大熵

2 深度学习的文本分类方法

2.1 文本的分布式表示：词向量（word embedding）

2.2 深度学习文本分类模型

2.2.1 fastText

2.2.2 TextCNN

2.2.3 TextRNN

2.2.4 TextRNN + Attention

2.2.5 TextRCNN

2.2.6 EntNet/DMN

2.3 总结

Reference

1 机器学习的文本分类方法

文本分类问题算是自然语言处理领域中一个非常经典的问题了，相关研究最早可以追溯到上世纪50年代，当时是通过专家规则（Pattern）进行分类，甚至在80年代初一度发展到利用知识工程建立专家系统，这样做的好处是短平快的解决top问题，但显然天花板非常低，不仅费时费力，覆盖的范围和准确率都非常有限。

后来伴随着统计学习方法的发展，特别是90年代后互联网在线文本数量增长和机器学习学科的兴起，逐渐形成了一套解决大规模文本分类问题的经典玩法，这个阶段的主要套路是人工特征工程+浅层分类模型。训练文本分类器过程见下图：

整个文本分类问题就拆分成了特征工程和分类器两部分，玩机器学习的同学对此自然再熟悉不过了

1.1 特征工程

特征工程在机器学习中往往是最耗时耗力的，但却极其的重要。抽象来讲，机器学习问题是把数据转换成信息再提炼到知识的过程，特征是“数据-->信息”的过程，决定了结果的上限，而分类器是“信息-->知识”的过程，则是去逼近这个上限。然而特征工程不同于分类器模型，不具备很强的通用性，往往需要结合对特征任务的理解。

文本分类问题所在的自然语言领域自然也有其特有的特征处理逻辑，传统分本分类任务大部分工作也在此处。文本特征工程分为文本预处理、特征提取、文本表示三个部分，最终目的是把文本转换成计算机可理解的格式，并封装足够用于分类的信息，即很强的特征表达能力。

1.1.1 文本预处理

文本预处理过程是在文本中提取关键词表示文本的过程，中文文本处理中主要包括文本分词和去停用词两个阶段。

预处理不是

聚慧财富

文本分类方法总结黄金走势分析方法有哪些种类和特点

相关文章

最新文章

版权声明

联系我

特别鸣谢

聚慧财富

文本分类方法总结 黄金走势分析方法有哪些种类和特点

相关文章

最新文章

版权声明

联系我

特别鸣谢

文本分类方法总结黄金走势分析方法有哪些种类和特点