Stage1st

 找回密码
 立即注册
搜索
查看: 4000|回复: 13
打印 上一主题 下一主题

[欢乐] 一个关于NLP的问题,求解

[复制链接]
     
跳转到指定楼层
楼主
发表于 2024-3-16 00:52 来自手机 | 显示全部楼层 回帖奖励 |倒序浏览 |阅读模式
假设我将所有的分词结果合并,成为一个分词词库,现在我有一个已知的目录,我该如何将这些词语分类到已知的目录中,使得我之后进行测试的语料中只要含有该词语,这一部分就进入目录?
(假设这一部分语料可以进入多个目录)
回复

使用道具 举报

     
2#
 楼主| 发表于 2024-3-16 02:28 来自手机 | 显示全部楼层
WiiGe 发表于 2024-3-16 02:13
我没看太明白这个目录是指的directory还是index, 但你是不是想整个文本主题分类器? ...

大概是类似于“计算及控制芯片”“驱动芯片”“通讯芯片”这种已经定好的分类目录吧
回复

使用道具 举报

     
3#
 楼主| 发表于 2024-3-17 00:45 来自手机 | 显示全部楼层
WiiGe 发表于 2024-3-16 02:40
我能不能这么理解:
你有一些语料(比如一堆文档),大致可以分为 计算及控制芯片/ 驱动芯片/ 通讯芯片 etc ...

对的。不过不是把文件移动到某个目录下,而是给予她某个目录的标签,因为一个语料符合条件下可以有多个目录。
回复

使用道具 举报

     
4#
 楼主| 发表于 2024-3-21 13:04 来自手机 | 显示全部楼层
Jumbohard 发表于 2024-3-17 08:33
感觉楼主的思路再拓展一下就是朴素贝叶斯分类器了,要不然试着训练一个,或者用决策树来分类?按照出现的关 ...

对的,就是这样,十分感谢。在此还有一个问题想问一问,如果这n个分类已经被订好各自的名称(个属性)了,还可以用训练的词向量进行分类吗?
回复

使用道具 举报

     
5#
 楼主| 发表于 2024-3-21 21:49 来自手机 | 显示全部楼层
本帖最后由 zuckmydik 于 2024-3-21 21:51 编辑
Jumbohard 发表于 2024-3-21 20:55
用词向量对词汇进行聚类本&# ...

其实可以这样说,假设我有n个产品相关的充足语料,也有已经订好数量和名字的m个分类。(这些分类从BB霜到BB机涵盖完全,但这些分类是已经被固定好不能修改的。)现在我的问题就是如何用训练集训练出可以把这些产品送入这些分类的模型。(一个产品可以放多个分类)
请问这种问题能靠什么方式解决呢?是不是该用one hot做超大矩阵?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|stage1st 沪ICP备13020230号-1 沪公网安备 31010702007642号

GMT+8, 2024-5-12 15:18 , Processed in 0.025372 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表