月影挽歌 发表于 2025-1-20 16:33

问道于盲 发表于 2025-1-20 16:22
是的,有些时候,你甚至会忍不住去点一下你不喜欢的东西,测试一下自己究竟有多不喜欢,但愚蠢的算法就以 ...

短视频之类的东西还算好,不喜欢直接刷掉就完事了

某些购物网站就太脑抽了,某玩意我都买完了,再给我推送XXXX降价了/升级了的信息,这不是故意气我吗

明斯克 发表于 2025-1-20 16:39

我的理解,这玩意说白了就是规则      就和那些设计CPU或者别的什么的建模软件一样      是从这家软件公司的这个产品诞生之初,就搭建好并不断修补,完善的最重要的规则。

你就是抢了完整的拿到了   也只是某一个时间段的这个版本比如1.0,   你不是这家公司,不是这些技术,这些人,不理解人家公司的规则,那么你的1.0再延申出的1.1就和原来公司的1.1是不同的。 而且越久就越不同   

重巡羊舰 发表于 2025-1-20 16:41

字节的算法都在国内啊,所有数据是脱敏发到国内做训练的……你把tt抄家了也没用嘛

鸡腿不足 发表于 2025-1-20 16:45

重巡羊舰 发表于 2025-1-20 16:41
字节的算法都在国内啊,所有数据是脱敏发到国内做训练的……你把tt抄家了也没用嘛 ...

字节的算法实体是什么

yxch 发表于 2025-1-20 16:52

月影挽歌 发表于 2025-1-20 16:33
短视频之类的东西还算好,不喜欢直接刷掉就完事了

某些购物网站就太脑抽了,某玩意我都买完了,再给我推 ...

马上买了然后把之前的退掉,某多多上我这样干好几次了,不能怪我,谁让他刚买完就推送一家更便宜的给我

xibeijian 发表于 2025-1-20 17:06

算法实体 = (( 数据 + 标签 )x (狭义算法 +参数) x 智力 + 算力)* 时间

qratosones1337 发表于 2025-1-20 18:11

鸡腿不足 发表于 2025-1-20 16:45
字节的算法实体是什么

模型训练相关的代码和文档

—— 来自 鹅球 v3.3.96

鸡腿不足 发表于 2025-1-20 18:14

qratosones1337 发表于 2025-1-20 18:11
模型训练相关的代码和文档

—— 来自 鹅球 v3.3.96

那这个会占体积很大吗,会容易被复制或传输走吗

qratosones1337 发表于 2025-1-20 18:21

鸡腿不足 发表于 2025-1-20 18:14
那这个会占体积很大吗,会容易被复制或传输走吗
训练的基础设施和中间数据体积非常大,传输的最省事方法是卡车拉磁带

KENN 发表于 2025-1-20 18:22

有段时间百度贴吧推荐的算法挺厉害的
比如我在仁王吧看了个贴子,他推荐的帖子标题跟仁王没半点关系,但是回帖里面很多关于仁王的讨论
后来可能度⌚抽风了换人还是啥,现在首页推荐的帖子八竿子打不着一点兴趣都没有。自然就少了我的这份流量。

dulun59 发表于 2025-1-20 18:52

从用户端来说 用户端体验到的所有非固定设置的个性化内容都是算法
从服务商来说 这是代码 数据结构设计 甚至还包括特定的运营人员的组合

论坛助手,iPhone

相见恨晚 发表于 2025-1-20 19:03

会不会这一天时间把算法都换成美国的,再声称没有中国算法了,所以可以卖了?

枯风瘦雪 发表于 2025-1-20 19:07

相见恨晚 发表于 2025-1-20 19:03
会不会这一天时间把算法都换成美国的,再声称没有中国算法了,所以可以卖了? ...

真换了就真的可以卖了,tt在出海竞争中脱颖而出靠的是什么得有个清晰认知啊,核心竞争力收回来的话,剩下的怎么卖都不亏

—— 来自 S1Fun

gofbayrf 发表于 2025-1-20 19:16

同体会不到抖音算法威力的路过

24k纯帅 发表于 2025-1-20 19:20

本帖最后由 24k纯帅 于 2025-1-21 11:50 编辑

本质是一种信息压缩,但是如果我说我把一些敏感信息不压缩但打包成一个模型带走,说这是算法, 那肯定有人要找法律制裁我

笨拙的机器人 发表于 2025-1-21 00:26

太复杂了,离线可能有上万张表,实时也要存非常多 key-value 对,但是这些都托管在美国,也就是说美国有心要偷,那数开的流程,模型用了哪些特征肯定是可以偷到的。但是模型训练本身真的太复杂了,复杂的特征可能一个特征就对应十几个调度流程。我把我的模型离线训一遍,大概要一个星期,出评估结果。离线有效果,还要放到线上做实验。如果实验也有效果,再用专门的数开流程、算法工程流程把模型的diff推到线上。并不是说上线就结束了。上线了还要加监控,盯指标,看各个流程运行得是否符合预期,麻烦得很

RandomDictator 发表于 2025-1-21 02:36

感兴趣的话可以去b站看这个小红书工程师讲的推荐系统公开课,讲得非常好
【合集·推荐系统公开课——王树森-哔哩哔哩】 https://b23.tv/mhaejrf

—— 来自 S1Fun

hanyuwei70 发表于 2025-1-21 09:08

他这个算法除了一大堆模型和权重之外,更重要的是配套服务。

体制 发表于 2025-1-21 09:21

kabunsan 发表于 2025-1-20 07:53
我这种外行,其实不太理解,不就是不断推送用户以前点击过的类似视频吗?有啥特别难的?

—— 来自 鹅球 v ...

比如说,你是个军武宅,喜欢坦克。
牛逼算法会给你推坦克科普,在推推军舰枪械,再推推军武拟人
垃圾算法会给你推坦克女。

希德尼娅 发表于 2025-1-21 09:24

绕指流光 发表于 2025-1-20 10:12
难,tt和小红书对比shortes reel的确是降维打击

楼上有个找书的比喻非常不错,这不是单纯的检索,是对上 ...

meta每年招那么多加大伯克利和麻省的都在干啥,我寻思弄套大模型每天喂它tt的输入输出这么多年也训练出来了吧

希德尼娅 发表于 2025-1-21 09:25

normalli 发表于 2025-1-20 16:20
就是秘密,虽然不一定真的有什么秘密,但没有秘密也是秘密,数据挖掘早就变成了工程问题,美国企业并不是做 ...

为啥没人用?

qratosones1337 发表于 2025-1-21 09:26

希德尼娅 发表于 2025-1-21 09:24
meta每年招那么多加大伯克利和麻省的都在干啥,我寻思弄套大模型每天喂它tt的输入输出这么多年也训练出来 ...

这你就要问Meta了,事实上大模型这边Meta号称十万卡,结果自己训了一个视频理解模型居然还要用Qwen当底模

Jet.Black 发表于 2025-1-21 09:33

推荐算法好坏评判标准是啥?

我觉得最近两三年停滞不前也没啥进步,近两年有啥新功能么。

億万千 发表于 2025-1-21 09:51

是一个完整的流程,包含了大量的经验、文档、代码实体、系统设计等,或者说他和常规的软件实体没什么区别
比如我今天说要复制一个淘宝,那么我得雇人开发像淘宝一样功能的APP和网站,搭建和淘宝一样功能的后台服务,使用技术手段解决淘宝遇到过的各种问题
那如果淘宝说嗨呀这些我直接教给你就行了,那么就构成了主楼说的出售算法
如果我说你也别来教,我蚂蚁搬家,挖点你们的人过来复制一下顺手带走一点内部文档,那么这就是互联网公司的常见生态,跳槽不就是为了这个

笨拙的机器人 发表于 2025-1-21 10:35

Jet.Black 发表于 2025-1-21 09:33
推荐算法好坏评判标准是啥?

我觉得最近两三年停滞不前也没啥进步,近两年有啥新功能么。 ...

离线看ctr cvr的auc,线上非常多指标,有观看时长 DAU这种护栏指标,最看重的一般是GMV

yichengyu 发表于 2025-1-21 10:39

所谓的算法核心就是黑盒,你只能看到输入和输出但是不知道黑盒是如何处理这些数据的,这也就是数据资产中最值钱的部分之一,所有输入-你不懂但是大为震撼-输出的东西都可以称之为黑盒

xiaoleirei 发表于 2025-1-21 15:07

页: 1 [2]
查看完整版本: 算法的实体到底是啥?