找回密码
 立即注册
搜索
查看: 2889|回复: 9

[其他] Lunatranslator更新了Google lens OCR,效果挺不错的

[复制链接]
     
发表于 2024-8-19 16:39 | 显示全部楼层 |阅读模式
最新的是5.28版和我之前的5.11版有了不少差别,1 取消了OCR的后处理选项,之前我很喜欢灰度化后过滤亮度过高的背景 2 多了个免配置的Google Lens,在较高频率的2秒一次的请求时候依然能高效返回结果,效果比5.11的本地OCR还好。而5.11的OCR本身就比过去的本地OCR更好。 配合最近的GPT4o mini或者deepseek,已经能非常高速高准确率的实时翻译了。
我的设置,OCR引擎是Google Lens。

Chatgpt 4o mini模型,附带上下文数:2,自定义系统prompt:“你将输入的日文翻译成中文,你直接给出结果不要任何解释。该日文可能来自于OCR或者语音识别,因此存在漏字和错误的日文,你要纠正后再翻译。”


顺便说句,麻生华澄的师生恋剧情真好啊,除了不知道男主家长和同学到底会怎么看,小两口倒是把高中生活过成啥师生恋大舞台了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2024-12-23 01:13 | 显示全部楼层
请教下楼主GPT4o mini和deepseek的翻译能力差距,日语和英语的

现在用deepseek感觉翻译效果已经很不错了,完爆在线翻译和本地部署的小参数模型,如果差距不大就不用gpt了
回复

使用道具 举报

     
 楼主| 发表于 2024-12-23 08:50 | 显示全部楼层
本帖最后由 泰坦失足 于 2024-12-23 08:57 编辑
浅井惠 发表于 2024-12-23 01:13
请教下楼主GPT4o mini和deepseek的翻译能力差距,日语和英语的

现在用deepseek感觉翻译效果已经很不错了, ...

感觉没啥区别。我一般把上下文数量设为4 max tokens 4096,把过去的上下文添加进去。这样前后人名翻译和背景翻译更连贯。
虽然DeepSeek和4o mini价格差不多,但是DeepSeek的命中缓存时候的输入明显便宜的多。你可以考虑先用DeepSeek的深度思考,输入游戏的英文/日文/中文wiki,让它把游戏的人名/专有名词总结做成一个词典,作为自定义prompt输入,这样不会把同一个人名翻译成不同版本。

注意,只有当两个请求的前缀内容相同时(从第 0 个 token 开始相同),才算重复。中间开始的重复不能被缓存命中。

https://api-docs.deepseek.com/zh-cn/news/news0802

评分

参与人数 1战斗力 +1 收起 理由
浅井惠 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2024-12-23 12:16 | 显示全部楼层
泰坦失足 发表于 2024-12-23 08:50
感觉没啥区别。我一般把上下文数量设为4 max tokens 4096,把过去的上下文添加进去。这样前后人名翻译和背 ...

感谢分享,我用本地模型的时候默认设置一般maxtoken是1024,因为很少有一句话几百个单词的情况,太长容易让意思偏离,倒是上下文为什么只设为4?我一般上下文是4096
回复

使用道具 举报

     
 楼主| 发表于 2024-12-23 12:21 | 显示全部楼层
浅井惠 发表于 2024-12-23 12:16
感谢分享,我用本地模型的时候默认设置一般maxtoken是1024,因为很少有一句话几百个单词的情况,太长容易 ...

4096个上下文是不是太多了点?那可是4096条过去的输入啊。input中上下文长度也拖慢output译文速度。
数字倒是可以适当提升下,因为OCR如果识别一句话输出到一半时候,会一句话其实占用了多个上下文,把原本上下文中的对话记录挤走
回复

使用道具 举报

     
发表于 2024-12-23 12:27 | 显示全部楼层
泰坦失足 发表于 2024-12-23 12:21
4096个上下文是不是太多了点?那可是4096条过去的输入啊。input中上下文长度也拖慢output译文速度。
数字 ...

4096的上下文也就是3000个word左右,差不多一个场景对话的数量?

这样可以尽量保证一个场景内的翻译保持连贯

拖慢速度倒还好,实测基本影响不大
回复

使用道具 举报

     
 楼主| 发表于 2024-12-23 12:39 | 显示全部楼层
本帖最后由 泰坦失足 于 2024-12-23 12:42 编辑
浅井惠 发表于 2024-12-23 12:27
4096的上下文也就是3000个word左右,差不多一个场景对话的数量?

这样可以尽量保证一个场景内的翻译保持 ...

这个指的4096个input吧。最终prompt=system+4096条历史input+当前input,然后按maxtoken进行截断。
回复

使用道具 举报

     
发表于 2024-12-23 12:46 | 显示全部楼层
泰坦失足 发表于 2024-12-23 12:39
这个指的4096个input吧。最终prompt=system+4096条历史input+当前input,然后按maxtoken进行截断。 ...

上下文长度context length是按token计算的
回复

使用道具 举报

     
 楼主| 发表于 2024-12-23 13:10 | 显示全部楼层
本帖最后由 泰坦失足 于 2024-12-23 13:15 编辑
浅井惠 发表于 2024-12-23 12:46
上下文长度context length是按token计算的

这怎么看都比4个tokens长吧. 这个“附带上下文个数”选项

你专业的翻译我输入的日文。这些日文来自日本校园背景的恋爱故事情节的视觉小说galgame。因此可能头两个字表示说话人名。同时这些日文来自于OCR,你要考虑到OCR的错误识别和错误断成多行,你要纠正这些OCR导致的错误日文原文,推理出正确的日文后再翻译出对应的中文。你直接给出翻译后的结果,不要其他多余的废话。结果不能是英文,一定要是中文!<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n君がいなくなるって考えるだけで\n涙がふ一出ちゃうんだよ<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n光是想象你不在我身边就,眼泪就要流出来了<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n巨題全部回到刀区<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n回到开头<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n++ ×\n bash Ihuan139 刀塔的旧刀塔\nFalse, max_tokens-2e48, min_tokens--.\npter_request: None.  bash Ihuan139\n以后本区不寸診<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n', params: SamplingParams(n=1, presence_penalty=0.0, frequency_penalty=0.0, repetition_penalty=1.0, temperature=0.2, top_p=0.3, top_k=-1, min_p=0.0, seed=None, stop=[], stop_token_ids=[], bad_words=[], include_stop_str_in_output=False, ignore_eos=False, max_tokens=2048, min_tokens=0, logprobs=None, prompt_logprobs=None, skip_special_tokens=True, spaces_between_special_tokens=True, truncate_prompt_tokens=None, guided_decoding=None), prompt_token_ids: None, lora_request: None, prompt_adapter_request: None.



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2024-12-23 13:27 | 显示全部楼层
泰坦失足 发表于 2024-12-23 13:10
这怎么看都比4个tokens长吧. 这个“附带上下文个数”选项

你专业的翻译我输入的日文。这些日文来自日本校 ...

上下文长度指的不是一次对话中对所有指令的记忆,而是回答的参考内容,它只影响回答的质量

上下文长度以token计算应该是没什么疑义的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 22:16 , Processed in 0.027207 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表