全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1520|回复: 15
打印 上一主题 下一主题

[疑问] txt怎么去重最高效

[复制链接]
跳转到指定楼层
1#
发表于 2023-10-14 08:25:20 来自手机 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
2#
发表于 2023-10-14 08:38:38 | 只看该作者
时间换空间,空间换时间。什么软件来了照样慢,加内存就完事了。
3#
发表于 2023-10-14 09:12:29 | 只看该作者
一台不行就分布式呗,把txt切一下,分到几台机器用脚本跑
4#
发表于 2023-10-14 09:27:57 | 只看该作者
内容去除? GPT用代码因该好处理
5#
发表于 2023-10-14 09:32:14 | 只看该作者
试试飞梭 先切割一下  飞梭除了去重也有切割工具
6#
发表于 2023-10-14 09:33:57 | 只看该作者
我使用 C/C++ 写过一个工具,是把文件全读取,然后排序去除重复的。
你文件太大了,先切割成你内存 的 2/3大小,然后单个文件一次性载入试试
7#
发表于 2023-10-14 09:42:12 | 只看该作者
我之前2t的数据,按照每行数据的首位分割成256个文件,去重非常快
8#
发表于 2023-10-14 11:52:20 来自手机 | 只看该作者
。几个T的txt
9#
发表于 2023-10-14 11:53:29 | 只看该作者
以前试过python写的. 10亿的数据才几百G.. 你这信封牛
10#
发表于 2023-10-14 14:51:37 | 只看该作者
租个大杜甫
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-10-5 03:01 , Processed in 0.059370 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表