对于大数据的一些处理方法

最新推荐文章于 2020-03-21 19:50:32 发布

MISSyingying

最新推荐文章于 2020-03-21 19:50:32 发布

阅读量4.4k

点赞数

分类专栏：数据结构之C语言文章标签：海量数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yinghuhu333333/article/details/81356544

版权

问题：数据太大，在内存中无法一次性装入。

题1：给定一个大小超过100亿的文件，该文件是用来存储IP地址，找到出现次数最多的IP地址。
分析：100亿就是大约就是10G，对于现在的计算机而言，内存中无法容纳这么大的文件。
解决：将一个大文件切分为多个小文件，例如：我们可以将该100亿的大文件切分为1000个文件，即每个文件的大小大约就是10M，那么就可以在内存中容纳得下了。
那么，我们要怎么来切分这个100亿的大文件呢？平均分？很显然是不可以的，如果分到某个文件的IP地址出现的次数都是1次，那么该文件出现最多的IP就是这10M个IP。那么就会浪费很大的空间，不符合我们的预期。所以，在此我们可以采用哈希表的方式，对IP先转换为对应的整数，在对该数取模，将模相同的IP放在同一个文件之中，那么这样在同一个文件中出现IP相同的概率就会大一些。
然后我们就可以分别统计出这1000个文件中IP次数最多的IP，然后再将这1000个文件进行汇总。如下面的图解。

题2：给定100亿个整数，找到其中只出现一次的整数。
分析：遇到这样的问题，我们首先想到的处理方法就是&#x

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
对于大数据的一些处理方法

问题：数据太大，在内存中无法一次性装入。题1：给定一个大小超过100亿的文件，该文件是用来存储IP地址，找到出现次数最多的IP地址。分析：100亿就是大约就是10G，对于现在的计算机而言，内存中无法容纳这么大的文件。解决：将一个大文件切分为多个小文件，例如：我们可以将该100亿的大文件切分为1000个文件，即每个文件的大小大约就是10M，那么就可以在内存中容纳得下了。那么，我们要怎...
复制链接

扫一扫

专栏目录

MISSyingying CSDN认证博客专家 CSDN认证企业博客

码龄7年

85: 原创

18万+: 周排名

210万+: 总排名

10万+: 访问

: 等级

1759: 积分

40: 粉丝

63: 获赞

12: 评论

234: 收藏

私信

关注

热门文章

分类专栏

C语言 25篇
小项目 5篇
数据结构之C语言 14篇
C+ 19篇
Linux 15篇
mysql 1篇
Python 2篇
软件测试 2篇
shell 1篇

最新评论

非阻塞IO(将文件描述符设置为非阻塞)
爱躺平的咸鱼: 这是一个值传递，为什么会作用于原来的文件描述符呢
浅谈模板函数和模板类以及不使用乘除,for,while,等循环和递归来计算1+2+3+4+....+n的值
a80034280: char arr[N][N + 1] = {0}; cout<<(sizeof(arr))>>1)<<endl; 真尼玛是人才
C++中四种强制类型的转换
DarringZ: 请问static_case(静态转换)中不可以用于多态类型的转换. 不可以用于静态类型的转换. 是什么意思？可以麻烦博主给我举例解释一下吗
简单总结一下strcmp函数的实现
GangStudyIT 回复 qq_43078530: 入参为什么要加const吗？因为不加const，在你比较的时候把传入进来的指针指向位置改了，这时候你还按照原来指针位置去操作，就发生内存访问错误，就出现段错误了！所以加上const，你不能把传入的参数指针的位置改掉，你一但要改会提示语法错误！
简单总结一下strcmp函数的实现
qq_43078530: 为什么要加const，不加会发生段错误，为什么

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。