Skip to content

collabH/reasearch-bigdata

Repository files navigation

大数据成长之路

Hadoop

历史之路

Hadoop十年解读

HDFS JavaAPI

副本因子的坑

如果通过hdfs shell上传的文件那么他的副本因子是根据 hdfs-site.xml中的配置,
如果是通过Java API方式那么他会使用副本因子为3的配置

项目实践

用户行为日志分析

日志数据内容

  • 访问的系统属性:操作系统、浏览器等等
  • 访问特征:点击的url、从哪个url跳转过的(referer)、页面停留时间等
  • 访问信息:session_id、访问ip

数据处理流程

  • 数据采集 Flume:Web日志写入HDFS中
  • 数据清洗 脏数据清理:Spark、Hive、MapReduce
  • 数据处理 按照需求进行相应业务的统计和分析
  • 数据处理结果入库 结果可以存放到RDBMS、NoSQL等
  • 数据的可视化 通过图形化展示的方式展现出来:饼图、柱状图、地图等

HDFS文档