当前位置：首页 > 编程日记 > 正文

大数据Hadoop、HDFS、Hive、HBASE、Spark、Flume、Kafka、Storm、SparkStreaming这些概念你是否能理清？

编程日记 2024-01-07 00:30:03

1.Hadoop

Hadoop是大数据开发的重要框架，是一个由Apache基金会所开发的分布式系统基础架构，其核心是HDFS和MapReduce，HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算，在Hadoop2.x时代，增加了Yarn，Yarn只负责资源的调度。
目前hadoop包括hdfs、mapreduce、yarn、核心组件。hdfs用于存储，mapreduce用于计算,yarn用于资源管理。

2 HDFS

HDFS是什么？
Hadoop Distributed File System：分步式文件系统
源自于Google的GFS论文，发表于2003年10月，HDFS是GFS克隆版
HDFS是Hadoop体系中数据存储管理的基础
通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序
提供一次写入多次读取的机制，数据以块的形式，同时分布在集群不同物理机器上
高度容错性的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行

3.Hive

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具，计算基于MapReduce或Spark，能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。

4 HBase

HBase 是一个面向列式存储的分布式数据库，其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。HBase良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能，基于数据副本机制和分区机制可以轻松实现在线扩容、缩容和数据容灾，是大数据领域中 Key-Value 数据结构存储最常用的数据库方案。
一句话，HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统.

5 Spark

Spark是一个分布式计算框架，是由Scala语言编写完成的，是apache基金会下的顶级开源项目，和Mapresuce的作用一样，可以完成对数据的计算。
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法,可用来构建大型的、低延迟的数据分析应用程序。。
Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。
综上，Spark是专为大规模数据处理而设计的快速通用的计算引擎，其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求，涉及的知识点有SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等。

总结：spark包括spark sql、saprk mllib、spark streaming、spark 图计算。saprk的这些组件都是进行计算的。spark sql离线计算，spark streaming 流计算，spark mllib机器学习。mpi高性能计算。

以下是Spark与MapReduce的区别：

1、Spark是基于内存计算的，会将中间结果存放在内存，方便后续计算的使用，而MR会将中间结果存储在磁盘中。
2、内存数据的读写速度要比磁盘快很多，所以Spark的计算速度比MR快。
3、Spark的计算任务是由线程完成的。MR的计算任务是由进程完成的。线程切换计算任务的速度比进程切换计算任务速度快。

以下是Spark与Hahoop的区别：

Hahoop只有mapreduce是和spark一样用来计算，要比较的话，只能比较mapreduce与spark区别。mapreduce叠代计算中间结果放在磁盘，适合大数据离线计算。spark技术先进，统一使用rdd,结果可放在内存，pipeline，计算速度比mapreduce快。
建议大数据存储使用hadoop的hdfs,资源管理用hadoop的yarn,计算使用spark或mpi

6.Flume

Flume 是一个cloudera提供的高可用，高可靠，分布式的海量日志收集聚合传输系统。原名是 Flume OG (original generation)，，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.9.4. 中，日志传输不稳定的现象尤为严重，为了解决这些问题，2011 年 10 月 22 号，cloudera 完成了 Flume-728，对 Flume 进行了里程碑式的改动：重构核心组件、核心配置以及代码架构，重构后的版本统称为 Flume NG（next generation）；改动的另一原因是将 Flume 纳入 apache 旗下，cloudera Flume 改名为 Apache Flume。
Flume是Apache的顶级项目，官方网站：http://flume.apache.org/

Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。
Flume有三个重要的组成部份：Source、Channel、Sink。
其它数据采集工具还有:dataX、kettle、Logstash、Scribe、sqoop。
dataX是阿里开源软件异构数据源离线同步工具。实现包括关系型数据库(MySQL、 Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

7.Kafka

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。
kafka是一款分布式、支持分区的、多副本，基于zookeeper协调的分布式消息系统。最大的特性就是可以实时处理大量数据来满足需求。
kafka使用场景：
1)，日志收集：可以用kafka收集各种服务的日志，通过已统一接口的形式开放给各种消费者。
2)，消息系统：解耦生产和消费者，缓存消息。
3)，用户活动追踪：kafka可以记录webapp或app用户的各种活动，如浏览网页，点击等活动，这些活动可以发送到kafka，然后订阅者通过订阅这些消息来做监控。
4)，运营指标：可以用于监控各种数据。

8.Storm

Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架，具有最高的摄取率。在Storm中，需要先设计一个实时计算结构，我们称之为拓扑（topology）。之后，这个拓扑结构会被提交给集群，其中主节点（master node）负责给工作节点（worker node）分配代码，工作节点负责执行代码。在一个拓扑结构中，包含spout和bolt两种角色。数据在spouts之间传递，这些spouts将数据流以tuple元组的形式发送；而bolt则负责转换数据流。Jstorm则是阿里巴巴使用Java语言复刻的Apache Storm，号称性能四倍于Apache Storm，于2016年停止更新。

Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件，磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。

storm的网络直传、内存计算，其时延必然比hadoop的通过hdfs传输低得多；当计算模型比较适合流式时，storm的流式处理，省去了批处理的收集数据的时间；因为storm是服务型的作业，也省去了作业调度的时延。所以从时延上来看，storm要快于hadoop。
Storm 基于ZeroMQ这个高性能的消息通讯库，不持久化数据。

9.SparkStreaming

SparkStreaming 是Spark API的扩展，不像Storm那样一次处理一个数据流。相反，它在处理数据流之前，会按照时间间隔对数据流进行分段切分。Spark针对连续数据流的抽象，我们称为DStream（Discretized Stream）。DStream是小批处理的RDD（弹性分布式数据集），RDD则是分布式数据集，可以通过任意函数和滑动数据窗口（窗口计算）进行转换，实现并行操作。

10.Sqoop

Apache Sqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下，轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中；同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。

Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提升。

如果要用Sqoop，必须正确安装并配置Hadoop，因依赖于本地的Hadoop环境启动MR程序；MySQL、Oracle等数据库的JDBC驱动也要放到Sqoop的lib目录下。

sqoop是连接关系型数据库和hadoop的桥梁，主要有两个方面(导入和导出):

A.将关系型数据库的数据导入到Hadoop及其相关的系统中，如Hive和HBase

B.将数据从Hadoop系统里抽取并导出到关系型数据库。

11.Flink

Apache Flink是针对流数据+批数据的计算框架。把批数据看作流数据的一种特例，延迟性较低（毫秒级），且能够保证消息传输不丢失不重复。Flink创造性地统一了流处理和批处理，作为流处理看待时输入数据流是无界的，而批处理被作为一种特殊的流处理，只是它的输入数据流被定义为有界的。Flink程序由Stream和Transformation这两个基本构建块组成，其中Stream是一个中间结果数据，而Transformation是一个操作，它对一个或多个输入Stream进行计算处理，输出一个或多个结果Stream。

12.ELK

ELK是三个开源软件的缩写，分别表示：Elasticsearch , Logstash, Kibana , 它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。
Elasticsearch是个开源分布式搜索引擎，提供搜集、分析、存储数据三大功能。它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。主要负责将日志索引并存储起来，方便业务方检索查询。

Logstash 主要是用来日志的搜集、分析、过滤日志的工具，支持大量的数据获取方式。一般工作方式为c/s架构，client端安装在需要收集日志的主机上，server端负责将收到的各节点日志进行过滤、修改等操作在一并发往elasticsearch上去。是一个日志收集、过滤、转发的中间件，主要负责将各条业务线的各类日志统一收集、过滤后，转发给 Elasticsearch 进行下一步处理。

Kibana 也是一个开源和免费的工具，Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面，可以帮助汇总、分析和搜索重要数据日志。

Filebeat隶属于Beats。目前Beats包含四种工具：

Packetbeat（搜集网络流量数据）
Topbeat（搜集系统、进程和文件系统级别的 CPU 和内存使用情况等数据）
Filebeat（搜集文件数据）
Winlogbeat（搜集 Windows 事件日志数据）

13.kettle

Kettle最早是一个开源的ETL工具，全称为KDE Extraction, Transportation, Transformation and Loading Environment。在2006年，Pentaho公司收购了Kettle项目，原Kettle项目发起人Matt Casters加入了Pentaho团队，成为Pentaho套件数据集成架构师 [1] ；从此，Kettle成为企业级数据集成及商业智能套件Pentaho的主要组成部分，Kettle亦重命名为Pentaho Data Integration [1-2] 。Pentaho公司于2015年被Hitachi Data Systems收购。 [3] （Hitachi Data Systems于2017年改名为Hitachi Vantara [4] ）
Pentaho Data Integration以Java开发，支持跨平台运行，其特性包括：支持100%无编码、拖拽方式开发ETL数据管道；可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源；支持ETL数据管道加入机器学习算法。
Pentaho Data Integration分为商业版与开源版，开源版的截止2021年1月的累计下载量达836万，其中19%来自中国 [5] 。在中国，一般人仍习惯把Pentaho Data Integration的开源版称为Kettle。

kettle 是纯 java 开发，开源的 ETL工具，用于数据库间的数据迁移。可以在 Linux、windows、unix 中运行。有图形界面，也有命令脚本还可以二次开发。

kettle 的官网是 https://community.hitachivantara.com/docs/DOC-1009855，github 地址是 GitHub - pentaho/pentaho-kettle: Pentaho Data Integration ( ETL ) a.k.a Kettle。

14.Zookeeper

zookeeper是一个分布式协调服务。所谓分布式协调主要是来解决分布式系统中多个进程之间的同步限制，防止出现脏读，例如我们常说的分布式锁。
zookeeper中的数据是存储在内存当中的，因此它的效率十分高效。它内部的存储方式十分类似于文件存储结构，采用了分层存储结构。但是它和文件存储结构的区别是，它的各个节点中是允许存储数据的，需要注意的是zk的每个节点存储数据不能超过1M。
更详细了解zookeeper,请见：zookeeper详解(https://blog.csdn.net/weixin_38612401/article/details/125216821)
Zookeeper简介及核心概念（https://blog.csdn.net/mxk4869/article/details/125866276）

15.RDD

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

16.phoenix

phoenix是用Java编写的基于JDBC API操作HBase的开源SQL引擎，其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、行时间戳列、分页查询、跳跃查询、视图以及多租户的特性，大数据开发需掌握其原理和使用方法。

大数据hadoophdfsKafKaHiveSparkHBase

https://www.dkcj.cn/info/620.html

Springboot整合HBase——大数据技术之HBase2.x

Apache HBase 是以hdfs为数据存储的，一种分布式、可扩展的noSql数据库。是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase使用与BigTable（BigTable是一个稀疏的、分布式的、持久化的多维排序map）非常相似的数据模型。用户将数据行存储在带标签的表中。数据行具有可排序的键和任意数量的列。该表存储稀疏，因此如果用户喜欢，同一表中的行可以具有疯狂变化的列。

编程日记2024/02/15 23:30:03

终于有人把Web 3.0和元宇宙讲明白了

分散的数据网络使个人数据（例如个人的健康数据、农民的作物数据或汽车的位置和性能数据）出售或交换成为可能，与此同时，不会失去对数据的所有权控制、放弃数据隐私或依赖第三方平台来管理数据。Web 3.0的目标是在创作者经济中取得更好的平衡。互联网第二次迭代（Web 2.0）的缺陷，加上公有区块链技术的诞生，帮助我们朝着更加去中心化的Web 3.0 迈进，元宇宙和更广泛的去中心化网络都是关于现实世界和虚拟世界的融合。此时的网络中不再是静态内容，而是动态的内容，用户现在可以与发布在网络上的内容进行交互。

编程日记2024/02/15 23:30:03

万字详解数据仓库、数据湖、数据中台和湖仓一体

数字化转型浪潮卷起各种新老概念满天飞，数据湖、数据仓库、数据中台轮番在朋友圈刷屏，有人说“数据中台算个啥，数据湖才是趋势”，有人说“再见了数据湖、数据仓库，数据中台已成气候”……企业还没推开数字化大门，先被各种概念绊了一脚。那么它们 3 者究竟有啥区别？别急，先跟大家分享两个有趣的比喻。1、图书馆VS地摊如果把数据仓库比喻成“图书馆”，那么数据湖就是“地摊”。去图书馆借书（数据），书籍质量有保障，但你得等，等什么？等管理员先查到这本书属于哪个类目、在哪个架子上，你才能精准拿到自己想要的书；

编程日记2024/01/23 23:00:03

什么是数据中台？

说完了数据中台诞生的历史背景，现在，我们应该对数据中台有了一定的了解，那我们现在给数据中台下个定义。自2016年，数据中台被提出以来，不同的人对数据中台有不同的理解，就像一千个读者心中有一千个哈姆雷特，因此也有许多不同的定义，以下是我从一些文章、书籍中搜集到的关于数据中台的定义：数据中台是DT时代的大背景下，为实现数据快（快速）、准（准确）、省（低成本）赋能业务发展的目标，将企业的数据统一整合起来，基于Onedata方法论借助大数据平台完成数据的统一加工处理，对外提供数据服务的一套机制。

编程日记2024/01/23 23:00:03

Git 的基本概念、使用方式及常用命令

Git的基本概念、使用方式及常用命令

编程日记2024/01/20 18:20:30

怎么选择数据安全交换系统，能够防止内部员工泄露数据？

数据泄露可能给企业带来诸多风险：财产损失、身份盗窃、骚扰和诈骗、经济利益受损、客户信任度下降、法律风险和责任等，《2021年度数据泄漏态势分析报告》中显示，在数据泄露的主体中，内部人员导致的数据泄漏事件占比接近60%。飞驰云联文件安全交换系统，可以满足企业多场景下的文件交换需求，帮助企业终结多工具、多系统并行使用的局面，减少因文件交换行为分散带来的数据管理不集中、难以管控的问题，帮助企业内部构建统一、安全的企业数据流转通道。对于不能下载保存的数据，使用截屏、录屏的方式窃取并外泄数据；

编程日记2024/01/10 10:58:04

弹性搜索引擎Elasticsearch：本地部署与远程访问指南

本文主要讲解如何使用Elasticsearch分布式搜索分析引擎本地部署与远程访问。

编程日记2024/01/09 16:35:56

Hive（总）看完这篇，别说你不会Hive！

Hive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yarn上创建一个数据库，数据库在HDFS上的默认存储路径是/opt/hive/warehouse/*.db避免要创建的数据库已经存在错误，增加if not exists判断。

编程日记2024/01/08 22:30:03

什么是HBase？终于有人讲明白了

在 HBase 表中，一条数据拥有一个全局唯一的键(RowKey)和任意数量的列(Column)，一列或多列组成一个列族(Column Family)，同一个列族中列的数据在物理上都存储在同一个 HFile 中，这样基于列存储的数据结构有利于数据缓存和查询。HBase Client 为用户提供了访问 HBase 的接口，可以通过元数据表来定位到目标数据的 RegionServer，另外 HBase Client 还维护了对应的 cache 来加速 Hbase 的访问，比如缓存元数据的信息。

编程日记2024/01/08 22:30:03

maven的scop作用域依赖问题导致idea社区版报错

所以，对于你提到的这个例子，在专业版中强制去掉 provided 作用域是不必要的，而在社区版中可能需要去掉 provided 作用域，以便将相应的依赖包含在构建结果中。问题应该是tomcat的依赖出现问题了，参考了教程的第五种解决方案，没能解决我的问题，猜测应该是这个作用域的问题，把原pom文件中的scop直接删了，问题解决。对于这个错误，查阅了网上的教程反馈为：1.启动类的位置不对，2.配置文件是否存在且位置是否对，以及内容是否有错误。虽然教程没解决我的问题，但是给了我思路。

编程日记2024/01/08 17:39:12

数据仓库系列：StarRocks 入门培训教程

StarRocks 是一款MPP DB, 对标ClickHouse、Vertica、Teradata、Greenplum，在查询性能上远超当代最快的开源数据库 clickhouse，目前已经被一众互联网企业在生产环境中采用。提供千亿级大数据的在线多维分析和分布式存储。新一代极速全场景 MPP (Massively Parallel Processing) 数据库是forkdoris后独立运营的商业化版本StarRocks。

编程日记2024/01/07 22:00:02

ClickHouse & StarRocks 使用经验分享

总结一下，如果是需要分析日志流数据，更加推荐 ClickHouse ，因为 ClickHouse 单机强悍，可以支撑亿级别数据量，架构简单，相比于 StarRocks 也更加稳定，相比集群，更推荐单机 ClickHouse。如果是分析业务流数据，更加推荐 StarRocks ，因为 StarRocks 对于更新场景性能更加，而且 JOIN 性能更好，而且更加推荐部署 StarRocks 集群，可以充分发挥 StarRocks 的性能。

编程日记2024/01/07 09:30:02

HDFS对比HBase、Hive对比Hbase

Hive和Hbase是两种基于Hadoop的不同技术Hive是一种类SQL的引擎，并且运行MapReduce任务Hbase是一种在Hadoop之上的NoSQL的Key/value数据库这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到HBase，或者从HBase写回Hive。

编程日记2024/01/07 00:30:03

ClickHouse 与mysql等关系型数据库对比

先用一张图帮助理解两者的本质上的区。

编程日记2024/01/07 00:30:03

牢牢把握“心价比”，徕芬的业绩爆发是一种必然？

业绩突破背后也有消费复苏的激励作用，但具体到电吹风市场，竞争态势在持续加剧，且有戴森这样的国外品牌盘踞于此。徕芬究竟是如何越走越稳的？

编程日记2024/01/05 23:17:36

java中如何使用elasticsearch—RestClient操作文档（CRUD）

去数据库查询酒店数据，导入到hotel索引库，实现酒店数据的CRUD基本步骤如下。新建一个测试类，实现文档相关操作，并且完成JavaRestClient的初始化。方式一（全量更新）：再次写入id一样的文档，就会删除旧文档，添加新文档。根据id查询到的文档数据是json，需要反序列化为java对象。（2）根据id查询数据库数据，并转换。方式二（局部更新）：只更新部分字段。（1）创建文档对应实体。修改文档数据有两种方式。

编程日记2023/12/30 19:05:45

获得JD商品评论 API 如何实现实时数据获取

随着互联网的快速发展，电商平台如雨后春笋般涌现，其中京东（JD）作为中国最大的自营式电商平台之一，拥有庞大的用户群体和丰富的商品资源。为了更好地了解用户对商品的反馈，京东开放了商品评论的API接口，允许开发者实时获取商品评论数据。本文将介绍如何通过JD商品评论API实现实时数据获取，并给出相应的代码示例。JD商品评论API提供了一系列的接口，允许开发者根据需要获取不同维度的评论数据。通过该API，开发者可以获取到商品的详细评论信息、评论的统计数据以及用户的评论行为数据等。

编程日记2023/12/30 19:03:14

基于神经网络——鸢尾花识别（Iris）

鸢尾花识别是学习AI入门的案例，这里和大家分享下使用Tensorflow2框架，编写程序，获取鸢尾花数据，搭建神经网络，最后训练和识别鸢尾花。

编程日记2023/12/28 22:30:03

深度学习知识点全面总结

深度学习定义：一般是指通过训练多层网络结构对未知数据进行分类或回归深度学习分类：有监督学习方法——深度前馈网络、卷积神经网络、循环神经网络等；无监督学习方法——深度信念网、深度玻尔兹曼机，深度自编码器等。深度神经网络的基本思想是通过构建多层网络，对目标进行多层表示，以期通过多层的高层次特征来表示数据的抽象语义信息，获得更好的特征鲁棒性。神经网络的计算主要有两种：前向传播（foward propagation, FP）作用于每一层的输入，通过逐层计算得到输出结果；

编程日记2023/12/28 22:00:02

光伏发电模式中，分布式和集中式哪种更受欢迎？

5.可实现远距离输送，集中式光伏电站发出的电经高压并网，将电一层层的输送到更高的电压等级，如将高压电输送到华东等地区，以实现西电东输。分布式光伏发电：一般建在楼顶、屋顶、厂房等地方，较多的是基于建筑物表面，就近解决用户的用电问题，通过并网实现供电差额的补偿与外送。1.光伏电源处于用户侧，自发自用，就近发电，就近用电，发电供给当地负荷，视作负载，可以减少对电网供电的依赖，减少线路损耗。4.分布式光伏一般就近并网，线路的损耗很低或者可以说没有，可非常方便的补充当地的电量，供当地及附近的用电用户使用。

编程日记2023/12/26 19:28:42

深度学习与神经网络

神经网络是一种模拟人脑神经元行为的计算模型，神经网络由大量的神经元（在计算领域中常被称为“节点”或“单元”）组成，并且这些神经元被分为不同的层，分别为输入层、隐藏层和输出层。每一个神经元都与前一层的所有神经元相连接，连接的强度（或权重）代表了该连接的重要性。神经元接收前一层神经元的信息（这些信息经过权重加权），然后通过激活函数（如Sigmoid、ReLU等）处理，将结果传递到下一层。输入层接收原始数据，隐藏层负责处理这些数据，而输出层则将处理后的结果输出。

编程日记2023/12/25 23:30:02

一篇文章讲清楚！数据库和数据仓库到底有什么区别和联系？

数据库的数据来源来自各种业务系统软件程序的产生的数据，或者是由和这些业务系统软件交互的用户产生的数据，而数据仓库的数据来源则直接是这些业务系统的一个或者多个数据库或者文件，比如 SQL Server、Oracle、MySQL、Excel、文本文件等。也可以简单理解为很多个业务系统的数据库往数据仓库输送数据，是各个数据库的集合体，一个更大的数据库，数据仓库的建立是要打通这些基础数据库的数据的。所以，业务系统的数据库更多的是增删改操作，而数据仓库更多的是查询操作，这就决定了建模方式会有很大的差异。

编程日记2023/12/25 22:00:02

一文读懂数据仓库、数据湖、湖仓一体

一个数据湖可以存储结构化数据（如关系型数据库中的表），半结构化数据（如CSV、日志、XML、JSON），非结构化数据（如电子邮件、文档、PDF）和二进制数据（如图形、音频、视频）。这套架构，以数据湖为中心，把数据湖作为中央存储库，再围绕数据湖建立专用“数据服务环”，环上的服务包括了数仓、机器学习、大数据处理、日志分析，甚至RDS和NOSQL服务等等。从数据含金量来比，数据仓库里的数据价值密度更高一些，数据的抽取和Schema的设计，都有非常强的针对性，便于业务分析师迅速获取洞察结果，用与决策支持。

编程日记2023/12/25 20:30:02

绝地求生电脑版的最低配置要求？

更好的方式是通过官方的渠道购买游戏账号，并遵守游戏的规则和使用协议，以保证自己的游戏体验和账号安全性。但请注意，游戏的配置要求可能随着游戏的更新而有所改变，建议您在购买或升级电脑时，参考官方的配置要求以获得最佳游戏体验。如果您的电脑配备了更高性能的处理器，游戏的运行体验将更为流畅。绝地求生是一款较为复杂的游戏，需要较大的内存来加载游戏资源并确保游戏的流畅运行。所以在安装游戏之前，确保您的电脑有足够的存储空间。这些推荐配置可以使您在绝地求生中获得更高的帧率和更好的画面表现，提供更加顺畅和逼真的游戏体验。

编程日记2023/12/25 10:14:22

什么是 ClickHouse（实时数据分析数据库）

1、ClickHouse是俄罗斯搜索巨头 Yandex 公司早 2016年开源的一个极具 " 战斗力 " 的实时数据分析数据库，开发语言为C++2、是一个用于联机分析OLAP:Online Analytical Processing) 的列式数据库管理系统(DBMS:Database Management System)，简称CK3、工作速度比传统方法快100-1000倍，ClickHouse 的性能超过了目前市场上可比的面向列的DBMS。每秒钟每台服务器每秒处理数亿至十亿多行和数十千兆字节的数据。

编程日记2023/12/25 00:00:02