taoCMS是基于php+sqlite/mysql的国内最小(100Kb左右)的功能完善、开源免费的CMS管理系统

hive mapjoin使用

今天遇到一个hive的问题,如下hive sql:select f.a,f.b from A t join B f  on ( f.a=t.a and f.ftime=20110802)  该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。为了解决用户的这个问题,考虑使用mapjoin,mapjoin的原理:MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多这样就不会由于数据倾斜导致某个reduce上落数据太多而失败。于是原来的sql可以通过
发布时间:2015-04-01 | 类别:技术文章 | 阅读:180147 | 评论:0 | 标签:hive hive hive

Hive四种数据导入方式

Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:hive> create table wyp    > (id int, name string,    > age int, tel string)    > ROW FORMAT DELIMITED    > FIELDS TERMINATED BY 't' 
发布时间:2015-03-20 | 类别:技术文章 | 阅读:245661 | 评论:0 | 标签:hive

hive内置操作符与函数

第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: <>•小于比较: <</div>•小于等于比较: <=•大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REGEXP操作: REGEXP•等值比较: =   语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive> select 1 from dual where 1=1;•不等值比较: <>语法: A <> B操作类型: 所有基本类型描述
发布时间:2014-11-26 | 类别:技术文章 | 阅读:291339 | 评论:0 | 标签:hive

HIVE中join、semi join、outer join举例详解与hive优化技巧

举例子:hive> select * from zz0; 111111 222222 888888 hive> select * from zz1; 111111 333333 444444 888888hive> select * from zz0 join zz1 on zz0.uid = zz1.uid; 111111  111111 888888  888888 hive> select * from zz0 left outer join zz1 on zz0.uid = zz1.uid; 111111  111111 
发布时间:2014-11-11 | 类别:技术文章 | 阅读:284649 | 评论:0 | 标签:hive

hive函数参考手册

原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。A <> B所有原始类型如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。A < B所有原始类型如果A小于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。A <= B所有原始类型如果A小于等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。A
发布时间:2014-07-18 | 类别:技术文章 | 阅读:255859 | 评论:0 | 标签:hive

hadoop与hive的安装配置教程

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为 MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。[网络环境设置]vim /etc/hosts192.168.100.52 hadoop1192.168.99.34 hadoop2192.168.103.135 hadoop3分别到对应机器执行:hostname hadoop1hostname hadoop2hostname hadoop3[打通机器]hadoop1# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
发布时间:2013-06-08 | 类别:技术文章 | 阅读:301628 | 评论:0 | 标签:hive hive

Hive - hive.groupby.skewindata环境变量与负载均衡

HiveQL 去重操作和SQL一样,HiveQL中同样支持DISTINCT操作,如下示例:(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip(3) SELECT ip, count(DISTINCT uid, uname) FROMlog GROUP BY ip(4) SELECT ip, count(DISTINCTuid), count(DISTINCT uname) FROMlog GROUP BY ip当我们使用Hive QL中的去重关键字DISTINCT时,需要注意的一点是:在多个列上进行的去重操作与hiv
发布时间:2012-12-01 | 类别:技术文章 | 阅读:306418 | 评论:0 | 标签:hive

Hive常用的SQL命令操作

创建表hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表hive> SHOW TABLES;按正条件(正则表达式)显示表,hive> SHOW TABLES '.*s';表添加一列 hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);添加一列并增加列字段注释hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMME
发布时间:2012-08-06 | 类别:技术文章 | 阅读:200800 | 评论:0 | 标签:hive hive

公告

taoCMS发布taoCMS 3.0.2(最后更新21年03月15日),请大家速速升级,欢迎大家试用和提出您宝贵的意见建议。

捐助与联系

☟请使用新浪微博联系我☟

☟在github上follow我☟

标签云