您的位置:永利国际官网登录 > 网络科技 > MaxCompute重装上阵,ODPS重装上阵

MaxCompute重装上阵,ODPS重装上阵

发布时间:2019-07-18 20:19编辑:网络科技浏览(52)

    其三弹 - 复杂类型

    Hive中的TRANSFORM:使用脚本完结Map/Reduce

    转自: http://www.coder4.com/archives/4052

    先是来看一下数目:

    hive> select * from test;
    OK
    1       3
    2       2
    3       1
    

    一经,大家要出口每一列的md5值。在现阶段的hive中是绝非这几个udf的。

    笔者们看一下Python的代码:

    #!/home/tops/bin/python
    
    import sys
    import hashlib
    
    for line in sys.stdin:
        line = line.strip()
        arr = line.split()
        md5_arr = []
        for a in arr:
            md5_arr.append(hashlib.md5(a).hexdigest())
        print "t".join(md5_arr)
    

    在Hive中,使用脚本,首先要将她们参加:

    add file /xxxx/test.py
    

    接下来,在调用时,使用TRANSFORM语法。

    SELECT 
        TRANSFORM (col1, col2) 
        USING './test.py' 
        AS (new1, new2) 
    FORM 
        test;
    

    那边,咱们使用了AS,钦赐输出的若干个列,分别对应到哪个列名。假诺省略那句,则Hive会将第四个tab前的结果作为key,后边别的作为value。

    此间有三个小坑:一时候,我们结合INSERT OVE智跑WEscortITE使用上述TRANSFORM,而指标表,其分割副恐怕不是t。但是请牢记:TRANSFORM的撤销合并符号,传入、传出脚本的,永久是t。不要思量外面别的的细分符号!

    末段,解释一下MAP、REDUCE。

    在有的Hive语句中,咱们可能会看到SELECT MAP (…) USING ‘xx.py’这样的语法。

    不过,在Hive中,MAP、REDUCE只但是是TRANSFORM的别称,Hive不保证一定会在map/reduce中调用脚本。看看官方文书档案是怎么说的:

    Formally, MAP ... and REDUCE ... are syntactic transformations of SELECT TRANSFORM ( ... ). In other words, they serve as comments or notes to the reader of the query. BEWARE: Use of these keywords may be dangerous as (e.g.) typing "REDUCE" does not force a reduce phase to occur and typing "MAP" does not force a new map phase!
    

    因此、混用map reduce语法关键字,以至会挑起混淆,所以建议我们照旧都用TRANSFORM吧。

    友谊提醒:假若脚本不是Python,而是awk、sed等连串内置命令,能够平素采纳,而不用add file。

    要是表中有MAP,AHighlanderRAY等繁杂类型,怎么用TRANSFORM生成?

    例如:

    CREATE TABLE features
    (
        id BIGINT,
        norm_features MAP<STRING, FLOAT> 
    );
    

    答案是,要在本子的出口中,对特种字段依照HDFS文件中的格式输出就可以。

    比如,以地点的表结构为例,每行输出应为:

    1^Ifeature1^C1.0^Bfeature2^C2.0
    

    其中I是tab键,这是TRANSFORM要求的分割符号。B和^C是Hive存储时MAP类型的KV分割符。

    另外,在Hive的TRANSFORM语句的时候,要专注AS中丰盛项目注脚:

    SELECT TRANSFORM(stuff)
    USING 'script'
    AS (thing1 INT, thing2 MAP<STRING, FLOAT>)
    
    1. awk 用户会很欣赏这几个职能

    对于NOT IN SUBQUE大切诺基Y,类似于LEFT ANTI JOIN,可是有少数眼看分歧

    Hive Python Streaming的法则及写法

    http://www.tuicool.com/articles/vmumUjA

    select transform (key, value) using "perl -e 'while($input = <STDIN>){print $input;}'" from src;

    原有ODPS也支撑IN SUBQUE奥迪Q3Y,可是不支持correlated条件,马克斯Compute帮忙

    Hive中的TRANSFORM:自定义Mapper和Reducer完成Map/Reduce

    /**
     * Mapper.
     */
    public interface Mapper {
      /**
       * Maps a single row into an intermediate rows.
       * 
       * @param record
       *          input record
       * @param output
       *          collect mapped rows.
       * @throws Exception
       *           on error
       */
      void map(String[] record, Output output) throws Exception;
    }
    

    能够将一列拆分为多列

    应用样例:

    public class ExecuteMap {
    
        private static final String FULL_PATH_CLASS = "com.***.dpop.ods.mr.impl.";
    
        private static final Map<String, Mapper> mappers = new HashMap<String, Mapper>();
    
        public static void main(String[] args) throws Exception {
            if (args.length < 1) {
                throw new Exception("Process class must be given");
            }
    
            new GenericMR().map(System.in, System.out,
                    getMapper(args[0], Arrays.copyOfRange(args, 1, args.length)));
        }
    
        private static Mapper getMapper(String parserClass, String[] args)
                throws ClassNotFoundException {
            if (mappers.containsKey(parserClass)) {
                return mappers.get(parserClass);
            }
    
            Class[] classes = new Class[args.length];
            for (int i = 0; i < classes.length;   i) {
                classes[i] = String.class;
            }
            try {
                Mapper mapper = (Mapper) Class.forName(FULL_PATH_CLASS   parserClass).getConstructor(classes).newInstance(args);
                mappers.put(parserClass, mapper);
                return mapper;
            } catch (ClassNotFoundException e) {
                throw new ClassNotFoundException("Unknown MapperClass:"   parserClass, e);
            } catch (Exception e) {
                throw new  ClassNotFoundException("Error Constructing processor", e);
            }
    
        }
    }
    
    MR_USING=" USING 'java -Xmx512m -Xms512m -cp ods-mr-1.0.jar:hive-contrib-2.3.33.jar com.***.dpop.ods.mr.api.ExecuteMap "
    
    COMMAND="FROM dw_rtb.event_fact_adx_auction "
    COMMAND="${COMMAND} INSERT overwrite TABLE dw_rtb.event_fact_mid_adx_auction_ad PARTITION(yymmdd=${CURRENT_DATE}) SELECT transform(search_id, print_time, pthread_id, ad_s) ${MR_USING} EventFactMidAdxAuctionAdMapper' as search_id, print_time, pthread_id, ad_s, ssp_id WHERE $INSERT_PARTITION and original = 'exinternal' "
    

    永利国际开户送38体验 1

    例如:

    UDAF

    • Hive udaf开垦入门和周转进度详解
    • Hive通用型自定义聚合函数(UDAF)

    马克斯Compute基于ODPS2.0的SQL引擎,提供了SELECT TRANSFORM成效,能够一望而知简化对剧本代码的援引,与此同期,也进步了质量!咱们引入您尽或然选择SELECT TRANSFORM。

    内需先写好FROM,再回头写SELECT列表,能力唤醒。如下

    UDTF

    • Hive中UDTF编写和利用

    上述功效能够运用SELECT TRANSFORM来达成

    LEFT SEMI JOIN

    上次向您介绍了CTE,VALUES,SEMIJOIN,本篇向你介绍马克斯Compute对任何脚本语言的支撑

    在那之中子查询中的where value = mytable1.value正是二个correlated条件,原有ODPS对于这种既引用了子查询中源表,由援引了外围查询源表的表明式时,会告诉错误。马克斯Compute扶助这种用法,那样的过滤条件实在构成了SEMI JOIN中的ON条件的一局地。

    永利国际开户送38体验 2

    等效于

    永利国际开户送38体验 3

    例如:

    属性上,SELECT TRANSFORM 与UDTF 各有优劣。经过二种场景相比较测验,数据量极小时,大许多景色下select transform有优势,而数据量大时UDTF有优势。由于transform的支出特别方便,所以select transform特别适合做adhoc的数目深入分析。

    永利国际开户送38体验 4

    原标题:马克斯Compute重装上沙场 第五弹 - SELECT TRANSFO翼虎

    SELECT*frommytable1wherenotexists(select*frommytable2whereid= mytable1.id);`

    恐怕选择python

    对此在values中并未有制订的列,可以看来取缺省值为NULL。插入列表作用不自然和VALUES一同用,对于INSERT INTO ... SELECT..., 同样能够动用。

    付给作业能够看出进行安排(全体张开后的视图):

    永利国际开户送38体验 5

    小结

    SELECT*FROMsrc1UNIONSELECT*FROMsrc2;

    马克斯Compute(原ODPS)是Ali云自己作主研究开发的兼具产业界当先水平的布满式大数据管理平台, 极度在公司内部获得普及应用,支撑了两个BU的着力业务。 马克斯Compute除了不停优化质量外,也从事于进步SQL语言的用户体验和表明才能,进步广大ODPS开荒者的生产力。

    SELECT*frommytable1 aLEFTANTIJOINmytable2 bona.id=b.id;

    或者

    其实,VALUES表并不防止在INSERT语句中应用,任何DML语句都得以利用。

    性能

    除去,针对马克斯Compute用户的天性,也正是急需在极其复杂的事务场景下,辅助对己大量数额的拍卖,马克斯Compute提供了故意的本子方式和参数化视图,将要下一回为您介绍。

    Select transform允许sql用户内定在服务器上实践一句shell命令,将上游数据各字段用tab分隔,每条记下一行,逐行输入shell命令的stdin,并从stdout读取数据作为出口,送到下游。Shell命令的真相是调用Unix的一对utility,由此得以运转别的的本子解释器。包含python,java,php,awk,ruby等。

    原有ODPS也支持[NOT] IN SUBQUE传祺Y不作为JOIN条件,例如出现在非WHERE语句中,也许固然在WHERE语句中,但无可奈何调换为JOIN条件。马克斯Compute如故支撑这种用法,然而此时因为不恐怕转移为SEMI JOIN而必须贯彻运营贰个独自的功课来运维SUBQUE科雷傲Y,所以不补助correlated条件。

    那几个事例是为着证实,非常多java的utility能够向来拿来运作。java和python固然有现存的udtf框架,然而用select transform编写更简便,而且不要求卓绝依赖,也尚未格式供给,以致能够兑现离线脚本拿来一向就用。

    编写翻译此脚本,能够观测实施计划如下

    永利国际开户送38体验 6

    LEFT ANTI JOIN

    该命令兼容Hive的Transform效率,能够参见Hive的文书档案。一些索要留神的点如下:

    SELECT*frommytable1 aLEFTANTIJOINmytable2 bona.id=b.id;

    SELECT TRANSFORM 的优势:

    SELECT*FROMtable1JOINtable2ONtable1.id = table2.id;

    1. 无理取闹造数据

    内部M1, M2, M4四个分布式职责分别对应相应七个输入表,双击M2能够观看中实际举办的DAG(在DAG中重复双击能够回来),如下

    近来odps select transform完全合营了hive的语法、成效和行为,包蕴input/output row format 以及 reader/writer。Hive上的台本,超过一半得以一向拿来运作,部分脚本只供给通过轻松改变就能够运行。其余大家比较多功力都用比hive更加高推行功用的语言 (C ) 重构,用以优化品质。

    上次向你介绍了复杂类型,从本篇开始,向您介绍马克斯Compute在SQL语言DML方面包车型大巴改进

    • 注一,USING 前边的字符串,在后台是一贯起的子进度来调起命令,未有起shell,所以shell的少数语法,如输入输出重定向,管道等是不帮忙的。假诺用户必要能够以 shell 作为命令,真正的指令作为数据输入,参谋“推波助澜造数据”的事例;
    • 注二,JAVA 和 PYTHON 的实在路线,可以从JAVA_HOME 和 PYTHON_HOME 情状变量中得到作业;

    则等效于

    UDTF的优势:

    SELECT*frommytable1whereidin(selectidfrommytable2);

    此文中动用马克斯Compute Studio作体现,首先,安装马克斯Compute Studio,导入测量试验马克斯Compute项目,创制工程,建构一个新的马克斯Compute脚本文件, 如下

    SELECT * from mytable1 a LEFT SEMI JOIN mytable2 b on a.id=b.id;

    永利国际开户送38体验,摘要: MaxCompute(原ODPS)是Ali云自己作主研究开发的装有产业界超越水平的布满式大额管理平台, 特别在公司内部得到分布应用,支撑了八个BU的中央专门的学业。 马克斯Compute除了无休止优化质量外,也从事于提高SQL语言的用户体验和表明技能,升高大范围ODPS开荒者的生产力。

    永利国际开户送38体验 7

    地点用的是perl。那实质上不只是语言辅助的恢宏,一些简便的成效,awk, python, perl, shell 都扶助间接在命令里面写剧本,无需写脚本文件,上传财富等进度,开拓进度更简短。另外,由于近些日子大家总结集群上一贯不php和ruby,所以那三种脚本不帮忙。

    马克斯Compute帮衬SQL标准的CTE。可以巩固SQL语句的可读性与实施功效。

    先是弹 - 善用马克斯Compute编写翻译器的一无是处和警告

    MaxCompute基于ODPS2.0新一代的SQL引擎,分明升高了SQL语言编写翻译过程的易用性与语言的表达技能。我们在此推出马克斯Compute(ODPS2.0)重装上沙场连串文章

    1. UDTF是有档案的次序,而Transform的子进度基于stdin/stdout传输数据,全数数据都当做string管理,由此transform多了一步类型调换;
    2. Transform数据传输正视于操作系统的管道,而当前管道的buffer独有4KB,且不能够安装, transform读/写 空/满 的pipe会导致进度被挂起;
    3. UDTF的常量参数能够不用传输,而Transform不可能利用这么些优化。

    永利国际开户送38体验 8

    责编:

    马克斯Compute大大扩大了DML语句的协助,在易用性,包容性和总体性方面,能够更加好的满意你的供给。对于SQL比较谙习的学者会发觉,上述功能大部分是规范的SQL帮衬的功用。马克斯Compute会持续升级与行业内部SQL和业界常用产品的包容性。

    作者:隐林

    在三个总体的查询语句中,举例

    斟酌上select transform能完毕的效果与利益udtf都能完成,但是select transform比udtf要灵活得多。且select transform不止支持java和python,还协助shell,perl等任何脚本和工具。 且编写的进度要简明,非常契合adhoc功用的完成。举多少个例子:

    例如:

    • SELECT TRANSFORM。

    • 场景1

    • 自个儿的连串要搬迁到MaxCompute平台上,系统中原来有成都百货上千功力是选拔脚本来落成的,蕴含python,shell,ruby等剧本。 要迁移到马克斯Compute上,作者索要把那个本子全体都退换成UDF/UDAF/UDTF。退换进度不唯有供给耗时人力,还须求做一次又三回的测量检验,从而确认保证改形成的udf和原本的脚本在逻辑上是等价的。笔者期待能有更简便的动员搬迁方式。
    • 场景2
    • SQL比较专长的是汇集操作,而笔者急需做的事务要对一条数据做更加多的精细的乘除,现成的放权函数不能便于的达成自个儿想要的意义,而UDF的框架非常不够利索,况且Java/Python作者都不太熟识。比较之下小编更擅长写剧本。我就意在能够写二个本子,数据全都输入到本身的剧本里来,我自己来做种种总计,然后把结果输出。而马克斯Compute平台就担当帮自身把多少做好切分,让小编的本子能够布满式实施,担当数据的输入表和输出表的军管,担任JOIN,UNION等涉及操作就好了。

    SELECTkey,max(value)FROMsrc tWHEREvalue>0GROUPBYkeyHAVINGsum(value) >100ORDERBYkeyLIMIT100;

    6. 财富文件会被下载到试行钦点命令的做事目录,能够选用文件接口打开./bar.txt文件。

    setodps.sql.type.system.odps2=true;SELECTexplode(array(1,3))AS(a)UNIONALLSELECTexplode(array(0,2,4))AS(a)ORDERBYaLIMIT3;

    动用场景举例

    马克斯Compute选拔基于ODPS2.0的SQL引擎,对DML进行了大幅度扩充,提升了易用性和包容性,基本化解了上述难点。

    第四弹 - CTE,VALUES,SEMIJOIN

    能够看看,a对应的子查询只需求写一遍,在背后重用,CTE的WITH字句中得以钦命四个子查询,像使用变量一样在方方面面讲话中反复重用。除了重用外,也无须再频仍嵌套了。

    马克斯Compute基于ODPS2.0新一代的SQL引擎,显明晋级了SQL语言编写翻译进程的易用性与语言的表明本事。大家在此推出马克斯Compute(ODPS2.0)重装上战地种类文章

    SELECT*frommytable1 aLEFTSEMIJOINmytable2 bona.id=b.id;

    永利国际开户送38体验 9

    一对时候表的列很多,筹算数据的时候希望只插入部分列的数量,此时能够用插队列表成效

    要么用map,reduce的重要字会让逻辑显得清楚部分

    场景1 

    1. 子进度和父进度是多个经过,而UDTF是单线程的,若是总计占比相比较高,数据吞吐量十分的小,能够应用服务器的多核性子
    2. 数量的传导通过更底层的系列调用来读写,功效比java高
    3. SELECT TRANSFORM援助的少数工具,如awk,是natvie代码达成的,和java比较理论上大概会有品质优势。

    举行后,马克斯Compute Project Explorer中找到目的表,并走访values中的数据已经插入,如下:

    1. Using 子句钦定的是要实施的一声令下,而非能源列表,那或多或少和比较多的马克斯Compute SQL语法不等同,这么做是为着和hive的语法保持包容。

    2. 输入从stdin传入,输出从stdout传出;

    3. 能够安顿分隔符,私下认可使用 t 分隔列,用换行分隔行;

    4. 能够自定义reader/writer,但用内置的reader/writer会快相当多

    5. 利用自定义的财富(脚本文件,数据文件等),可以选拔 set odps.sql.session.resources=foo.sh,bar.txt; 来钦赐。能够钦命三个resource文件,用逗号隔断(由此不允许resource名字中隐含逗号和分行)。其余大家还提供了resources子句,能够在using 子句后边内定 resources 'foo.sh', 'bar.txt' 来钦命财富,三种格局是等价的(仿照效法“用odps跑测验”的事例);

    1

    标注

    例如:

    本文由永利国际官网登录发布于网络科技,转载请注明出处:MaxCompute重装上阵,ODPS重装上阵

    关键词: 永利国际官网