本文详细源代码请参考 Github Perfect Examples

该项目展示了如何使用 Swift 语言开发 Hadoop 流处理应用程序。

该软件使用SPM进行编译和测试,本软件也是Perfect项目的一部分。本软件包可独立使用,因此使用时可以脱离PerfectLib等其他组件。

请确保您已经安装并激活了最新版本的 Swift 3.0 tool chain 工具链。

问题报告、内容贡献和客户支持

我们目前正在过渡到使用JIRA来处理所有源代码资源合并申请、修复漏洞以及其它有关问题。因此,GitHub 的“issues”问题报告功能已经被禁用了。

如果您发现了问题,或者希望为改进本文提供意见和建议,请在这里指出.

在您开始之前,请参阅目前待解决的问题清单.

简介

本项目包括两类 Hadoop 流处理应用程序:映射器 mapper 和 总结器 reducer。这两类程序都是标准的控制台终端程序,即从标准输入读数据readLine()后推送到标准输出print()

映射器的范例程序 mapper 是将来自标准输入的文本拆分为一个一个的英语单词,然后采用下列格式进行打印(假设输入内容是Hello,world! hello!):

hello 1
world 1
hello 1

而总结器 reducer 的目标是将这些输入进行统计,最后形成单词统计表:

hello 2
world 1

两个程序的结合使用即可提供单词统计的功能。

Hadoop 的 Map Reduce 正是为上述任务在大数据环境下而设计的,这里的大数据指的是单个文件输入达到 GB 甚至 TB。

映射器 mapper

import CoreFoundation

// 处理每一行文本
public func lineMain() -> Bool {

  // 从输入中读取一行;如果为nil则表示输入已经关闭了
  guard let line = readLine() else {
    return false
  }

  // 简单处理一下文字,取小写并过滤符号
  let filter = line.lowercased().characters.filter{ $0 >= "a" && $0 <= "z" || $0 == " " }

  // 然后再把单词输出,并增加一个“1”
  filter.split(separator: " ").forEach { raw in
    let word = String(raw)
    print("\(word)\t1")
  }
  return true
}

// 从输入流中读取所有文本行
while(lineMain()){}

总结器 reducer

import CoreFoundation

// 单词表
var dic: [String: Int] = [:]

// 行处理器
public func lineMain() -> Bool {

  // 从标准输入读取一行数据
  guard let line = readLine() else {
    return false
  }

  // 拆分成单词及其统计数量
  let e = line.characters.split(separator: "\t")
  if e.count < 2 {
    return true
  }//end if
  // 保存到单词表
  let key = String(e[0])
  let value = Int(String(e[1])) ?? 0
  let count = dic[key] ?? 0
  dic[key] = count + value
  return true
}


// 处理所有行
while(lineMain()){}

// 打印结果
dic.keys.sorted().forEach { key in
  let value = dic[key] ?? 0
  print("\(key)\t\(value)")
}

编译

由于采用标准流程序开发,因此编译这些应用不需要任何其他依存关系。您只需打开一个终端窗口并运行swift build命令即可:

$ cd mapper
$ swift build
$ cd ../reducer
$ swift build

测试

在部署到Hadoop 集群之前,您可以尝试在普通的命令行环境下进行测试(testdata.txt 文件是一个常规的文本文件,采用ASCII或UTF-8编码即可)。本工程目录下包括了可以用于测试的数据文件和脚本。

$ cat testdata.txt | ./mapper/.build/release/mapper | sort | ./reducer/.build/release/reducer

在 Hadoop 上运行程序

和上面的管道操作类似,试验成功后您可以尝试在一个真正的 Hadoop 集群上跑一下新编写的程序了:

$ mapred streaming -input /user/rockywei/input -output /user/rockyweI/Output -mapper /usr/local/bin/mapper -reducer /usr/local/bin/reducer

如果任务成功,您可以用下列命令在集群上查看输出:

$ hadoop fs -cat /user/rockyweI/Output/part-00000

详细说明

上述映射-总结程序的细节解释参考如下:

  • mapred streaming: 向 Hadoop 集群申请一个新的应用程序任务,采用流处理模式(即纯文本)。

  • -input /user/rockywei/input: 在HADOOP HDFS文件系统上的 输入文件夹。典型情况是您需要向Hadoop 管理员帮助您用hadoop fs -mkdir命令行建立文件,然后再通过命令将待处理数据上传到该文件夹:hadoop fs -put [cluster folder] /local/pathto/data.txt

  • -output /user/rockyweI/Output: 在HADOOP HDFS文件系统上的 输出文件夹。特别注意最后一个子目录/output不应该创建,也就是说,只要您有/user/rockywei就好,mapreduce 会自动创建这个输出文件夹。

  • -mapper /usr/local/bin/mapper: 我们刚编译好的映射器,您可以采用下列命令安装到服务器本地文件夹: swift build; sudo mv ./.build/release/mapper /usr/local/bin

  • -reducer /usr/local/bin/reducer: 我们刚编译好的总结器,您可以采用下列命令安装到服务器本地文件夹swift build; sudo mv ./.build/release/reducer /usr/local/bin

下一步:Perfect Hadoop

Hadoop 是一个大数据生态系统 —— 包括 HDFS 高性能多冗余文件系统,Map-Reduce 文件处理程序和 YARN 集群资源管理系统 —— 构成了最基本的大数据系统。

如上所示,在 Hadoop 上编写流处理程序是一个很简单的工作,也不需要依赖于特定的软件体系。但是,除了编写流处理程序之外,您还可以使用 Perfect Hadoop 做更多更强大的事情——任务控制、大文件上下载、集群节点监控——现在所有这些工作都可以使用Swift 语言实现了!

更多信息

关于本项目更多内容,请参考perfect.org.

长按二维码关注Perfect 官网
微信号:PerfectlySoft (公司名)

如果需要帮助,请注册我们在Slack上的中文频道: http://perfect.ly/

使用 Swift语言进行 Hadoop 数据流应用程序开发的更多相关文章

  1. HTML5 播放 RTSP 视频的实例代码

    目前大多数网络摄像头都是通过 RTSP 协议传输视频流的,但是 HTML 并不标准支持 RTSP 流。本文重点给大家介绍HTML5 播放 RTSP 视频的实例代码,需要的朋友参考下吧

  2. 利用Node实现HTML5离线存储的方法

    这篇文章主要介绍了利用Node实现HTML5离线存储的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  3. 详解如何通过H5(浏览器/WebView/其他)唤起本地app

    这篇文章主要介绍了详解如何通过H5(浏览器/WebView/其他)唤起本地app的相关资料,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  4. H5混合开发app如何升级的方法

    本篇文章主要介绍了H5混合开发app如何升级的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  5. AmazeUI 折叠面板的实现代码

    这篇文章主要介绍了AmazeUI 折叠面板的实例代码,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  6. HTML5手指下滑弹出负一屏阻止移动端浏览器内置下拉刷新功能的实现代码

    这篇文章主要介绍了HTML5手指下滑弹出负一屏阻止移动端浏览器内置下拉刷新功能的实现代码,代码简单易懂,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧

  7. Html5 video标签视频的最佳实践

    这篇文章主要介绍了Html5 video标签视频的最佳实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

  8. html5唤起app的方法

    这篇文章主要介绍了html5唤起app的方法的相关资料,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  9. HTML5拍照和摄像机功能实战详解

    这篇文章主要介绍了HTML5拍照和摄像机功能实战详解,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  10. ios – 在没有iPhone6s或更新的情况下测试ARKit

    我在决定下载Xcode9之前.我想玩新的框架–ARKit.我知道要用ARKit运行app我需要一个带有A9芯片或更新版本的设备.不幸的是我有一个较旧的.我的问题是已经下载了新Xcode的人.在我的情况下有可能运行ARKit应用程序吗?那个或其他任何模拟器?任何想法或我将不得不购买新设备?解决方法任何iOS11设备都可以使用ARKit,但是具有高质量AR体验的全球跟踪功能需要使用A9或更高版本处理器的设备.使用iOS11测试版更新您的设备是必要的.

随机推荐

  1. Swift UITextField,UITextView,UISegmentedControl,UISwitch

    下面我们通过一个demo来简单的实现下这些控件的功能.首先,我们拖将这几个控件拖到storyboard,并关联上相应的属性和动作.如图:关联上属性和动作后,看看实现的代码:

  2. swift UISlider,UIStepper

    我们用两个label来显示slider和stepper的值.再用张图片来显示改变stepper值的效果.首先,这三个控件需要全局变量声明如下然后,我们对所有的控件做个简单的布局:最后,当slider的值改变时,我们用一个label来显示值的变化,同样,用另一个label来显示stepper值的变化,并改变图片的大小:实现效果如下:

  3. preferredFontForTextStyle字体设置之更改

    即:

  4. Swift没有异常处理,遇到功能性错误怎么办?

    本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请发送邮件至dio@foxmail.com举报,一经查实,本站将立刻删除。

  5. 字典实战和UIKit初探

    ios中数组和字典的应用Applicationschedule类别子项类别名称优先级数据包contactsentertainment接触UIKit学习用Swift调用CocoaTouchimportUIKitletcolors=[]varbackView=UIView(frame:CGRectMake(0.0,0.0,320.0,CGFloat(colors.count*50)))backView

  6. swift语言IOS8开发战记21 Core Data2

    上一话中我们简单地介绍了一些coredata的基本知识,这一话我们通过编程来实现coredata的使用。还记得我们在coredata中定义的那个Model么,上面这段代码会加载这个Model。定义完方法之后,我们对coredata的准备都已经完成了。最后强调一点,coredata并不是数据库,它只是一个框架,协助我们进行数据库操作,它并不关心我们把数据存到哪里。

  7. swift语言IOS8开发战记22 Core Data3

    上一话我们定义了与coredata有关的变量和方法,做足了准备工作,这一话我们来试试能不能成功。首先打开上一话中生成的Info类,在其中引用头文件的地方添加一个@objc,不然后面会报错,我也不知道为什么。

  8. swift实战小程序1天气预报

    在有一定swift基础的情况下,让我们来做一些小程序练练手,今天来试试做一个简单地天气预报。然后在btnpressed方法中依旧增加loadWeather方法.在loadWeather方法中加上信息的显示语句:运行一下看看效果,如图:虽然显示出来了,但是我们的text是可编辑状态的,在storyboard中勾选Editable,再次运行:大功告成,而且现在每次单击按钮,就会重新请求天气情况,大家也来试试吧。

  9. 【iOS学习01】swift ? and !  的学习

    如果不初始化就会报错。

  10. swift语言IOS8开发战记23 Core Data4

    接着我们需要把我们的Rest类变成一个被coredata管理的类,点开Rest类,作如下修改:关键字@NSManaged的作用是与实体中对应的属性通信,BinaryData对应的类型是NSData,CoreData没有布尔属性,只能用0和1来区分。进行如下操作,输入类名:建立好之后因为我们之前写的代码有些地方并不适用于coredata,所以编译器会报错,现在来一一解决。

返回
顶部