作者:Ole Begemann,原文链接,原文日期:2016-01-03
译者:aaaron7;校对:numbbbbb;定稿:Cee
ICU 的字符串变换很酷。ICU 库提供了一整套强大的文本变换功能,在处理用户输入、特别是当你的程序需要处理一些英语之外的语言或者非拉丁字符时非常有用。举个例子,你可以把一段简体中文转码成拉丁字符,同时清除音调符号、修饰符和隐藏字符,最后全部转换成小写,使其成为可以被你的数据库搜索 API 识别的字符串,而所有这些变换,只要一行代码就可完成。
在 Apple 的平台中,字符串变换一直以来都是通过 Core Foundation 的 CFStringTranform 函数来实现。Mattt Thompson 在 NSHipster 上对该 API 有非常棒的介绍,推荐阅读。
随着 iOS 9 和 OS X 10.11 的发布,字符串变换被整合到了 Foundation 框架中。虽然在文档中还没有介绍 NSString 的新方法 stringByApplyingTransform(_:reverse:)
,但是 CFStringTransform
文档已经对它进行了说明,而且 Nate Cook 在 这篇 NSHipster 的文章中也展示了一些具体的例子。下面的代码演示了如何实现中文到拉丁字符的转换:
import Foundation let shanghai = "上海" shanghai.stringByApplyingTransform(NsstringTransformToLatin,reverse: false) // 返回 "shàng hǎi"
看起来还不错。Apple 提供了 16 种固定的变换,绝大多数都是字符转码(译者注:Script Transliterations,指的是把其中一种语言的字符变换成另一种语言的字符。详情可参考这里),其中一些方法允许你清除输入字符的组合标记符号和读音符号、转换为码点以及转换为标准的 Unicode 形式。另外,绝大多数变换都是可逆的,只要设置 stringByApplyingTransform(_:reverse:)
函数的第二个参数即可。特别是做链式调用变换操作的时候,这显得非常强大(比如首先转码,然后去除变音符号)。
自由变换
有一个牛逼功能,CFStringTransform
文档和 NSHipster 的文章中都有提到,但我之前一直没意识到,它就是自由变换。 ICU 自己定义了一套语法来表示变换,如果你把遵循这套语法的字符串作为参数传给 stringByApplyingTransform(_:reverse:)
,它就可以识别!比如这样:
// Convert non-ASCII characters to ASCII,// convert to lowercase,delete spaces "Café au lait".stringByApplyingTransform( "Latin-ASCII; Lower; [:Separator:] Remove;",reverse: false) // returns "cafeaulait"
这篇 ICU 用户手册写的非常好,并且包含很多例子。强烈推荐你学习一下。这里是几个我做的例子:
转换成小写。
输入 | 变换 | 结果 |
---|---|---|
HELLO WORLD | Lower | hello world |
仅转换元音字母为小写。 方括号定义了一个过滤器,表示只对满足过滤条件的字符应用变换规则。
输入 | 变换 | 结果 |
---|---|---|
HELLO WORLD | [AEIoU] Lower | HeLLo WoRLD |
先转成拉丁,再转成 ASCII,最后转换成小写。 用分号把不同的转换规则隔开。拉丁到 ASCII 这一步会移除变音符以及会把 ASCII 码范围之外的字符和标点符号转换成 ASCII 中与之最为接近的版本。
输入 | 变换 | 结果 |
---|---|---|
上海 | Any-Latin; Latin-ASCII; Lower | shang hai |
København | Any-Latin; Latin-ASCII; | Lower kobenhavn |
กรุงเทพมหานคร | Any-Latin; Latin-ASCII; | Lower krungthephmhankhr |
Αθήνα | Any-Latin; Latin-ASCII; | Lower athena |
“Æ « © 1984” | Any-Latin; Latin-ASCII; Lower | "ae << (c) 1984" |
删除标点。 删除规则非常强大。上面的例子都是用方括号加一些字符串规则来表示过滤条件,但过滤器也可以像这个例子一样,由 Unicode 字符类给出。
输入 | 变换 | 结果 |
---|---|---|
“Make it so,” said Picard. | [:Punctuation:] Remove | Make it so said Picard |
删除所有非字母字符。使用 ^ 来对字符串做过滤。
输入 | 变换 | 结果 |
---|---|---|
5 plus 6 equals 11
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。 相关推荐效率成吨提升之代码生成器-蓝湖工具神器iOS,Android,Swift,Flutter
软件简介:蓝湖辅助工具,减少移动端开发中控件属性的复制和粘贴.待开发的功能:1.支持自动生成约束2.开发设置页面3.做一个浏览器插件,支持不需要下载整个工程,可即时操作当前蓝湖浏览页面4.支持Flutter语言模板生成5.支持更多平台,如Sketch等6.支持用户自定义语言模板
【Audio音频开发】音频基础知识及PCM技术详解
现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。目前我们在计算机上进行音频播放都需要依赖于音频文件。那么音频文件如何生成的呢?音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程,我们人耳所能听到的声音频率范围为(20Hz~20KHz),因此音频文件格式的最大带宽是20KHZ。根据奈奎斯特的理论,音频文件的采样率一般在40~50KHZ之间。奈奎斯特采样定律,又称香农采样定律。...............
见过仙女蹦迪吗?一起用python做个小仙女代码蹦迪视频
前言最近在B站上看到一个漂亮的仙女姐姐跳舞视频,循环看了亿遍又亿遍,久久不能离开!看着小仙紫姐姐的蹦迪视频,除了一键三连还能做什么?突发奇想,能不能把舞蹈视频转成代码舞呢?说干就干,今天就手把手教大家如何把跳舞视频转成代码舞,跟着仙女姐姐一起蹦起来~视频来源:【紫颜】见过仙女蹦迪吗 【千盏】一、核心功能设计总体来说,我们需要分为以下几步完成:从B站上把小姐姐的视频下载下来对视频进行截取GIF,把截取的GIF通过ASCII Animator进行ASCII字符转换把转换的字符gif根据每
自定义ava数据集及训练与测试 完整版 时空动作/行为 视频数据集制作 yolov5, deep sort, VIA MMAction, SlowFast
前言这一篇博客应该是我花时间最多的一次了,从2022年1月底至2022年4月底。我已经将这篇博客的内容写为论文,上传至arxiv:https://arxiv.org/pdf/2204.10160.pdf欢迎大家指出我论文中的问题,特别是语法与用词问题在github上,我也上传了完整的项目:https://github.com/Whiffe/Custom-ava-dataset_Custom-Spatio-Temporally-Action-Video-Dataset关于自定义ava数据集,也是后台
【视频+源码】登录鉴权的三种方式:token、jwt、session实战分享
因为我既对接过session、cookie,也对接过JWT,今年因为工作需要也对接了gtoken的2个版本,对这方面的理解还算深入。尤其是看到官方文档评论区又小伙伴表示看不懂,所以做了这期视频内容出来:视频在这里:本期内容对应B站的开源视频因为涉及的知识点比较多,视频内容比较长。如果你觉得看视频浪费时间,可以直接阅读源码:goframe v2版本集成gtokengoframe v1版本集成gtokengoframe v2版本集成jwtgoframe v2版本session登录官方调用示例文档jwt和sess
【Android App】实战项目之仿微信的私信和群聊App附源码和演示视频 超详细必看
【Android App】实战项目之仿微信的私信和群聊App(附源码和演示视频 超详细必看)
采用MATLAB对正弦信号,语音信号进行生成、采样和恢复,利用MATLAB工具箱对混杂噪声的音频信号进行滤波
采用MATLAB对正弦信号,语音信号进行生成、采样和内插恢复,利用MATLAB工具箱对混杂噪声的音频信号进行滤波
Keras深度学习实战40——音频生成
随着移动互联网、云端存储等技术的快速发展,包含丰富信息的音频数据呈现几何级速率增长。这些海量数据在为人工分析带来困难的同时,也为音频认知、创新学习研究提供了数据基础。在本节中,我们通过构建生成模型来生成音频序列文件,从而进一步加深对序列数据处理问题的了解。
|