我已经想过如何编写Unicode字符串,但仍然对它的工作原理感到困惑.
str <- "ỏ"
Encoding(str) # UTF-8
cat(str,file="no-iconv") # Written wrongly as <U+1ECF>
cat(iconv(str,to="UTF-8"),file="yes-iconv") # Written correctly as ỏ

我理解为什么no-iconv方法不起作用.这是因为cat(和writeLines也是如此)convert the string into the native encoding first and then to the to= encoding.在Windows上,这意味着R首先将converts转换为Windows-1252,它无法理解ỏ,从而导致< U 1ECF>.

我不明白为什么yes-iconv方法有效.如果我理解正确,这里的iconv只是返回一个UTF-8编码的字符串.但str已经是UTF-8了!为什么iconv会有什么不同?另外,当iconv(str,to =“UTF-8”)传递给cat时,首先转换到Windows-1252不应该再次搞砸了所有东西吗?

我认为在使用cat()之前将str((副本)str的设置设置为“unkNown”不那么神奇并且也可以正常工作.我认为这应该避免cat()中任何不需要的字符集转换.

这是一个扩展示例,用于演示我认为在原始示例中发生的情况:

print_info <- function(x) {
    print(x)
    print(Encoding(x))
    str(x)
    print(charToRaw(x))
}

cat("(1) Original string (UTF-8)\n")
str <- "\xe1\xbb\x8f"
Encoding(str) <- "UTF-8"
print_info(str)
cat(str,file="no-iconv")

cat("\n(2) Conversion to UTF-8,wrong input encoding (latin1)\n")
## from = "" is conversion from current locale,forcing "latin1" here
str2 <- iconv(str,from="latin1",to="UTF-8")
print_info(str2)
cat(str2,file="yes-iconv")

cat("\n(3) Converting (2) explicitly to latin1\n")
str3 <- iconv(str2,from="UTF-8",to="latin1")
print_info(str3)
cat(str3,file="latin")

cat("\n(4) Setting encoding of (1) to \"unkNown\"\n")
str4 <- str
Encoding(str4) <- "unkNown"
print_info(str4)
cat(str4,file="unkNown")

在Windows上的R使用的“Latin-1”语言环境(参见?l10n_info)中,输出文件“yes-iconv”,“latin”和“unkNown”应该是正确的(字节序列0xe1,0xbb,0x8f是“ỏ” “).

在“UTF-8”语言环境中,文件“no-iconv”和“unkNown”应该是正确的.

示例代码的输出如下,使用在Wine上运行的R 3.3.2 64位Windows版本:

(1) Original string (UTF-8)
[1] "ỏ"
[1] "UTF-8"
 chr "<U+1ECF>""| __truncated__
[1] e1 bb 8f

(2) Conversion to UTF-8,wrong input encoding (latin1)
[1] "á»\u008f"
[1] "UTF-8"
 chr "á»\u008f"
[1] c3 a1 c2 bb c2 8f

(3) Converting (2) explicitly to latin1
[1] "á»"
[1] "latin1"
 chr "á»"
[1] e1 bb 8f

(4) Setting encoding of (1) to "unkNown"
[1] "á»"
[1] "unkNown"
 chr "á»"
[1] e1 bb 8f

在原始示例中,iconv()使用默认的from =“”参数,这意味着从当前语言环境转换,这实际上是“latin1”.因为str的编码实际上是“UTF-8”,所以字符串的字节表示在步骤(2)中失真,但是当它(可能)将字符串转换回当前语言环境时,由cat()隐式恢复,如通过步骤(3)中的等效转换证明了这一点.

如何在R Windows中将Unicode字符串写入文本文件?的更多相关文章

  1. nsmutablearray – Sprite Kit iOS7 – SKNode UserData属性不存储值

    谢谢解决方法userData属性最初为零.您必须先创建一个字典并进行分配:

  2. ios – 如何使用Unicode十六进制值(UTF-16)在Swift中表达字符串

    我想在Swift中使用十六进制值编写一个Unicode字符串.我已经阅读了字符串和字符的documentation,所以我知道我可以使用特殊的Unicode字符直接在字符串如下:版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请发送邮件至dio@foxmail.com举报,一经查实,本站将立刻删除。

  3. 三 Swift学习之字符串和字符Strings and Characters

    Swift的String和Character类型提供了一个快速的,兼容Unicode的方式来处理代码中的文本信息。更多关于在Foundation和Cocoa中使用String的信息请查看UsingSwiftwithCocoaandObjective-C。Swift默认字符串拷贝的方式保证了在函数/方法中传递的是字符串的值。所以Swift中的字符在一个字符串中并不一定占用相同的内存空间。

  4. Swift字符unicode编码

    1、字符在C#Object语言中,字符放在单引号(')之间,但是在swift语言中,必须把字符放在双引号之间;(1)unicode编码unicode编码可以有单字节编码,双字节编码和四字节编码,它们的表现形式是"\u{n}",其中n为1到8个十六进制字符letandSign1:Character="&"letandSign2="\u{26}"letlamda1:Character=""letlam

  5. Swift语法基础:15 - Swift的Unicode使用以及标量

    接续接着说,Unicode是文本编码和表示的国际标准。它使您可以用标准格式表示来自任意语言几乎所有的字符,并能够对文本文件或网页这样的外部资源中的字符进行读写操作。Swift的字符串和字符类型是完全兼容Unicode的,它支持如下所述的一系列不同的Unicode编码。一个unicode标量是字符或者修饰符的唯一21位数(和名称),例如U+0061表示小写的拉丁字母A(“a”),U+1F425表示正面站立的鸡宝宝(“

  6. Swift学习:6.字符串和字符

    字符串字面量可以包含以下特殊字符:转义字符\0(空字符)、\\(反斜线)、\t、\n(换行符)、\r(回车符)、\"(双引号)、\'(单引号)。Unicode标量,写成\u{n},其中n为任意的一到八位十六进制数。

  7. 【swift】15-0518 自增,自减 选并 字符串的比较 Unicode

    :blet底线品牌=“小米4”var理想品牌:String?理想品牌=“iPhone6”var实际入手=(理想品牌??

  8. Swift学习笔记十五——程序员浪漫之用Swift+Unicode说我爱你

    程序员常常被认为是呆板,宅,不解风情的一帮人。但是有时候,我们也可以使用自己的拿手本领来表现我们的浪漫。由于Swift语言是支持Unicode编码的,而Unicode最新已经支持emoji(绘文字)的表情符号。所以,我想,我们是不是可以使用Swift+Unicode来浪漫一把呢?废话不说,直接上代码:输出结果如下:。当然,Unicode中的还有很多emoji表情,大概有250个,我写的只是很简单的例子。程序员们可以尽情发挥自己的想象吧。当然试试可以用其他语言来实现一下。

  9. swift基础教程——字符和字符串

    9、字符串比较Swift提供三种方法比较字符串的值:字符串相等,前缀相等,和后缀相等字符串相等当两个字符串的包含完全相同的字符时,他们被判断为相等。

  10. Swift 字符串+集合(三)

    StringsandCharacters字符串和字符StringLiterals字符串字面量用于为常量或变量提供初始值,可包含以下特殊字符转义字符\0(空)、\\(反斜线)、\t(水平制表)、\n(换行)、\r(回车)、\"(双引号)、\'(单引号)单字节Unicode,写成\xnn,nn为两位十六进制数双字节Unicode,写成\unnnn,nnnn为四位十六进制数四字节Unicode,写成\U

随机推荐

  1. static – 在页面之间共享数据的最佳实践

    我想知道在UWP的页面之间发送像’selectedItem’等变量的最佳做法是什么?创建一个每个页面都知道的静态全局变量类是一个好主意吗?

  2. .net – 为Windows窗体控件提供百分比宽度/高度

    WindowsForm开发的新手,但在Web开发方面经验丰富.有没有办法为Windows窗体控件指定百分比宽度/高度,以便在用户调整窗口大小时扩展/缩小?当窗口调整大小时,可以编写代码来改变控件的宽度/高度,但我希望有更好的方法,比如在HTML/CSS中.在那儿?

  3. 使用Windows Azure查询表存储数据

    我需要使用特定帐户吗?>将应用程序部署到Azure服务后,如何查询数据?GoogleAppEngine有一个数据查看器/查询工具,Azure有类似的东西吗?>您可以看到的sqlExpressintance仅在开发结构中,并且一旦您表示没有等效,所以请小心使用它.>您可以尝试使用Linqpad查询表格.看看JamieThomson的thispost.

  4. windows – SetupDiGetClassDevs是否与文档中的设备实例ID一起使用?

    有没有更好的方法可以使用DBT_DEVICEARRIVAL事件中的数据获取设备的更多信息?您似乎必须指定DIGCF_ALLCLASSES标志以查找与给定设备实例ID匹配的所有类,或者指定ClassGuid并使用DIGCF_DEFAULT标志.这对我有用:带输出:

  5. Windows Live ID是OpenID提供商吗?

    不,WindowsLiveID不是OpenID提供商.他们使用专有协议.自从他们的“测试版”期结束以来,他们从未宣布计划继续它.

  6. 如果我在代码中进行了更改,是否需要重新安装Windows服务?

    我写了一个Windows服务并安装它.现在我对代码进行了一些更改并重新构建了解决方案.我还应该重新安装服务吗?不,只需停止它,替换文件,然后重新启动它.

  7. 带有双引号的字符串回显使用Windows批处理输出文件

    我正在尝试使用Windows批处理文件重写配置文件.我循环遍历文件的行并查找我想要用指定的新行替换的行.我有一个’函数’将行写入文件问题是%Text%是一个嵌入双引号的字符串.然后失败了.可能还有其他角色也会导致失败.如何才能使用配置文件中的所有文本?尝试将所有“在文本中替换为^”.^是转义字符,因此“将被视为常规字符你可以尝试以下方法:其他可能导致错误的字符是:

  8. .net – 将控制台应用程序转换为服务?

    我正在寻找不同的优势/劣势,将我们长期使用的控制台应用程序转换为Windows服务.我们为ActiveMQ使用了一个叫做java服务包装器的东西,我相信人们告诉我你可以用它包装任何东西.这并不是说你应该用它包装任何东西;我们遇到了这个问题.控制台应用程序是一个.NET控制台应用程序,默认情况下会将大量信息记录到控制台,尽管这是可配置的.任何推荐?我们应该在VisualStudio中将其重建为服务吗?我使用“-install”/“-uninstall”开关执行此操作.例如,seehere.

  9. windows – 捕获外部程序的STDOUT和STDERR *同时*它正在执行(Ruby)

    哦,我在Windows上:-(实际上,它比我想象的要简单,这看起来很完美:…是的,它适用于Windows!

  10. windows – 当我试图批量打印变量时,为什么我得到“Echo is on”

    我想要执行一个简单的批处理文件脚本:当我在XP中运行时,它给了我预期的输出,但是当我在Vista或Windows7中运行它时,我在尝试打印值时得到“EchoisOn”.以下是程序的输出:摆脱集合表达式中的空格.等号(=)的两侧可以并且应该没有空格BTW:我通常在@echo关闭的情况下启动所有批处理文件,并以@echo结束它们,所以我可以避免将代码与批处理文件的输出混合.它只是使您的批处理文件输出更好,更清洁.

返回
顶部