什么是R中文本处理和预处理一些功能强大的工具?

我经常使用哈德利的包stringr收拾凌乱的生态数据(正火物种名称,格式混乱的标签等)。 最近,我开始学习sedawk和我这些工具有多么强大都交口称赞,尤其是大批数据文件的时候。

我的问题:

  1. 是否有其他强大的文本处理软件包(外base的功能,和那些在stringr ),将进行数据清洗是有用的?
  2. 是否有可能运行sed从R内部命令/脚本? 如果是这样,怎么样? 你能给我一个例子吗?
  3. 有没有人试图写一个包装sed作为A R包。 如果不是,那又是一个值得追求的东西(A侧的项目为自己或以上能力的程序员)?

--------------解决方案-------------

首先,关于sedawk ,我没有一般有需要他们,因为他们是特别老同学。 我经常写在Perl的正则表达式,并实现同样的事情,用比较容易的可读性。 我的意思不是辩论实现的优点,但是当我没有在Perl编写这样的功能,我发现gsubgrep ,以及相关的正则表达式工具R.工作得非常好注意,这些可以采取perl = TRUE作为参数; 我更喜欢Perl的正则表达式处理。

关于严重得多的包,所述tm包尤为显着。 对于自然语言处理和文本挖掘资源的报道较多,检查出的CRAN任务视图的NLP。

另外,我觉得你的问题头衔混为一谈两个概念。 像sed&awk中,正则表达式,符号化等工具在文本处理和预处理的重要棋子。 文本挖掘是更多的统计,并取决于文本数据的有效预处理和定量。 尽管没有提及,分析,信息检索和自然语言处理,两个后续阶段是在它们的目的更具体的研究和工程领域。 如果你在文本操作主要感兴趣,则用于施加正则表达式和预处理的各种工具/正常化应该足够了。 如果你想要做文本挖掘,你需要寻找到更多的统计功能。 对于NLP,那么做一个深一点的分析工具是必要的。 所有来自R内访问,但问题是你想多远,走这兔子洞? 想吞下红色药丸?

分类:ř 时间:2012-01-01 人气:0
本文关键词: AWK,sed的
分享到:

相关文章

  • Python或AWK / sed的清洗数据 2012-05-14

    我用R进行数据分析,我非常高兴. 清理数据可能会更容易一点,但是. 我想学习适合这项工作另一种语言. 具体来说,我正在寻找一个工具来使用,取原始数据,去除不必要的变量或意见,并格式化为R.目录便于装载将大部分数字和字符串数据,而不是多行文本. 我正在考虑awk的/ sed的组合与Python的. (我承认,Perl的将是另一个选择,但是,如果我要学习另一种完全语言Python似乎是一个更好的,更具扩展性的选择.) SED / AWK的优点是,它会是更快地学习. 的缺点是,这种组合不如Python

  • AWK / SED删除包含括号的列 2012-01-07

    我想知道是否有可能包含可以包含在任何列中的任何括号的数据文件中删除列. 例如 ... John Doe (Tech Department) 09/12/2009 555-555-5555 Jane Smith 09/12/2009 555-555-5555 (Suspended) Alfred doe 555-555-5555 (Vacation) 09/09/2011 ... 于是我想看起来像输出 ... John Do 09/12/2009 555-555-5555 Jane Smith 0

  • AWK / SED。 如何删除简单的文本文件括号 2012-06-24

    我有一个文本文件看起来像这样: (-9.1744438E-02,7.6282293E-02) (-9.1744438E-02,7.6282293E-02) ... and so on. 我想删除所有括号和每对夫妇,使它看起来像这样一个新行修改文件: -9.1744438E-02,7.6282293E-02 -9.1744438E-02,7.6282293E-02 ... 一个简单的方法来做到这一点? 任何帮助表示赞赏, 弗雷德 --------------解决方案------------- 我会

  • 需要一个awk / sed的/剪切对tcpdump的输出简单的寻找替代isssue 2012-08-26

    这是我的输入文件的问题,它包含不同类型的N / W分组与首标信息. 这是只由两个数据包的示例文件... 18:10:17.528660 IP6 2001::100 > 2001::200: ESP(spi=0x00005fb4,seq=0x23), length 168 0x0000: 6000 0000 00A8 3220 2001 0000 0000 0000 ................ 0x0010: 0000 0000 0000 0100 2001 0000 0000 0000 .

  • 如何我读了线,稍微修改它,并用awk / sed的写回? 2013-04-13

    我有以下格式的JSON文件: [ { "organization": "ABC", "type": "School", "contact": "Joe Schmo", "contact_title": "Principal", "mailing_address": "123 Main Street, Anytown,

  • 如何更改小数点分隔符使用awk / sed的? 2013-08-24

    如何从更改数字格式(不同的小数点分隔符XXXXXX.XXX到XXXXXX,XXX使用sed或awk 谢谢! --------------解决方案------------- 这是不是可以作为OP whas谈论的数字更准确.要确保它是点之前领先的数字. 该文件可以认为在OP不希望替换其他点. sed '/[0-9]\./s/\./,/g' 你可以这样做: $ echo "XXX.XX" | sed s/\\./,/g PS:那不是问题,更适合在superuser.com? 如何严格,你想?

  • 巴什/ AWK / SED比赛,并在重写行号(日期)的字符串 2013-10-02

    我有以下内容重复约60次从转换,.ics文件来一个文本文件: Start Vak Tijd van: 20120411T093000Z Tijd tot: 20120411T100000Z Klas(sen) en Docent(en): VPOS0A1 VPOS0A2 Mariel Kers Vak: Ex. Verst. beperk. Lokaal: 7.05 Einde Vak 我想重写"Tijd面包车"和"Tijd TOT"的价值观成为一个优秀的日期(ba

  • EXPR / AWK / SED:获取git的目录从回购URL名称 2013-12-04

    使用bash EXPR,awk或者sed,我怎么能确定给定的git回购Git的基本目录? 例如:git@git.gitweb.com:/myModule-repo.git => MyModule的回购 --------------解决方案------------- 如果你坚持这样做,使用这些工具, echo git@git.gitweb.com:/myModule-repo.git | sed 's%^.*/\([^/]*\)\.git$%\1%g' (找到最后一个/子串,直到git的文艺)应该

  • 加入基于使用AWK / SED唯一的ID两个变量 2014-04-18

    我有两个变量,这是逗号分隔的列表. 我想通过追加基于其唯一的ID行加入这两个变量. 下面的例子: var1=" id1,data1,data2,data3 id2,data1,data2,data3 id3,data1,data2,data3 id4,data1,data2,data3 " var 2=" id1,data4,data5,data6 id2,data4,data5,data6 id3,data4,data5,data6 id4,data4,data5,data

  • 在文件中筛选记录基础上,通过AWK / SED第一列的值 2014-03-21

    我有如下记录的文件: a,1 a,1,2 a,1,2,3 b,4 b,4,5 b,4,5,6 我想这样的输出: a,1,2,3 b,4,5,6 --------------解决方案------------- 这真的不清楚你试图在这里做. 它甚至不太清楚你有什么到目前为止已经试过(好计算器问题通常涉及一些代码)! 你读过了FAQ,对不对? 如果你的输入是一个名为input_file.csv ,那么下面awk程序会给你你想你所说的输出. 它是否会为你的真实数据的工作是任何人的猜测. % awk -F

Copyright (C) 55228885.com, All Rights Reserved.

55228885 版权所有 京ICP备15002868号

processed in 0.278 (s). 10 q(s)