OpenRefine是一款专业的数据清理工具。数据清理软件中的佼佼者OpenRefine。使用此软件用户可以轻松组织计算机中的所有数据并清洁它,您还可以在整个计算机中设置文件夹进行分析,这非常方便和实用。软件界面简单且直观,没有过多的操作功能。可以通过可视化分析和组织数据。用户只需要将所选文件上传到软件以使数据整理和清洁; OpenRefine支持数据文件查询,过滤,重新强调,分析多个功能功能等。软件上的数据文件变为简洁的电子表格,可以以各种格式文件以多种格式文件导出。
软件特征:
1.从计算机上的一个或多个文件导入数据
2,从网络上的一个或多个链接导入数据
3.通过粘贴剪贴板中的文本导入数据
4,从Google Cloud硬盘导入一个或多个表单
5,从数据库导入数据
6,您可以加载任何文件格式
使用方法:
1.完成软件下载并单击.exe文件并右键单击以创建软件桌面快捷方式
2,双击该软件进入Java下载的软件Java下载界面
3.双击java.exe文件以安装Java文件安装,完成安装以使用OpenRefine软件
4.输入软件以建立项目界面,以从计算机中选择文件以执行数据导入
这个项目屏幕
项目屏幕(或工作屏幕)是在开始研究项目工作的任何地方。这是您应该熟悉的界面部件的快速练习。
项目列#
项目栏已设置项目屏幕的顶部。它包含右侧的OpenRefine徽标,项目标题和项目控制按钮。
您可以随时关闭当前项目,然后单击OpenRefine徽标返回主屏幕。如果要在“新建浏览器”选项卡或窗口中打开其他项目,则可以右键单击徽标并使用“在新选项卡中打开”。如果关闭项目,则会丢失当前部分表面并查看设置(但数据转换将保存在项目的历史记录中)。
警告
不要单击浏览器上的“返回”按钮 - 它可能关闭当前项目,您将丢失拟合并查看设置。
您可以重命名项目标题中的项目标题中的项目,将成为文本字段。项目名称不一定是唯一的,因为OpenRefine根据幕后唯一标识符组织它们。
此固定链接允许您以特定视图状态(即,应用程序设施)返回到项目。此固定链接如果使用拟合和过滤器时必须关闭项目,您可以帮助您继续从最后中断的地方工作。它将特定于视图的信息放入URL中:单击它以在现有选项卡中加载此当前视图URL。您可以右键单击并复制固定链接以将当前视图状态复制到剪贴板的URL,而无需刷新正在使用的选项卡。
这打开了...按钮wi
LL打开一个显示创建屏幕的新浏览器标记。在这里,您可以更改设置,启动新项目或打开现有项目。
导出是一个下拉菜单,允许您选择导出数据集的格式。许多导出选项只会导出当前可见的行和记录 - 当前选定的部分曲面和过滤,而不导出项目中的总数据。帮助将打开一个新的浏览器选项卡,将您带入网络上的此用户手册。
网格标题#
网格标题位于项目栏和项目网格下方(项目数据的位置)。网格标题将告诉您项目中的总行数或记录,并指出您是否处于行或记录模式。
它还通过显示“180行”或“67匹配行(总为180)”来查看通过部分或过滤查看所选行。
在较低的数字处,您可以在行模式和录制模式之间切换。 OpenRefine永久存储在两种模式中,如果是,则默认情况下将数据显示为记录。
在行/记录选择的右侧是一组选项,可选择屏幕上有多少行/记录。在屏幕的右侧,您可以一次浏览整个数据集的页面。
扩展#
此扩展下拉菜单为您提供了一个选择来扩展数据 - 通常通过将编辑的语句上载到Wikidata或导入或导出模式来进行。您可以在Wikidata页面上了解有关这些功能的更多信息。其他扩展也可以在此下拉菜单中添加函数。
网格#
数据集的项目屏幕区域称为“网格”(或“数据网格”或“项目网格”)。网格以表格格式显示数据。对您而言,它看起来像一个普通的电子表格计划。
柱宽根据其内容自动设置;可以删除某些列,但可以通过在标题上悬停鼠标来查看。
在每个列标题中,您将看到一个小箭头。单击此箭头弹出一个下拉菜单,其中包含特定于列的数据浏览和转换选项。您将在浏览数据和转换数据部分中找到每个选项。
每个项目的第一列将始终是标记,加星和执行非列特定操作的选项。所有列也是行/记录号的地方。数字显示线和记录永久订单;临时排序或部分表面可以重新排列线路或显示有限的集合,但除非您执行永久性更改,否则数字将显示原始标识符。
项目网格可以同时显示垂直和水平滚动,具体取决于列的数量和宽度和所示的行/记录的数量。您可以使用“排序”并查看选项来控制项目网格的显示。
将鼠标悬停在单个单元格上,允许您单独编辑单元格。
面部/过滤器#
此表面/过滤器标签是浏览数据的主要方法之一:显示数据的模式和趋势,并帮助您缩小注意力范围并修改数据。方面和过滤器更详细地描述“探索数据”。
在标签中,您将看到三个按钮:刷新,重置所有按钮,然后删除所有。
刷新设施将确保您正在查看有关每个拟合的最新信息,例如,如果更改计数或取消某些选项,则会确保您进行有关每个拟合的最新信息。
重置面将删除您可能设置的任何包含或排除拟合选项中的任何一个,这将保留在侧栏中,但您的视图设置将被撤销。
拆下表面将完全取下侧边栏。如果您使用表达式编写了自定义方面,则这些区域将丢失。
您可以通过复制以下内容来保留各方和过滤器:固定链接。
历史(撤回/红色)#
在OpenRefine中,可以撤消更改数据的任何更改。最初创建一个项目时,您将从开头跟踪您的更改。使用项目的数据保存每个项目的更改历史记录,因此退出OpenRefine不会删除所执行的步骤。当您重新启动OpenRefine时,可以在退出OpenRefine之前查看和撤消更改。默认情况下,openRefine会自动保存,每五分钟操作,当您关闭OpenRefine(带Ctrl + C)时。您可以更改此间隔。
导出项目归档文件时,将保存项目历史记录;将存档导入新安装的OpenRefine时,将恢复项目历史记录。
常见问题:
我可以以某种方式举办OpenRefine,以便其他人可以访问?
OpenRefine没有内置的多用户或多租户方案的安全性。 OpenRefine具有单个数据模型,不共享,因此其他用户涵盖列数据存在风险,因此用户必须注意。也就是说,如果您倾向于冒险,您可以使用代理获得一些安全性。
此处在此讨论
同时。
单击.exe后,OpenRefine无法启动,它只会打开并关闭窗口
确保在系统上安装了Java JRE。至少有1 GB的RAM可用。
内存不足 - 感觉慢 - 无法为对象保留足够的空间
OpenRefine与可用的计算机内存有效地工作。通常,数据集越大,OpenRefine需要更多内存以有效地使用它。可用于OpenRefine的内存量是一个设置,您可以根据需要进行更改。如果您遇到“java.lang.outofmoryError),或者通常认为优化速度很慢,您可以尝试为OpenRefine分配更多内存。
我有个问题。我在哪里问?
将您的问题发送到OpenRefine邮件列表。
我发现了一个错误或想要一个新功能。我应该怎么办?
考虑首次讨论邮件列表。这可能有助于有助于获得高质量的错误报告或功能请求,您可以将其提交给问题跟踪器。
我的数据存储在哪里?
OpenRefine项目数据存储在Workspace目录中。首次运行OpenRefine时,请在本地计算机上设置默认工作区目录,或者您可以自己设置。有关更多信息,请阅读数据存储? 。
如何更改我想要改进其项目存储的工作区目录?
在Linux中,如果从终端运行运行,则可以指向-d参数指向工作区目录,例如,
./refine -p 3333 -i 0.0.0.0 -m 6000m -d / where /您/ want / workspace
将此行添加到Windows上的文件OpenRefine.l4j.ini中,然后保存:
-drefine.data_dir = t:\ myopenrefinedatatafolder
(当然,用实际目录替换t:\ myopenrefinedatafolder)
如何更改OpenRefine使用的IP地址?
在Linux上,在Mac上,来自命令行,
./refine -i 127.0.0.1.
例如,在Windows上,使用斜杠字符,例如斜杠字符
C:> Refine / I 127.0.0.1:8088
如何更改OpenRefine使用的端口?
在Linux上,在Mac上,来自命令行,
./refine -i 127.0.0.1 -P 3334
例如,在Windows上,使用斜杠字符,例如斜杠字符
C:>优化/ I 127.0.0.1 / p 3334
您还可以编辑refine.ini文件以永久设置IP地址和端口。
我无法通过浏览器连接到OpenRefine。
您可能需要仔细检查您的Chrome或Firefox代理设置。在Firefox中,选择选项 - >高级 - >网络 - >连接 - >设置,然后从“使用系统代理设置”切换到“自动检测代理设置”。
如果在浏览器中收到消息“网络错误(TCP_ERROR)”,则可能会尝试删除“自动检测设置”并向防火墙规则添加异常,以允许127.0.0.1(或您声明的任何IP)。地址)OpenRefine和)
在Windows上,有时OpenRefine看起来很像是开始,但不能以127.0.0.1的形式连接。因此,您可以尝试使用其他IP地址和端口运行的OpenRefine。
在W.
在奴隶上,你可能会因为某种原因而错过适配器 - 请参考https://github.com/datacarpentry/indrefine-ecology-lesson/issues/29
OpenRefine(正则表达式)语法支持哪些正则表达式?
GREL的正则表达式语法是Java Regex的语法,而不是JavaScript的正则表达式语法。看到grel正则表达式。
您还可以使用Jython Regex而不是GREL功能,并使用以下内容使用“自定义文本Facade”:
进口re.
g = re.Search(US2014(。*),\ s * bwv“,值)
返回g.group(1)
我应该与GREL使用什么样的语法来正确地构造URL并避免HTTP错误和其他陷阱,例如,使用URL中的JSON字符串或创建超链接?
良好做法是“”“炼油表达式”语法“引号,为URL语法的保留双引号.cupe(),确保您使用的单元格值使用。
例子:
'https://www.googleapis.com/freebase/v1/mqlread?query= {"mid":null,“/ type / object / key”:{“命名空间”:“/权限/ fmd / model”,价值“:”''''逃生(cell.modelname.value,“url”)+'“}}”
'=超链接(“http://listings.listhub.net/pages/bhamlsal/' +值+'”,'+值+')'
如何删除整行或多行?
标记(或加星)您将删除。
在所有列下拉菜单(标志上方)中,您可以通过转向设施>按下标志来获取立面。
在“打开”方面,单击“True”选项。
在“所有列”下拉菜单(徽标上方)中,您可以转到“编辑行”>“删除所有匹配行。”
如何制作文本面显示超过2,000个选项?
您可以访问http://127.0.0.1:3333/preferences并使用首选项键设置部分限制UI.BROWSING.LISTFAT.LIMIT。
如何在列中找到重复?
几个选择:
有一个捷径,外立面→自定义促进表面→重复门面
在列上创建文本曲面,然后单击“排序方式:COUNT:COUNT。计数的任何部分是2或更多是重复
使用frametcount()函数,(facetcount(值,'值','列名')> 1).tostring()然后选择true以显示所有重复行
可以作为较大的Etl管子的一部分使用openRefine?
您可以使用OpenRefine客户端库以编程方式执行OpenRefine。如果您喜欢Docker,您可能喜欢此集装箱方法进行批处理。
值得注意的是,并非所有的细化功能都可以在无人监督的情况下工作,并且无需介入(例如,群集),但是一些功能可以是。
这是一些进一步的讨论和项目:
https://groups.google.com/group/openrefine/msg/ee29cf8d660e66a9?hl=zh-cn.
https://groups.google.com/group/openrefine-dev/browse_thread/thread/33374842ccfebfcd#
https://github.com/dfhuynh/grefine-proxy.
我可以在没有浏览器的情况下运行OpenRefine吗?什么选择?
在Refine.ini中,您可以添加以下内容:
java_options = -drefine.headless = trefine.headless = true
您也可以在运行时使用它来选择头部模式-x efine.headless = true。 https://github.com/indrefine/openrefine/issues/1677aisuecomment-648335037列出了其他一些参数。
Cross()函数对我不起作用
您可能缺少需要执行的一些步骤,然后您可以使用Cross()函数,并希望它匹配2项之间的键。
修剪()您已使关键列十字架()
如有必要,请在密钥列中重复数据删除
导入大文件 - “内存使用率:100%”
导入大数据文件时,OpenRefine可能会消耗所有可用内存,从未完成导入。 {{https://imgur.com/stv6vpv.jpeg |内存用法:100%}}
这可能有助于增加可用的内存量。
取消“消除单元格对数字,日期,...”选项也可能有助于导入预览。
关于Python / Jython的非法反射访问操作的警告
这可能是因为你没有设置java_home环境变量来使用java 1.8,例如,java_home = c:\ program files \ java \ jdk-1.8.0_191有关更多详细信息,请参阅问题#1741
如果您使用Python 3+,则会发生这种情况,它将发生,因为我们在使用Jython 2.7.1库之前不支持Python 3+。您必须将默认Python环境设置为Python 2.7+以成功使用OpenRefine。在Windows上,这可以通过临时修改路径环境变量来包括安装Python 2.7+而不是安装Python 3+的位置来完成。
软件特色:
辅助功能
OpenRefine专为传统的桌面应用程序而设计......只是在浏览器中运行。因此,不幸的是,我们没有投入任何可访问性指导方针(如WCAG或其他)。我们有很多标签可用于转动单词和其他功能,就是这样。这并不是说我们不会阻止任何人进入和帮助我们进行任何可见的工作,而是因为开放式设计,它非常脆弱,无疑更容易进入那些愿景障碍。 ,因为OpenRefine的许多特征最初是旨在让人们判断视觉敏感性和准确性。
然而,再一次,没有足够的时间和其他人自愿提供专注的代码,所有人都可以使用OpenRefine更多功能,这是不可能的。
打开项目无法正常工作或在浏览器中显示混合的HTML内容
这可能是因为您已在OpenRefine的AppData文件夹中安装了OpenRefine扩展,这也是工作区的默认位置,并保留项目文件夹和文件。所以...我们不想删除OpenRefine扩展以解决问题的风险,所以...让我们按顺序执行以下步骤:
在AppData文件夹下备份OpenRefine文件夹。 (在Windows上使用zip或任何存档工具(如7z),然后将此.zip文件移动到安全的位置或云中的位置)
删除AppData文件夹下的OpenRefine文件夹。
启动OpenRefine,它将重新创建文件夹和工作区文件夹。
可选的下一步是从先前保存的.zip备份文件中选择Workspace.json文件和项目文件夹,选择性地返回原始位置。