-
数据处理之—reshape2
所属栏目:[大数据] 日期:2021-02-20 热度:144
reshape2是用来做数据处理的拓展包,它可以用来实现宽格式数据与长格式数据之间的互转。如果你熟悉结构化数据库查询,那你一定知道列转行与行转列,我这里所说的宽长数据之间互转与之类似;如果你不熟悉的也没关系,它很简单,接着往下看你就能很快熟悉并[详细]
-
UVA 11582 巨大数的斐波那契数列 (大数取模,幂取模,模的计算方
所属栏目:[大数据] 日期:2021-02-20 热度:154
Problem F: Colossal Fibonacci Numbers! The?i'th Fibonacci number?f?(i)?is recursively defined in the following way: f?(0) = 0?and?f?(1) = 1 f?(i+2) = f?(i+1) + f?(i)??for every?i?≥?0 Your task is to compute some values of this sequence.[详细]
-
【1】文本挖掘的主要概念
所属栏目:[大数据] 日期:2021-02-20 热度:90
转自 NLP论坛 http://www.threedweb.cn/thread-1281-1-1.html 什么是文本挖掘 文本挖掘可以广义地定义知识密集的处理过程,其中用户使用一套分析工具与文档集合动态(随着时间的推移)交互。在类似于数据挖掘的方式,文本挖掘旨在通过识别令人感兴趣的模式[详细]
-
【3】 文本挖掘方法论
所属栏目:[大数据] 日期:2021-02-20 热度:52
副标题#e# 转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html 文本挖掘流程 第1阶段:确定研究目的 像任何其他项目一样,文本挖掘的研究开始于研究[详细]
-
【4】构建基于scikit-learn的文本挖掘学习系统
所属栏目:[大数据] 日期:2021-02-20 热度:156
转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html 配置开发环境 构建基于scikit-learn的文本挖掘学习系统 1. 下载和安装 python-2.7.8 for win322. 下载和安装 numpy-1.9.0-win32-superpack-python2.73. 下载和安装 scipy-0.14.0-win32-superpa[详细]
-
大数的四则运算
所属栏目:[大数据] 日期:2021-02-20 热度:54
项目名称:《大数的四则运算》 ? 开发环境:windows、vs2013 ? 开发技术:string、c++? ? 项目描述: ● 大数计算的底层采用string存储,将整形数据转换成字符串进行存储和运算? ● 运算的加减采用逐位加减,设置标记位,标记每一次加减的进位与借位,每[详细]
-
Disucz 插件漏洞挖掘
所属栏目:[大数据] 日期:2021-02-08 热度:75
副标题#e# 前言 Discuz 是北京康盛新创科技有限责任公司推出的一套通用的社区论坛软件系统。自2001年6月面世以来,Discuz!已拥有15年以上的应用历史和200多万网站用户案例,是全球成熟度最高、覆盖率最大的论坛软件系统之一。 来自第三方漏洞平台Discuz的查[详细]
-
技术分享 | 从白盒审计角度挖掘逻辑漏洞
所属栏目:[大数据] 日期:2021-02-08 热度:149
0x01 背景 ? ? ? 通常来讲,扫描器难以发现逻辑类漏洞,所以企业和安全研究者都比较重视这方面的漏洞。 ? ? ? 最近国外漏洞披露平台hackerone上,一位白帽子发现Uber一修改任意账户密码的逻辑漏洞,获得了$10000美元的奖励。 ? ? ? 所以如何通过代码审计来[详细]
-
实战:图片信息挖掘与解析-1
所属栏目:[大数据] 日期:2021-02-08 热度:197
因著作权限制,请大家点击左下角“阅读原文”进行查阅。[详细]
-
实战:图片信息挖掘与解析-2
所属栏目:[大数据] 日期:2021-02-08 热度:186
因著作权限制,请大家点击左下角“阅读原文”进行查阅。[详细]
-
6个用于大数据处理分析的最好工具
所属栏目:[大数据] 日期:2021-02-08 热度:170
副标题#e# 大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大[详细]
-
hdu 1002 大数相加
所属栏目:[大数据] 日期:2021-02-08 热度:103
Problem Description I have a very simple problem for you. Given two integers A and B,your job is to calculate the Sum of A + B. ? Input The first line of the input contains an integer T(1=T=20) which means the number of test cases. Then[详细]
-
大数相加算法
所属栏目:[大数据] 日期:2021-02-08 热度:140
public static String add(String str1,String str2){int m=str1.length();int n=str2.length();if(m!=n){byte[] buff=new byte[mn?m-n:n-m];for(int k=0;kbuff.length;k++){buff[k]='0';}String buf=new String(buff);if(mn)str2=buf+str2;elsestr1=buf+s[详细]
-
白帽笔记:我的“一日一洞”高效漏洞挖掘之旅 20160811
所属栏目:[大数据] 日期:2021-02-08 热度:125
作者:Shubham Shah,澳大利亚安全研究人员,专注于程序开发、渗透测试和黑客技术。2016年初被安全媒体评为10大著名“漏洞赏金猎人”之一。本文原名《高效漏洞挖掘:120天120个漏洞》 2016年初,我就给自己设定了一个目标:在这一年中,平均每天挖掘出一个[详细]
-
一些数据的处理
所属栏目:[大数据] 日期:2021-02-08 热度:75
关于一些取点,数组下标等等的处理 数组下标 来源于STL的代码思考 2点技术: x ? !!X ?这个可以让 不是0 的数全返回 1 【8 ? 16 ?24 32 ?数组分段是这样的话】 X (X+7)/8-1 ?这个可以找到对应的下标值 X 二进制编码相关 ? ? ?128 64 32 16 ? 8 ?4 2 1? (~[详细]
-
从公安大数据业务切入,挖掘更多数据价值:明略数据完成 2 亿元
所属栏目:[大数据] 日期:2021-02-08 热度:103
大数据概念在国内炒的过热,落地大数据应用的产品并不多。原因一方面在于底层数据的非结构化存储,数据挖掘技术难度大;另一方面在于数据挖掘多样化模型建立的技术难度。从IT时代到DT时代,大家都在谈大数据概念而无法落地,而一旦系统应用到具体场景,完[详细]
-
DB、ETL、DW、OLAP、DM、BI关系结构图
所属栏目:[大数据] 日期:2021-02-06 热度:103
(1)DB/Database/数据库——这里一般指的就是OLTP数据库,在线事物数据库,用来支持生产的,比如超市的买卖系统。DB保留的是数据信息的最新状态,只有一个状态!比如,每天早上起床洗脸照镜子,看到的就是当时的状态,至于之前的每天的状态,不会出现的你[详细]
-
R语言-数据处理
所属栏目:[大数据] 日期:2021-02-06 热度:91
Reading Data 读取表格数据的函数read.table()以及read.csv() readLines()用于逐行读取文本文件 source()读取R代码的重要函数 dget()用来读取R代码文件 load()和unserialize()用于把二进制对象读入R Writing Data write.table() writeLines() dump() dput([详细]
-
简单粗暴的“大数据“解决方案
所属栏目:[大数据] 日期:2021-02-06 热度:156
这里说“大数据”确实有点哗众取宠,但确确实实是解决一些大数据量的情况。比如常用的布隆过滤器(BloomFilter)、常用的文本相似比较算法SimHash等,这里介绍的都是看上去是简单粗暴的方法,但当你深入了解后你就会发现什么叫简约而不简单,掌握这些常用的[详细]
-
连续属性离散化
所属栏目:[大数据] 日期:2021-02-06 热度:78
副标题#e# 1. 离散化技术分类 连续属性的离散化方法也可以被称为分箱法,即将一组连续的值根据一定的规则分别放到其术语的集合中。 离散化技术可以根据如何对数据进行离散化加以分类,可以根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。 如[详细]
-
【重!磅!干!货
所属栏目:[大数据] 日期:2021-02-05 热度:141
副标题#e# 查看之前文章请点击右上角 ,关注并且 查看历史消息 ,还可以在文章最后评论留言。谢谢您的支持! 回复【文本挖掘】或者【点击阅读原文】获取链接与代码附录 一、 功能概述 ? ? ? ?关键词词频网络图是以股票论坛、 个股新闻、研究报告三个网站作[详细]
-
51Nod-1116-K进制下的大数
所属栏目:[大数据] 日期:2021-02-05 热度:144
ACM模版 描述 题解 这里我们通过样例可以发现 A1A 的数位和是21,刚好是 K-1 的倍数,所以我们不妨多举几组数据测试一下,发现竟然都符合这个规律( ̄┰ ̄*),那么AC就不远了。 可是这里需要强调的是,K的最小值,如果K清一色的都是从2开始枚举,那么不用想[详细]
-
开源ETL工具kettle系列之常见问题
所属栏目:[大数据] 日期:2021-02-05 热度:134
副标题#e# 摘要 本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 问题 Join 我得到A 数据流(不管是基于文件或数据库),A包含field1,field2,field3 字段,然后我还有一个[详细]
-
开源ETL工具kettle系列之在应用程序中集成
所属栏目:[大数据] 日期:2021-02-05 热度:57
副标题#e# 摘要 本文主要讨论如何在你自己的Java应用程序中集成Kettle 集成 如果你需要在自己的Java应用程序中集成Kettle,一般来说有两种应用需求,一种是通过纯设计器来设计ETL转换任务,然后保存成某种格式,比如xml或者在数据库中都可以,然后自己调用程[详细]
-
开源ETL工具kettle系列之增量更新设计
所属栏目:[大数据] 日期:2021-02-05 热度:180
副标题#e# 前言 ETL中增量更新是一个比较依赖与工具和设计方法的过程,Kettle中主要提供Insert / Update 步骤,Delete 步骤和Database Lookup 步骤来支持增量更新,增量更新的设计方法也是根据应用场景来选取的,虽然本文讨论的是Kettle的实现方式,但也许[详细]

浙公网安备 33038102330434号