-
关于评论话题挖掘的研究及其实现代码(一)LDA
所属栏目:[大数据] 日期:2020-12-25 热度:120
引言 在 2016年中,我们参加了一个由厦门信研院举办的大数据比赛。当时,我们拿到的题目为影迷关注点分析。数据是来自于微博与豆瓣的影迷评论数据,其数据量达600多万条评论数据,分别对应于2000多部不同的电影。我们的想法是将影迷关注点分析尽量往评论话[详细]
-
数据挖掘中的模式发现(六)挖掘序列模式
所属栏目:[大数据] 日期:2020-12-25 热度:117
序列模式挖掘 序列模式挖掘(sequence pattern mining)是数据挖掘的内容之一,指挖掘相对时间或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。。 其涉及在数据示例之间找到统计上相关的模式,其中数据值以序列被递送。通常假设这些值是离散的[详细]
-
关于评论话题挖掘的研究及其实现代码(二)词图切分
所属栏目:[大数据] 日期:2020-12-25 热度:74
引言 在上一篇的博客谈到使用LDA的方法挖掘影迷关注点可谓是无功而返。后来我思考了许久,决定将原来的向量空间模型转变为词语网(WordNet),然后通过社区检测算法来把网络划分不同的社区,从而确定为不同的话题。 社区检测算法 现实世界中的许多系统都可[详细]
-
《MySQL必知必会》学习笔记五(数据处理函数)------掌握部分
所属栏目:[大数据] 日期:2020-12-25 热度:77
副标题#e# MySQL必知必会知识预览 第一章——了解SQL 第二章——MySQL简介 第三章——使用MySQL 第四章——检索数据 第五章——排序检索数据 第六章——过滤数据 第七章——数据过滤 第八章——用通配符进行过滤 第九章——用正则表达式进行搜索 第十章——[详细]
-
数据挖掘 : 手把手教你做文本挖掘
所属栏目:[大数据] 日期:2020-12-25 热度:200
副标题#e# 文本挖掘定义 文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 ? 2 文本挖掘步骤 1)读取数据库或本地外[详细]
-
基于大数据分析的安全管理平台技术研究及应用
所属栏目:[大数据] 日期:2020-12-24 热度:163
转自:http://www.36dsj.com/archives/30027 基于大数据分析的安全管理平台技术研究及应用 基于大数据分析的安全管理平台技术研究及应用 Research and Application of Big Data Analysis Based Security Management Platform Last Modified By yepeng @ 20[详细]
-
BI解决方案资料收集
所属栏目:[大数据] 日期:2020-12-24 热度:137
ETL工具:Kettle(官网,Pentaho公司开源)、?Informatica、Datastage、OWB、微软DTS、Beeload、久其ETL,Oracle GoldenGate等等……开源的工具(16款开源工具,OSchina ETL工具列表),有eclipse的ETL插件: cloveretl 工作流引擎:jBPM,Activiti,H3 BPM[详细]
-
文本挖掘:手把手教你分析携程网评论数据
所属栏目:[大数据] 日期:2020-12-24 热度:83
副标题#e# 文本分析的应用越来越广泛,这不,我的工作也开始涉及了文本分析,今天就讲讲关于评论数据的那点事。 首先评论数据如何获取? 一般通过 网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的评论,在同事的协助下,成功爬[详细]
-
R中文舆情包cnSentimentR
所属栏目:[大数据] 日期:2020-12-24 热度:110
该包使用jiebaR分词,svm[e1071]进行分类; 包括三个函数:cnsr.prepare,cnsr.train,cnsr.predict 目前还在开发中,功能不完整. 请见: https://github.com/leeshuheng/cnSentimentR[详细]
-
工作坊 | 大数据智能分析和挖掘在互联网中的应用实战案例
所属栏目:[大数据] 日期:2020-12-24 热度:110
大数据分析和挖掘在互联网公司中已经得到实质性的推进和应用,典型的应用场景包括搜索引擎的搜索结果和搜索广告排序、电商网站的商品推荐和虚假信息检测、电子邮件服务中垃圾邮件检测、互联网安全公司的病毒和木马检测、视频和新闻分享网站中视频和新闻推[详细]
-
亚马逊前首席科学家:大数据价值体现在AI、BI、CI、DI
所属栏目:[大数据] 日期:2020-12-24 热度:170
「 技术领导者 」的订阅首选 本文转载自灯塔大数据 无人机送货、阿法狗下棋、小冰和你谈场恋爱……人工智能领域的成果,一直是企业在大数据运用能力上的主要外在体现,但在亚马逊原首席科学家安德雷斯·韦思岸(Andreas Weigend)看来,大数据能为企业做的,[详细]
-
bzoj 1670: [Usaco2006 Oct]Building the Moat护城河的挖掘 (凸
所属栏目:[大数据] 日期:2020-12-24 热度:152
1670: [Usaco2006 Oct]Building the Moat护城河的挖掘 Time Limit:?3 Sec?? Memory Limit:?64 MB Submit:?524?? Solved:?384 [ Submit][ Status][ Discuss] Description 为了防止口渴的食蚁兽进入他的农场,Farmer John决定在他的农场周围挖一条护城河。农[详细]
-
《Speed-BI云平台-基于Excel数据源的技巧应用:区域销售收入分析
所属栏目:[大数据] 日期:2020-12-24 热度:112
对于刚接触speed-BI的朋友们,一些看似很简单很琐碎的动作,当没有小窍门和智能化的操作就会使得工作量变大,时间耗起来真要命。本次课就将围绕speed-BI常用的功能进行串讲,还有特别的小技巧一并教授,成为speed-BI的技巧王! ? 课程应用: 本次课程以销[详细]
-
[bigdata-042]从头搭建 spring+mvc+boot+tomcat
所属栏目:[大数据] 日期:2020-12-24 热度:155
副标题#e# 1. 需求 1.1 在spring.io下载一个spring mvc的demo,能运行成功。 1.2 按照自己的理解,重写这个例子,并做适当修改,运行成功。 1.3 将这个例子打包成war包,放到tomcat运行成功。 2. 在spring.ip下载spring mvc并运行 2.1 spring的例子在 http:[详细]
-
[bigdata-043] tomcat的一些资料和文档试用( 未整理)
所属栏目:[大数据] 日期:2020-12-24 热度:53
1. tomcat的官网在这里 http://tomcat.apache.org/whichversion.html 2. tomcat的版本跟jdk相关。jdk1.8已经广泛使用,选择tomcat 9优先。 3. 下载tomcat 9 3.1 首先要阅读文档 https://mirrors.tuna.tsinghua.edu.cn/apache/tomcat/tomcat-9/v9.0.0.M17/R[详细]
-
[bigdata-032] 把json文件导入到mongodb
所属栏目:[大数据] 日期:2020-12-24 热度:158
用mongoimport命令 mongoimport -d db1 -c colle1 --type json --file cc.json --host 114.55.66.77 --upsert -u user1 -p passwd1 这个命令,如果同id的记录在,就更新,如果记录id不重复,就插入。因为upsert,所以会比较慢。 mongoimport -d db1 -c col[详细]
-
算法题 16:两个大数相乘(华为面试)
所属栏目:[大数据] 日期:2020-12-24 热度:92
题目:请使用代码计算 1234567891011121314151617181920?* 2019181716151413121110987654321 备注: 请留言, 描述一下解题思路。原题目要求写代码,这里不方便提交。[详细]
-
常用的相似性度量-各种距离总结
所属栏目:[大数据] 日期:2020-12-24 热度:144
副标题#e# 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结[详细]
-
[BZOJ1670][Usaco2006 Oct]Building the Moat护城河的挖掘(凸包
所属栏目:[大数据] 日期:2020-12-24 热度:125
题目描述 传送门 题解 凸包裸题。 代码 #includealgorithm#includeiostream#includecstring#includecstdio#includecmathusing namespace std;#define N 5005const double eps=1e-9;int dcmp(double x){ if (x=epsx=-eps) return 0; return (x0)?1:-1;}stru[详细]
-
N的阶乘(大数阶乘算法)
所属栏目:[大数据] 日期:2020-12-24 热度:195
Problem Link:点击打开链接 题目描述 ?输入一个正整数N,输出N的阶乘。? 输入描述: 正整数N(0=N=1000) 输出描述: ?输入可能包括多组数据,对于每一组输入数据,输出N的阶乘 输入例子: 4515 输出例子: 241201307674368000 AC code: #includeiostream#incl[详细]
-
2017年商业智能 BI 发展趋势分析
所属栏目:[大数据] 日期:2020-12-24 热度:140
副标题#e# 转载自公众号:天善智能(ID:tianshansoft) 作者:吕品,天善智能联合创始人运营总监? 导读 本文主要涉及到以下四个方面的内容: 1. 传统 BI 和新型 BI 的分水岭(2013年) 2. 新型 BI 的高速发展期和传统BI的衰退(2013年-2016年) 3. 传统 BI[详细]
-
a+b(大数加法)
所属栏目:[大数据] 日期:2020-12-24 热度:190
Problem Link:点击打开链接 题目描述 实现一个加法器,使其能够输出a+b的值。? 输入描述: 输入包括两个数a和b,其中a和b的位数不超过1000位。 输出描述: 可能有多组测试数据,对于每组数据,输出a+b的值。 输入例子: 2 610000000000000000000 10000000000[详细]
-
文思海辉与达梦完成产品兼容互认证
所属栏目:[大数据] 日期:2020-12-18 热度:159
短视频,自媒体,达人种草一站服务 继文思海辉与国产IT厂商南大通用、数腾软件完成产品兼容互认证,近日,文思海辉又与武汉达梦数据库股份有限公司(以下简称:达梦公司)完成产品兼容性互认证。经双方联合测试得出:文思海辉智翼云企业数字化创新平台SuperD[详细]
-
净利润同比下滑超60%,少了小米后华米科技能否独立“行走”?
所属栏目:[大数据] 日期:2020-12-18 热度:183
副标题#e# 在23日美股三大股指集体收涨情况下,华米科技的这份财报并没有使得投资者满意。其中净利润表现的不佳或许是投资者们担忧的重点。截止美股研究社发稿,华米科技盘后报13.57美元,总市值为8.43亿美元。 今年10月份,华米科技与小米三年前签署的战略[详细]
-
奏响5G“主旋律”,MWC将于明年2月重返上海
所属栏目:[大数据] 日期:2020-12-18 热度:116
如果没有因为疫情而停办,2021年将是MWC世界移动通信大会落地上海的第十年。按计划,它将在明年的6月份举办。但由于疫情的影响,2020年的MWC上海展没能如期举行,或许也因为如此,明年的大会比原计划来得更早一些。 据主办方GSMA近日宣布,2021年MWC上海展[详细]

浙公网安备 33038102330434号