当前位置: 首页 > 编程日记 > 正文

关于微博溯源的后续问题

1、在进行关键词搜索的时候,如何分词,我们不可能用语料库进行匹配,已没有语料可以学习。

2、关于转折点的寻找。目前我们使用高级搜索,从当前时间往前推,根据搜索到微博的条数变化,确定时间发生具体时间(天),在二分寻找发展时间的具体小时,对此小时的搜索结果按发布时间进行排序。

3、对于相似结果。新浪会将相似结果进行合并,导致搜索结果信息的丢失,我们还木有具体搞清楚他的合并规则,是否需要将所有信息展开。

4、对于微博事件的关键词的演变该如何处理,现在,如从“青山爆炸”到“青山氯气泄漏”到“武钢爆炸”等等,搜索关键词只能得到一组关键词的结果,如何得到后续的关键词,通过词频统计的话,必然会造成噪声点过多,即使不多,一个噪声点就是致命的。因为这可能导致我们的溯源不知道溯到哪里去了。

5、关于新浪博客的搜索BUG不知如何处理。

5、搜狐、腾讯的微博明显比新浪的搓。都没有高级搜索,只能搜到一天,而且他们的搜索算法也貌似有点小问题,具体真多他们如何做,后面再说。

转载于:https://www.cnblogs.com/Vanior/archive/2012/07/15/2592649.html

相关文章:

python3的数据类型以及模块的含义

python3的数据类型以及模块的含义购物车转载于:https://blog.51cto.com/11834445/1884901

设计模式之C#实现---- ProtoType

作者: cuike519的专栏 http://blog.csdn.net/cuike519/该模式的意图是:用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象。那么首先我们应该已经有了一个对象,同时这个对象还支持自我复制(科隆&…

快速排序(二)最后修改

1 //2012-07-162 void quickSort(element list[], int left, int right)//快速排序3 {4 int ileft;5 int jright;6 7 if(i > j) //判断需要i<j8 return;9 10 element templist[i]; 11 12 while(i<j) 13 { 14 while(i<j …

性能超越GPU、FPGA,华人学者提出软件算法架构加速AI实时化

作者 | 王言治&#xff0c;美国东北大学电子与计算机工程系助理教授出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;近年来&#xff0c;机器学习(Machine Learning)领域的研究和发展可谓是与日俱新&#xff0c;各式各样与机器学习相关的研究成果与应用层出不穷&#…

PHP获取毫秒时间戳,利用microtime()函数

PHP获取毫秒时间戳&#xff0c;利用microtime()函数 php本身没有提供返回毫秒数的函数&#xff0c;但提供了一个microtime()函数&#xff0c;借助此函数&#xff0c;可以很容易定义一个返回毫秒数的函数。php的毫秒是没有默认函数的&#xff0c;但提供了一个microtime()函数&am…

.NET中添加控件数组

作者&#xff1a;cuike519的专栏 http://blog.csdn.net/cuike519/添加控件数组 在.NET里面我好像没有找到有关于控件数组的说明,但是前两天偶在网上看到了一篇关于如何在.NET里面实现控件数组的文章(该文章请参看MSDN).记得大学的时候在使用VB的时候使用过控件数组,可是到了…

如何在机器学习的框架里实现隐私保护?

编者按&#xff1a;数据时代&#xff0c;人们从技术中获取便利的同时&#xff0c;也面临着隐私泄露的风险。微软倡导负责任的人工智能&#xff0c;因此机器学习中的隐私保护问题至关重要。本文介绍了目前机器学习中隐私保护领域的最新研究进展&#xff0c;讨论了机密计算、模型…

函数图像轻松画:教你用永中图象

函数图像轻松画&#xff1a;教你用永中图象 函数图像轻松画&#xff1a;教你用永中图象转载于:https://blog.51cto.com/premium/933220

c语言语系的命名风格和java系命名风格

c语言系的命名风格&#xff1a;单词之间使用下划线分隔。如上图。 java语言是另外一个系&#xff0c;javascript属于java语系(当年就是想借助java的名气所以命名javascript)。java语系是驼峰式命名法&#xff0c;如getElementById()。如果使用c语系命名风格则使用下划线分隔 ge…

全国IP地址分配表

xa.sn.cn,西安公众网,西安,陕西,CN,202.100.0.* xa.sn.cn,西安公众网,西安,陕西,CN,202.100.1.* xa.sn.cn,西安公众网,西安,陕西,CN,202.100.2.* xa.sn.cn,西安公众网,西安,陕西,CN,202.100.3.* xa.sn.cn,西安公众网,西安,陕西,CN,202.100.4.* xa.sn.cn,西安公众网,西安,陕西,C…

神同步!美国三地 Tesla 车主,自动驾驶都撞了警车

来源 | HyperAI超神经&#xff08;ID&#xff1a;HyperAI&#xff09;内容概要&#xff1a;上周在美国北卡州发生了一起交通事故&#xff0c;一辆自动驾驶模式下的 Tesla 撞击了停靠在路边的警车&#xff0c;虽未造成人员伤亡&#xff0c;但车辆损毁严重。事故调查中发现&#…

Q币才是腾讯真正的世界级产品

本文受《虚拟货币将是下一个大平台》启发而来。何玺认为&#xff0c;腾讯Q币本身就具有全球化虚拟货币的基因。 日前&#xff0c;有媒体报道了Pocket Change获得了由Google Ventures领投的500万美元A轮融资&#xff0c;使其融资总额达到640万美元。 Pocket Change是一个为Andro…

解决Office互操作错误检索COML类工厂中 CLSID为 {xxx}的组件时失败,原因是出现以下错误: 80070005...

Excel为例&#xff08;其他如Word也适用&#xff09;文件数据导入时报出以下错误: 检索COML类工厂中 CLSID为 {00024500-0000-0000-C000-000000000046}的组件时失败&#xff0c;原因是出现以下错误: 80070005&#xff0c;如图所示: 可以看到报出的异常类型为:UnauthorizedAcces…

再论制硬盘逻辑锁

姜卓睿 雷必武 一、序言 由于教学工作需要&#xff0c;本人在参看了贵刊98年第4期《硬盘逻辑锁技术研究及应用》与99年第3期《解开硬盘逻辑死锁的一种有效方法》的文章之后&#xff0c;决定以同类方法尝试一下&#xff0c;结果未获得成功&#xff0c;又“苦于”没有KV300 L …

​我国科学家成功研制全球神经元规模最大的类脑计算机

来源 | 之江实验室&#xff08;ID&#xff1a;zhejianglab&#xff09;9月1日&#xff0c;浙江大学与之江实验室举办成果发布会&#xff0c;共同发布我国首台基于自主知识产权类脑芯片的类脑计算机&#xff08;Darwin Mouse&#xff09;。浙江大学校长吴朝晖院士出席并讲话。他…

批处理获取目录下所有文件名

由于要处理一些文件&#xff0c;找了个这样的批处理&#xff1a; 输出目录及子目录下所有的jpg图片的文件名&#xff0c;不含扩展名 1 echo off 2 cd.>List.txt 3 for /f "delims" %%i in (dir /s/a-d /b *.jpg) do >>List.txt echo %%~ni>>JustName.…

1001: 整数求和

描述:求两个整数之和输入:输入数据只包括两个整数A和B。输出:两个整数的和。样例输入:1 2样例输出:3考点:运算符代码&#xff1a; #include <stdio.h> int main() {int a,b;int c;scanf("%d",&a);scanf("%d",&b);cab;printf("%d",…

ASP.NET 2.0 中的新增安全功能

发布日期&#xff1a; 8/26/2004| 更新日期&#xff1a; 8/26/2004Stephen Walther Microsoft Corporation 适用于&#xff1a; Microsoft ASP.NET 2.0 Microsoft ASP.NET framework Microsoft SQL Server Microsoft Visual Studio .NET 摘要&#xff1a;ASP.NET 2.0 包含一些新…

GitHub 标星 20000+,国产 AI 开源从算法开始突破 | 专访商汤联合创始人林达华

作者 | 阿司匹林责编 | 李雪敬封图 | CSDN 下载自视觉中国作为已经有4000多名员工的AI独角兽&#xff0c;商汤的一举一动备受关注。从2018年开始&#xff0c;奔着“开源、统一、可复现”的目标&#xff0c;商汤开始建设人工智能算法的开源体系。当时&#xff0c;商汤联合创始人…

那些年,我们一起学过的汇编----之伪指令

弄懂了前面几篇关于基础的文章&#xff0c;下面就开始我们真正的汇编之旅了&#xff0c;在这一篇中我们着重来强调下汇编语言的伪指令。伪指令是汇编语言程序设计中的一个主要的部分&#xff0c;属于控制命令&#xff0c;在汇编语言中的数据定义、存储单元分配、指示程序结果等…

JavaScript-数据引用类型对象

1 <!DOCTYPE html>2 <html>3 <head lang"en">4 <meta charset"UTF-8">5 <title></title>6 </head>7 <body>8 <script>9 //按值传递:两个变量间赋值时,或将变量作为参数传入函数时,其实…

热点 | Excel不“香”了,数据分析首选Pyhton!

Excel一直在求职中有着不可动摇的地位无论是投行、咨询、四大曾经都会在JD中明确要求会Excel&#xff0c;而Excel称霸的时代已经过去&#xff01;事实上&#xff0c;为了追求更高的效率和质量&#xff0c;他们开始使用比Excel更高效的Python&#xff0c;随后交易收入增长了15%。…

ASP.NET中实现打印

怎样才可以调用打印机进行打印并且对纸张类型进行设置呢&#xff1f; --------------------------------------------------------------- <OBJECT id"WebBrowser" height"0" width"0" classid"CLSID:8856F961-340A-11D0-A96B-00…

you have new email in /var/spool/mail/root/

有时在进入系统的时候经常提示You have new mail in /var/spool/mail/root 解决方法&#xff1a;修改系统配置文件/etc/profile&#xff0c;告诉系统不要去检查邮箱. 具体操作&#xff1a; 命令行输入&#xff1a;echo "unset MAILCHECK" >> /etc/profile 【把…

写时复制,写时拷贝,写时分裂,Copy on write

2019独角兽企业重金招聘Python工程师标准>>> 写时复制&#xff0c;写时拷贝&#xff0c;写时分裂 &#xff08;Copy-on-write&#xff0c;简称COW&#xff09;是计算机资源管理方面的一种优化技术&#xff0c;有着广泛的应用&#xff0c;比如内存管理&#xff08;进…

C#生成pdf的源代码

作者&#xff1a;qieyj(温馨港湾) http://search.csdn.net/Expert/topic/1256/1256076.xml?temp.1866419//write by wenhui.orgusing System;using System.IO;using System.Text;using System.Collections; namespace PDFGenerator{ public class PDFGenerator{static fl…

迁移性好、多用途,港中文提出特征分离的无监督人类三维姿态表征​

来源 | 我爱计算机视觉&#xff08;ID:aicvml&#xff09;本文将介绍一种基于特征分离的通用人类姿态特征的学习算法Unsupervised Human 3D Pose Representation with Viewpoint and Pose Disentanglement。该算法从无监督的特征分离过程中&#xff0c;习得了一个迁移性好、多用…

解決Linux下Android开发真机调试设备不被识别问题

为什么80%的码农都做不了架构师&#xff1f;>>> 在google找了不少关于这个的资料&#xff0c;各种添加和修改系统文件&#xff0c;但是我的defy依旧没有被识别。尼马的&#xff01; 好吧&#xff0c;是我低估了Android的sdk的adb调试工具&#xff0c;其实简单的两个…

在Server 2003上部署IIS+PHP+MySQL配置清单

在Server 2003上部署IISPHPMySQL I.安装Windows Server 2003 将光盘放入光驱中&#xff0c;设置BIOS&#xff0c;从CDROM引导加载安装程序&#xff0c;等待启动&#xff1b; 设置注册信息&#xff0c;名字和公司组织名&#xff1b; 填写安装密钥&#xff1b; 设置远程连接数目&…

用Python打造一款文件搜索工具,所有功能自己定义

前言在日常的办公中&#xff0c;我们经常会从一堆不同格式的文件(夹)中搜索特定的文件&#xff0c;可能你是凭着记忆去找或是借助软件&#xff0c;但你有想过如何用Python实现吗&#xff1f;本文将基于几个常见的搜索操作讲解。扫描路径内的内容有些时候我们会希望在当前文件夹…