当前位置: 首页 > 编程日记 > 正文

【转】 LDA必读的资料

时间总是不够用,这里就不自己写了,摘自一篇转发的博客,感觉挺有用!

一个大牛写的介绍,貌似需FQ

http://tedunderwood.wordpress.com/2012/04/07/topic-modeling-made-just-simple-enough/

David M.Blei主页:http://www.cs.princeton.edu/~blei/publications.html,上面有布雷最新的文章:Introduction to probabilistic topic models

以下内容来自网络,但是作者已经不可考啦,抱歉没法找到原始引用

关于LDA并行化:
那么若利用MapReduce实现,怎样的近似方法好呢?
斯坦福的ScalaNLP项目值得一看:
http://nlp.stanford.edu/javanlp/scala/scaladoc/scalanlp/cluster/DistributedGibbsLDA$object.html
另外还有NIPS2007的论文:
Distributed Inference for Latent DirichletAllocation http://books.nips.cc/papers/files/nips20/NIPS2007_0672
ICML2008的论文:
Fully Distributed EM for Very Large Datasetshttp://www.cs.berkeley.edu/~jawolfe/pubs/08-icml-em

LDA和HLDA:
(1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003.
(2)T. L. Griffiths and M. Steyvers, "Finding scientific topics," Proceedings of the National Academy of Sciences, vol. 101, pp. 5228-5235, 2004.
(3)D. M. Blei, et al., "Hierarchical Topic Models and the Nested Chinese Restaurant Process," NIPS, 2003.
(4)Blei的LDA视频教程:http://videolectures.net/mlss09uk_blei_tm/
(5)Teh的关于Dirichlet Processes的视频教程:http://videolectures.net/mlss07_teh_dp/
(6)Blei的毕业论文:http://www.cs.princeton.edu/~blei/papers/Blei2004.pdf
(7)Jordan的报告:http://www.icms.org.uk/downloads/mixtures/jordan_talk.pdf
(8)G. Heinrich, "Parameter Estimation for Text Analysis," http://www.arbylon.net/publications/text-est.pdf
基础知识:
(1)P. Johnson and M. Beverlin, “Beta Distribution,” http://pj.freefaculty.org/ps707/Distributions/Beta.pdf
(2)M. Beverlin and P. Johnson, “The Dirichlet Family,” http://pj.freefaculty.org/stat/Distributions/Dirichlet.pdf
(3)P. Johnson, “Conjugate Prior and Mixture Distributions”, http://pj.freefaculty.org/stat/TimeSeries/ConjugateDistributions.pdf
(4)P.J. Green, “Colouring and Breaking Sticks:Random Distributions and Heterogeneous Clustering”, http://www.maths.bris.ac.uk/~mapjg/papers/GreenCDP.pdf
(5)Y. W. Teh, "Dirichlet Process", http://www.gatsby.ucl.ac.uk/~ywteh/research/npbayes/dp.pdf
(6)Y. W. Teh and M. I. Jordan, "Hierarchical Bayesian Nonparametric Models with Applications,”
http://www.stat.berkeley.edu/tech-reports/770.pdf
(7)T. P. Minka, "Estimating a Dirichlet Distribution", http://research.microsoft.com/en-us/um/people/minka/papers/dirichlet/minka-dirichlet.pdf
(8)北邮论坛的LDA导读:[导读]文本处理、图像标注中的一篇重要论文Latent Dirichlet Allocation,http://bbs.byr.edu.cn/article/PR_AI/2530?p=1
(9)Zhou Li的LDA Note:http://lsa-lda.googlecode.com/files/Latent Dirichlet Allocation note.pdf
(10)C. M. Bishop, “Pattern Recognition And Machine Learning,” Springer, 2006.
代码:
(1)Blei的LDA代码(C):http://www.cs.princeton.edu/~blei/lda-c/index.html
(2)BLei的HLDA代码(C):http://www.cs.princeton.edu/~blei/downloads/hlda-c.tgz
(3)Gibbs LDA(C++):http://gibbslda.sourceforge.net/
(4)Delta LDA(Python):http://pages.cs.wisc.edu/~andrzeje/research/deltaLDA.tgz
(5)Griffiths和Steyvers的Topic Modeling工具箱:http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm
(6)LDA(Java):http://www.arbylon.net/projects/
(7)Mochihashi的LDA(C,Matlab):http://chasen.org/~daiti-m/dist/lda/
(8)Chua的LDA(C#):http://www.mysmu.edu/phdis2009/freddy.chua.2009/programs/lda.zip
(9)Chua的HLDA(C#):http://www.mysmu.edu/phdis2009/freddy.chua.2009/programs/hlda.zip
其他:
(1)S. Geman and D. Geman, "Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. PAMI-6, pp. 721-741, 1984.
(2)B. C. Russell, et al., "Using Multiple Segmentations to Discover Objects and their Extent in Image Collections," in Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, 2006, pp. 1605-1614.
(3)J. Sivic, et al., "Discovering objects and their location in images," in Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on, 2005, pp. 370-377 Vol. 1.
(4)F. C. T. Chua, "Summarizing Amazon Reviews using Hierarchical Clustering," http://www.mysmu.edu/phdis2009/freddy.chua.2009/papers/amazon.pdf
(5)F. C. T. Chua, "Dimensionality Reduction and Clustering of Text Documents,” http://www.mysmu.edu/phdis2009/freddy.chua.2009/papers/probabilisticIR.pdf
(6)D Bacciu, "Probabilistic Generative Models for Machine Vision," http://www.math.unipd.it/~sperduti/AI09/bacciu_unipd_handouts.pdf

相关文章:

sizeof 操作符详解

1. 定义: sizeof是何方神圣? sizeof 乃 C/C 中的一个操作符(operator)是也。简单说其作用就是返回一个对象或者类型所占的内存字节数。 MSDN上的解释为: The sizeof keyword gives the amount of storage, in bytes, a…

石锤!谷歌排名第一的编程语言,死磕这点,程序员都收益

日本最大的证券公司之一野村证券首席数字官马修汉普森,在Quant Conference上发表讲话:“用Excel的人越来越少,大家都在码Python代码。”甚至直接说:“Python已经取代了Excel。”事实上,为了追求更高的效率和质量&#…

《关系营销2.0——社交网络时代的营销之道》一T表示Technology(技术)

本节书摘来异步社区《关系营销2.0——社交网络时代的营销之道》一书中的第1章,作者: 【美】Mari Smith 译者: 张猛 , 于宏 , 赵俐 责编: 陈冀康, 更多章节内容可以访问云栖社区“异步社区”公众号查看。 T表示Technology&#xff…

jquery拖拽实现UI设计组件

想做一个UI设计的组件,左侧是控件列表,右边是编辑区域,左侧的控件可以重复拖拽到右侧然后进行编辑。 效果草图: 部分js代码: function domop(){//set drag and drop $( "#compls .component" ).each(functi…

六年磨一剑,全时发布音视频会议平台TANG,多款新品亮相

作者 | 高卫华出品 | AI科技大本营时隔六年,全时于11月26日在北京举办了“时间的力量2020新产品发布会“。发布会现场,全时创始人&CEO陈学军回顾了全时近年来的发展历程,并正式推出了全时云会议2020版,全时小智和全时云直播三…

考察新人的两道c语言题目

1> 如何判断一个板子的cpu 是big-endian 还是 Little-endian的?用c实现非常简单,10行左右,就可以判断了, 关键考察新人是否了解了什么是endian ,big-endian与little-endian的区别在哪里, 如果…

《Adobe After Effects CC经典教程》——导读

前 言 After Effects CC提供了一套完整的2D和3D工具,动态影像专业人员、视频特效艺术家、网页设计人员以及电影和视频专业人员都可以用这些工具创建合成图像、动画和特效。After Effects被广泛应用于电影、视频、DVD以及Web的后期数字制作之中。After Effects可以以…

scanf()函数的用法和实践

scanf()函数的用法和实践摘要: 本文阐述了基于ANSI,Win 95,Win NT上的 C/C语言中scanf()函数的用法,以及在实际使用中常见错误及对策。 关键词: scanf()一、 序言 在CSDN论坛的C/C版块,我时常见…

邢波出任全球第一所AI大学校长,履历横跨三门学科

整理 | 高卫华出品 | AI科技大本营近日,世界上第一家研究型人工智能大学——Mohamed bin Zayed University of Artificial Intelligence,简称MBZUAI大学(MBZUAI),任命著名华人AI学术教授邢波为校长。据悉,首…

Ubuntu 10.10 安装 libx11-dev

今天(2013-04-11)尝试安装 ImageMagick,结果发现 config.log 文件中包含了如下错误信息: fatal error: X11/Xlib.h: No such file or directory 也就是说缺少了 libx11-dev 包,心想这有什么难的,直接通过 a…

《计算机组成原理》----2.6 浮点数

本节书摘来自华章出版社《计算机组成原理》一书中的第2章,第2.6节, 作 者 Computer Organization and Architecture: Themes and Variations[英]艾伦克莱门茨(Alan Clements) 著,沈 立 王苏峰…

javascript/dom:原生的JS写选项卡方法

来源:http://www.jb51.net/article/30108.htm <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html xmlns"http://www.w3.org/1999/xhtml"><head><meta http-…

CSDN 星城大巡礼,长沙“科技之星”年度企业评选正式开启

2020年&#xff0c;长沙市委主要领导发出“软件产业再出发”的号召&#xff0c;颁布了软件三年行动计划。今年5月&#xff0c;CSDN 作为专业的 IT 社区&#xff0c;与长沙高新区签约&#xff0c;将全国总部落户长沙&#xff0c;这一战略决策&#xff0c;让CSDN与长沙的联结进一…

Linux下用C获取当前系统时间

#include <time.h> time_t time(time_t calptr); 返回的是日历时间&#xff0c;即国际标准时间公元1970年1月1日00 : 00 : 00以来经过的秒数。然后再调用 char *ctime(const time_t calptr) ; 转化为字符串表示 #include <stdio.h> #inc…

Java程序猿的JavaScript学习笔记(12——jQuery-扩展选择器)

计划按例如以下顺序完毕这篇笔记&#xff1a;Java程序猿的JavaScript学习笔记&#xff08;1——理念&#xff09; Java程序猿的JavaScript学习笔记&#xff08;2——属性复制和继承&#xff09; Java程序猿的JavaScript学习笔记&#xff08;3——this/call/apply&#xff09; J…

关于动态规划,你想知道的都在这里了!

作者 | Your DevOps Guy翻译| 火火酱~&#xff0c;责编 | 晋兆雨出品 | AI科技大本营头图 | 付费下载于视觉中国什么是动态规划&#xff1f;它又有什么重要的呢&#xff1f;在本文中&#xff0c;我将介绍由Richard Bellman在20世纪50年代提出的动态规划&#xff08;dynamic pro…

Tcpdump命令的使用与示例——linux下的网络分析

顾名思义&#xff0c;TcpDump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤&#xff0c;并提供and、or、not等逻辑语句来帮助你去掉无用的信息。tcpdump就是一种免费的网络分析工具&#xff0c;尤其其提供了源代码&a…

document.getElementById与getElementByName的区别

document.getElementById( "id_Number ") 得到的是单个元素 document.getElementsByName( "name ") 得到的是数组 转载于:https://www.cnblogs.com/qiuh/archive/2013/04/16/3023596.html

HDU 3507:Print Article

HDU 3507&#xff1a;Print Article 题目链接&#xff1a;http://acm.hdu.edu.cn/showproblem.php?pid3507 题目大意&#xff1a;给定$n$&#xff0c;$m$&#xff0c;输出序列$n$个数&#xff0c;每连续输出代价为连续输出的数字和的平方加上$m$. 斜率优化DP 定义$sum_{pq}\su…

Linux wait函数解析

进程一旦调用了 wait&#xff0c;就 立即阻塞自己&#xff0c;由wait自动分析是否当前进程的某个子进程已经退出&#xff0c;如果让它找到了这样一个已经变成僵尸的子进程&#xff0c;wait 就会收集这个子进程的信息&#xff0c; 并把它彻底销毁后返回&#xff1b;如果没有找到…

Python多阶段框架实现虚拟试衣间,超逼真!

作者 | 李秋键 责编 | 晋兆雨 头图 | CSDN下载自视觉中国 任意姿态下的虚拟试衣因其巨大的应用潜力而引起了人们的广泛关注。然而&#xff0c;现有的方法在将新颖的服装和姿势贴合到一个人身上的同时&#xff0c;很难保留服装纹理和面部特征(面孔、毛发)中的细节。故在论文《Do…

百度重置页面自动跳转脚本

大家都知道的原因&#xff0c;百度现在不允许其它搜索引擎直接进入的它旗下的所有站点&#xff0c;在痛苦的被增加了很多点击后写了这个自动跳转的脚本。 原来不只搜索引擎&#xff0c;其它网站的链接也被搞了&#xff0c;nnd&#xff0c;诅咒百度。 使用方法&#xff1a;用xxx…

MYSQL 数据库迁移 ***

1. 导出数据库数据mysqldump -uroot -p webCompile > webCompileOut.sql其中&#xff1a;root 是账户名webCompile 是需要导出的数据库名称webCompileOut.sql 存储导出的数据2. 将导出SecureCRT sz【下载】的数据webCompileOut.sql放到你的目标机器…

exec函数族的使用

调用shell脚本命令&#xff1a;execlp("sh","sh","filename",(char*)0);exec用被执行的程序完全替换调用它的程序的影像。fork创建一个新的进程就产生了一个新的PID&#xff0c;exec启动一个新程序&#xff0c;替换原有的进程&#xff0c;因此这…

全球首个突破200种语言互译的翻译引擎,百度翻译打破世界沟通壁垒

机器翻译作为人工智能关键技术之一&#xff0c;正日益成为企业智能化升级的重要应用场景。12月1日&#xff0c;百度大脑开放日举办了以“机器翻译 沟通全世界”为主题的专场活动。 IDC 中国副总裁兼首席分析师武连峰、百度 AI 技术生态部总经理刘倩、百度人工智能技术委员会主席…

倍福TwinCAT(贝福Beckhoff)基础教程5.1 TwinCAT-2 运行可执行文件

个人认为这条命令做的参数比较混乱&#xff0c;PATHSTR是指可执行文件路径最终文件名&#xff0c;DIRNAME是指可执行文件路径&#xff0c;最后COMNDLINE可有可无&#xff0c;是指带参数运行启动的文件 测试可以正常运行

Linux系统的大小端模式

大端模式所谓的大端模式&#xff0c;是指数据的低位&#xff08;就是权值较小的后面那几位&#xff09;保存在内存的高地址中&#xff0c;而数据的高位&#xff0c;保存在内存的低地址中&#xff0c;这样的存储模式有点儿类似于把数据当作字符串顺序处理&#xff1a;地址由小向…

CSDN插件限时内测,新用户抢永久免费去广告特权!

经过程序猿哥哥们和产品小姐姐马不停蹄的疯狂加班&#xff0c;CSDN 官方出品的PC浏览器插件–开发者助手 终于正式上线啦&#xff01;一键万能操作&#xff0c;新标签页极简个性&#xff0c;让你的浏览器更酷更高效&#xff01;还有超多实用彩蛋功能等你来解锁&#xff01;现在…

你必须知道的.net学习总结

着几天在看《你必须知道的.net》&#xff0c;这次看书和以往不同&#xff0c;以前是把自己喜欢的章节看了。但是这次决定把一本书详细的看看。 在第一章第一节中主要讲的是“对象”,我想每一个程序员都对&#xff0c;“对象”有理解。 我来说说书中所说的对象吧。。 我只是把认…

Mybatis 基本配置, 面向接口

< 一 > 主配置文件 <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"> <configuration><…