当前位置: 首页 > 编程日记 > 正文

mediawiki java api_维基百科 MediaWiki API 解析

c05ee1927c85

使用开放的 API 做一个自己的小项目,是一个很好的学习方法。但好像开放的 API 选择并不多。这里给大家多一个选择,简单介绍一下维基百科使用的 MediaWiki API。

简介

先简单介绍几个容易混淆的概念。

Wiki

Wiki 是一种在网络上开放且可供多人协同创作的超文本系统。Wiki 站点可以由多人维护,不同人可以对同一个主题进行拓展和探讨。

MediaWiki

MediaWiki 是一个免费、开放的 Wiki 引擎,很多著名的 wiki 网站都采用这套系统。

Wikipedia

我们常说的维基百科,一般是指 Wikipedia,它是基于 MediaWiki 的一个网络百科全书。

但要理解的是,除了 Wikipedia,还有很多别的 Wiki 站点。从这个角度考虑的话,维基(Wiki)也有可能是指别的网站,不过 Wikipedia 太出名了,以至于很多人直接将 Wikipedia 等同于 Wiki。

文档

在了解到维基百科的 API 是开放的之后,我就找到了官方的 API 文档,但以我目前的水平,这个文档几乎完全看不懂。在网上找了很久,希望可以有一篇文章以中文看得懂的方式,告诉我这些 API 是怎么用的,但很可惜并没有。

没办法,自己对着官方文档琢磨了很久,勉强总结出一些比较常用的调用方法。希望本文可以让你对 MediaWiki 的内容获取有一个大概的了解,让你能用它做出自己的项目。

本文所有内容都来自以下官方文档,如果能看懂,就不用再往下看啦。

为了方便理解,下面的说明都会有例子,用的是「灰机wiki」的「冰与火之歌中文维基」站点,域名是 asoiaf.huijiwiki.com,并通过 api.php 访问。当然,只要是基于 MediaWiki 的 Wiki 站点,下面说明都是适用的。

action

接口中的 action 用来指定请求相应的动作,他的可取值非常非常多。我们这里只考虑内容的获取,不进行用户管理、内容编辑等操作,所以只要知道一个值就行了,所有接口都是 action = query。query 就是代表获取数据。

format

这个用来指定数据返回的格式,我们统一用 JSON 格式,即 format = json。

但我在使用过程中发现,返回的 JSON 数据很多都是用「*」号或者是数字作为字段名的,解析起来很麻烦。这种情况下可以尝试增加 formatversion = 2,让返回的数据更正常一些,便于解析。

list

在 action = query 的情况下,会增加一些可用的参数,其中 list 是比较常用的一个。list 的可选值也很多,下面是几个我认为比较常用的值。

allcategories

在对一个站点还不是很了解的情况下,我们可以先看一下它有哪些分类。list = allcategories 代表列举出所有分类:

其中,aclimit 指定了返回的条目数量,默认值是 10,不能超过 500。

当数据存在下一页的时候,返回的数据里会有 continue 字段,比如:

continue: {

accontinue: "Castle_Black",

continue: "-||"

}

要获取下一页,把 accontinue 这个参数带上就行:

categorymembers

现在我们知道有哪些分类了,接下来想看一下某个分类下有哪些内容,就要用到 categorymembers,它用于列出指定分类中的所有页面。分类名传入 cmtitle,需要包括「Category:」这个前缀。

假如我想看一下「史塔克家族」有哪些页面:

这里控制返回数量的是 cmlimit,获取下一页的是 cmcontinue。

random

要是我想给用户一种新鲜感,每次在首页随机展示一些内容,list = random 是你需要的,它用于随机返回一些内容:

rnlimit 控制返回的数量,默认是 1。同理,获取下一页要用 rncontinue。后面也是类似的。

这里还有一个命名空间 NameSpace 的概念。当 rncontinue = 0 代表指定返回的是页面,rncontinue = 6 是文件,rncontinue = 14 是分类,别的我还没有用到过。

search

搜索功能肯定是少不了的,我们用 list = search,将关键字传给 srsearch 进行搜索。

搜索含有「史塔克」的页面:

目前我用到的 list 取值就这些。下面讲一下另一个重要的参数。

prop

如果是要获取某个页面的相关数据,就涉及到 prop 这个参数。它用来指定要获取的数据类型,它的可选值也很多,下面也挑几个常用的说。

categories

这个用来获取页面所属的所有分类,比如艾德·史塔克属于史塔克家族,也属于国王之手:

images

除了文字描述,图片也是内容里的一个重要信息,prop = images 用来获取指定页面的所有文件。虽然是 image,但是它能获取到各种文件,包括视频:

pageimages

prop = pageimages 也是用来获取页面图片的,按我的理解,它是用来获取页面封面的。比如我们获取「艾德·史塔克」的封面:

pithumbsize 用来指定图片的尺寸,默认只有 50 px。另外要注意,不是每个页面都是有封面的。

revisions

接下来是最重要的获取页面内容了。revisions 文档解释是用来获取修订版本信息的,可以用来获取最新的页面数据。

我这样来获取「艾德·史塔克」的页面数据:

rvprop = content 表示需要返回页面的文本内容。rvparse = true 表示将文本内容解析为 html,否则是纯文本内容。

除了 content,rvprop 还有很多可选值,同时需要多种内容,可以用「|」分隔。比如同时返回修订时间戳、修订的用户及修订内容,可以这样表示:rvprop=timestamp|user|content。

其实很多参数的取值都是支持使用「|」的,将多条数据一起返回。比如我们将上面提到的 prop 取值一次全部获取到,可以这样调用:

总结

上面介绍的这些只能算是接触到 MediaWiki API 的一点皮毛而已,但我还是花了些时间才总结出来的。想要有很深入的了解,还是要去研究一下官方文档。

我用冰与火中文维基的接口写了一个 Android App,叫「冰与火维基」,但还有一些没优化好的地方,感兴趣的可以在这里下载到。

相关文章:

elasticdump安装_elasticsearch导出、导入工具-elasticdump

elasticsearch导出、导入工具-elasticdumpelasticsearch 数据导入到本地,或本地数据导入到elasticsearch中,或集群间的数据迁移,可以用elasticsearch的工具—elasticdumpelasticdump 可以用用npm安装本地运行,也可以用docker容器运…

mysql 无法登陆_MySQL root用户无法登录原因及解决办法

MySQL root密码正确,却怎么也bai无法du从本地登录MySQL登录提示ERROR 1045 (28000): Access denied for user rootlocalhost (using password: YES)可能原因是mysql库中bai的user表缺少一个root指向host:localhost的数据项,只有一个root指向h…

Spring Boot启动过程(二)

书接上篇 该说refreshContext(context)了,首先是判断context是否是AbstractApplicationContext派生类的实例,之后调用了强转为AbstractApplicationContext类型并调用它的refresh方法。由于AnnotationConfigEmbeddedWebApplicationContext继承自EmbeddedW…

dom vue 加载完 执行_前端面试题——Vue

前言前几天整理了一些 html css JavaScript 常见的面试题(https://segmentfault.com/u/youdangde_5c8b208a23f95/articles),然后现在也是找了一些在 Vue 方面经常出现的面试题,留给自己查看消化,也分享给有需要的小伙伴。如果文章中有出现纰…

查看某个存储过程

show create procedure 存储过程的名称; ##主从同步是会同步存储过程的 转载于:https://www.cnblogs.com/yangxiaochu/p/9397108.html

java中的分页 效率考虑_面试官:数据量很大,分页查询很慢,有什么优化方案?...

当需要从数据库查询的表有上万条记录的时候,一次性查询所有结果会变得很慢,特别是随着数据量的增加特别明显,这时需要使用分页查询。对于数据库分页查询,也有很多种方法和优化的点。下面简单说一下我知道的一些方法。准备工作为了…

dede 后台 mysql_织梦dedecms使用Mysql8.0无法登录后台的解决办法

1//只允许用户名和密码用0-9,a-z,A-Z,,_,.,-这些字符2$this->userName preg_replace("/[^0-9a-zA-Z_!\.-]/", , $username);3$this->userPwd preg_replace("/[^0-9a-zA-Z_!\.-]/", , $userpwd);4$pwd substr(md5($this->userPwd), 5, 20);56$d…

怎样对拍、如何对拍、对拍模板

我写了一个对拍模板,套上直接可以用,还有使用说明在里面,这里附上github网站。 对拍全套模板 转载于:https://www.cnblogs.com/yichuan-sun/p/9624162.html

二叉树线索化示意图_103-线索化二叉树思路图解

2.网上数据结构和算法的课程不少,但存在两个问题:1)授课方式单一,大多是照着代码念一遍,数据结构和算法本身就比较难理解,对基础好的学员来说,还好一点,对基础不好的学生来说,基本上…

linux环境下搭建osm_web服务器一(Postgresql配置及osm2pgsql原始数据导入):

Postgresql配置及osm2pgsql原始数据导入 2012年,Ubuntu 12.04LTS发布,又一个长效支持版,我们又该更新OpenStreetMap服务器了,这次,将详细在博客中记录配置过程。关于前面对OpenStreetMap的介绍,参考我的博文…

Java开发买低压本还是标压本_标压和低压,笔记本怎么选才最香?

华为最近发布了新款 MateBook 13/14 2020 锐龙版笔记本电脑,与之前的产品相比,它们都采用了 AMD 锐龙标压处理器。在体验这两款产品的同时,我一直在思考两个问题:它们与低压处理器相比强在哪里,以及是否值得购买。按照…

php mysql 备注_php,mysql备注信息1

/*---------------------------------------------------------------------------------------如何彻底地删除表?如果你不需要一个表了,你可以使用DROP.语法如下:DROP TABLE tablename例如:DROP TABLE employee_dataQuery OK,0 rows affected(0.01 sec);--------------------…

JSP和Servlet学习笔记1 - 访问配置

1. 访问 WebContent 目录下的 JSP 文件 在 WebContent 目录下的文件可以直接在浏览器中访问。新建一个 test.jsp 文件 <% page language"java" contentType"text/html; charsetISO-8859-1"pageEncoding"ISO-8859-1"%> <!DOCTYPE htm…

unity人物旋转移动代码_Unity3D研究院之脚本实现模型的平移与旋转(六)

123 说&#xff1a;雨松大大&#xff0c;有个问题想请教一下&#xff0c;我用UNET构建了个小场景&#xff0c;在电脑上可以客户端可以连接到服务器&#xff0c;Windows和Linux都可以&#xff0c;发布到安卓缺连不了&#xff0c;这是问什么呢说&#xff1a;求教一下&#xff0c;…

博客园的第一篇博文

以后所有技术相关的文章都记录在博客园啦&#xff0c;加油&#xff01;转载于:https://www.cnblogs.com/dabenniu/p/6337549.html

java后台分页插件怎么写_Java分页技术(从后台传json到前台解析显示)

0 这是一篇我在初学习过程中&#xff0c;遇到的动态数据分页显示的问题&#xff0c;前台采用Ajax传给后台&#xff0c;后台在访问数据库取出分页数据再转换为json格式传递给前台&#xff0c;前台再解析显示到表格中。在此写出我在做的过程中遇到的问题&#xff0c;可以让其他人…

c 应用程序mysql_MySQL C 语言应用程序接口开发教程

从数据库中取回数据在这个实例中我们从表中取回数据。步骤&#xff1a;(1)创建连接(2)执行查询(3)获取结果集(4)提取所有可用的记录(5)释放结果集实例程序打印 writers 表中所有的记录(姓名)。#include #include int main(int argc, char * argv[]){MYSQL * conn;MYSQL_RES * r…

GreenPlum学习笔记:基础知识

一、介绍 GreenPlum分布式数据仓库&#xff0c;大规模并行计算技术。 无共享/MPP核心架构Greenplum数据库软件将数据平均分布到系统的所有节点服务器上&#xff0c;所以节点存储每张表或表分区的部分行&#xff0c;所有数据加载和查询都是自动在各个节点服务器上并行运行&…

java 套接字关联的通道_Java 通道教程 – NIO 2.0

# Java 通道教程 – NIO 2.0> 原文&#xff1a; [https://howtodoinjava.com/java7/nio/java-nio-2-0-channels/](https://howtodoinjava.com/java7/nio/java-nio-2-0-channels/)通道是继[**缓冲区**](//howtodoinjava.com/java-7/nio/java-nio-2-0-working-with-buffers/ &…

虚拟机ubuntu14.04系统设置静态ip

ubuntu14.04 设置静态ip vim /etc/network/interfaces 原来只有 auto lo iface lo inet loopback 修改成如下&#xff1a; auto lo iface lo inet loopbackauto eth0 iface eth0 inet static #静态ip address 192.168.1.6 #要设置的ip gateway 192.168.1.1 #这…

高职信息安全比赛攻防思路_30.LNGZ2020-30:2020年辽宁省职业院校技能大赛(高职组)“信息安全管理与评估”赛项规程...

12020年辽宁省职业院校技能大赛(高职组)信息安全管理与评估赛项规程一、赛项名称赛项编号&#xff1a;LNGZ2020-30赛项名称&#xff1a;信息安全管理与评估英文名称&#xff1a;Information Security Management and Evaluation赛项组别&#xff1a;高职组赛项归属&#xff1a;…

oracle rac对心跳要求_关于心跳网络引起的Oracle RAC的节点驱逐(不是实例驱逐)...

关于心跳网络引起的Oracle RAC的节点驱逐(不是实例驱逐)问&#xff1a;假设如下场景&#xff1a;4个节点rac&#xff0c;心跳线走的是千m网络交换机&#xff0c;若是该千M网络交换机断电&#xff0c;我想知道crs的驱逐节点的算法是怎么样的&#xff1f;Oracle 大连 GCS 答复&am…

php 字符串数组转数组对象_php怎么将数组转成对象?

php将数组转成对象的方法&#xff1a;1、使用数据类型转换&#xff0c;在数组变量前添加“(Object)”来将数组转成对象。2、先使用json_encode()函数将数组转换为json字符串&#xff1b;然后使用json_decode()函数将json字符串转换成对象。php将数组转成对象有时候数组要转为对…

如何在Win7电脑上增加新磁盘分区?

我们在重装好系统Win7系统后有时会碰到需要新建磁盘分区的情况&#xff0c;这时我们再重装系统进行磁盘分区就有些过于麻烦了&#xff0c;其实我们可以利用Win7系统自身的磁盘管理功能来新建一个磁盘分区。下面好系统重装助手就来介绍一下好系统Win7系统电脑磁盘新建分区的方法…

WIn7下Ubuntu 14.04 安装

1. 在Windows下下载Ubuntu14.04的ISO镜像&#xff0c;解压 2. 打开wubi.exe&#xff0c;填写用户名&#xff0c;密码等相关信息&#xff0c;在这里需要注意的是&#xff0c;磁盘空间最好选到最大&#xff08;30G&#xff09;&#xff0c;执行安装 3. 按照提示&#xff0c;重启系…

cimiss数据_CIMISS,你太优秀了!

原标题&#xff1a;CIMISS&#xff0c;你太优秀了&#xff01;本周二的时候小据给大家带来了一位新朋友那便是CIMISS你真的了解它吗&#xff1f;一文读懂CIMISS(戳上面的链接进行回顾)今天我们继续了解一起探讨它能够为我们带来哪些好处天气业务“一站式”数据供给自2014年8月以…

python3 tkinter电子书_python3 tkinter实现添加图片和文本

本文在前面文章基础上介绍tkinter添加图片和文本&#xff0c;在这之前&#xff0c;我们需要安装一个图片库&#xff0c;叫Pillow&#xff0c;这个需要下载exe文件&#xff0c;根据下面图片下载和安装。下载完后直接双击安装exe&#xff0c;默认点击下一步&#xff0c;直到安装完…

序列化和反序列化实现

1. 什么是序列化&#xff1f; 程序员在编写应用程序的时候往往需要将程序的某些数据存储在内存中&#xff0c;然后将其写入文件或是将其传输到网络中的另一台计算机上以实现通讯。这个将程序数据转换成能被存储并传输的格式的过程被称为序列化&#xff08;serialization&#x…

linux source命令

source filename 与 sh filename 及./filename执行脚本的区别在那里呢&#xff1f;1.当shell脚本具有可执行权限时&#xff0c;用sh filename与./filename执行脚本是没有区别得。./filename是因为当前目录没有在PATH中&#xff0c;所有"."是用来表示当前目录的。2.sh…

centos7 nginx配置php7,centos7安装并配置nginx+php,centos7nginx

centos7安装并配置nginxphp&#xff0c;centos7nginxcentos7安装并配置nginxphp安装nginxyum install nginx设置nginx开启起动systemctl start nginx测试访问http://你的域名或IP/查看nginx安装位置whereis nginxnginx: /usr/sbin/nginx /etc/nginx /usr/share/nginx /usr/shar…