源代码
crawlers
crawlers.base
- class jmm.crawlers.base.Base
Base
继承自Session
类, 是所有 Crawler 的父类, 并且是抽象类, 其所有子类, 需要实现get_page_soup()
,get_fanart()
等成员方法.Base
类会自动控制这些成员方法的调用, 并获取影片的元数据, 通过get_metadata()
方法返回给调用方.如果你想写另一个新网站的爬虫, 请继承该类.
- get_metadata(number: str) Video
根据番号
number
获取元数据.- 参数
number (str) – 影片番号.
- 返回类型
Video
- static get_soup(html: str) BeautifulSoup
将 HTML 格式的字符串
html
转换成BeautifulSoup
. 该函数并非虚函数, 继承时可以不用重写此函数.- 参数
html (str) – 网页源代码.
- 返回类型
BeautifulSoup
- get_page_soup(number: str) BeautifulSoup
该函数的作用是根据番号
number
获取影片页面的地址, 并获取BeautifulSoup
格式的页面内容.- 参数
number (str) – 影片番号.
- 返回类型
BeautifulSoup
- get_fanart(soup: BeautifulSoup) Optional[Image]
从影片页面
soup
中获取 Fanart 地址, 并加载到内存中并返回图片.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[Image]
- get_poster(soup: BeautifulSoup) Optional[Image]
从影片页面
soup
中获取海报地址, 并加载到内存中并返回图片.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[Image]
- get_keywords(soup: BeautifulSoup) List[str]
从影片页面
soup
中获影片的关键字列表.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[str]
- get_title(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的标题.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_release_date(soup: BeautifulSoup) Optional[date]
从影片页面
soup
中获影片的发售日期.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[date]
- get_runtime(soup: BeautifulSoup) Optional[int]
从影片页面
soup
中获影片的时长, 单位(分钟).- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[int]
- get_number(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的番号.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_director(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的导演.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_series(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的系列名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_studio(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的工作室名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_outline(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的故事梗概.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_stars(soup: BeautifulSoup) List[Star]
从影片页面
soup
中获影片的演员列表.列表中的元素是一个字典, 字典中有两个字段, 分别是:
name
演员姓名.avatar_url
头像地址.
- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[Star]
- __repr__() str
重写函数, 便于调试.
- 返回类型
str
crawlers.airav
- class jmm.crawlers.airav_crawler.AirAvCrawler
AirAV 爬虫.
- __init__(*args: Any, base_url: str = 'https://cn.airav.wiki', **kwargs: Any)
- 参数
base_url (str) – AirAV 的网址, 并有默认值, 如果网址发生变化, 构造实例的时候可以指定
base_url
.args (Any) – 透传给父类
Base
.kwargs (Any) – 透传给父类
Base
.
- get_page_soup(number: str) BeautifulSoup
该函数的作用是根据番号
number
获取影片页面的地址, 并获取BeautifulSoup
格式的页面内容.- 参数
number (str) – 影片番号.
- 返回类型
BeautifulSoup
- get_outline(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的故事梗概.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_title(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的标题.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_keywords(soup: BeautifulSoup) List[str]
从影片页面
soup
中获影片的关键字列表.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[str]
- get_studio(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的工作室名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_release_date(soup: BeautifulSoup) Optional[date]
从影片页面
soup
中获影片的发售日期.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[date]
- get_fanart(soup: BeautifulSoup) Optional[Image]
从影片页面
soup
中获取 Fanart 地址, 并加载到内存中并返回图片.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[Image]
- get_number(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的番号.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
crawlers.arzon
- class jmm.crawlers.arzon_crawler.ArzonCrawler
Arzon 爬虫.
- __init__(*args: Any, base_url: str = 'https://www.arzon.jp', **kwargs: Any)
由于 Arzon 网站存在年龄确认环节, 因此构造时需要进行年龄确认.
- 参数
base_url (str) – Arzon 的网址, 并有默认值, 如果网址发生变化, 构造实例的时候可以指定
base_url
.args (Any) – 透传给父类
Base
.kwargs (Any) – 透传给父类
Base
.
- get_page_soup(number: str) BeautifulSoup
该函数的作用是根据番号
number
获取影片页面的地址, 并获取BeautifulSoup
格式的页面内容.- 参数
number (str) – 影片番号.
- 返回类型
BeautifulSoup
- get_title(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的标题.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_release_date(soup: BeautifulSoup) Optional[date]
从影片页面
soup
中获影片的发售日期.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[date]
- get_runtime(soup: BeautifulSoup) Optional[int]
从影片页面
soup
中获影片的时长, 单位(分钟).- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[int]
- get_director(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的导演.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_series(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的系列名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_studio(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的工作室名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_outline(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的故事梗概.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
crawlers.avsox
- class jmm.crawlers.avsox_crawler.AvsoxCrawler
AVSOX 爬虫.
- __init__(*args: Any, base_url: str = 'https://avsox.monster', **kwargs: Any)
- 参数
base_url (str) – AVSOX 的网址, 并有默认值, 如果网址发生变化, 构造实例的时候可以指定
base_url
.args (Any) – 透传给父类
Base
.kwargs (Any) – 透传给父类
Base
.
- get_page_soup(number: str) BeautifulSoup
该函数的作用是根据番号
number
获取影片页面的地址, 并获取BeautifulSoup
格式的页面内容.- 参数
number (str) – 影片番号.
- 返回类型
BeautifulSoup
- get_fanart(soup: BeautifulSoup) Optional[Image]
从影片页面
soup
中获取 Fanart 地址, 并加载到内存中并返回图片.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[Image]
- get_keywords(soup: BeautifulSoup) List[str]
从影片页面
soup
中获影片的关键字列表.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[str]
- get_series(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的系列名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_number(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的番号.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_release_date(soup: BeautifulSoup) Optional[date]
从影片页面
soup
中获影片的发售日期.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[date]
- get_runtime(soup: BeautifulSoup) Optional[int]
从影片页面
soup
中获影片的时长, 单位(分钟).- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[int]
- get_stars(soup: BeautifulSoup) List[Star]
从影片页面
soup
中获影片的演员列表.列表中的元素是一个字典, 字典中有两个字段, 分别是:
name
演员姓名.avatar_url
头像地址.
- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[Star]
- get_studio(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的工作室名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_title(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的标题.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
crawlers.javdb
- class jmm.crawlers.javdb_crawler.JavdbCrawler
JavDB 爬虫.
- __init__(*args: Any, base_url: str = 'https://www.javdb36.com', **kwargs: Any)
- 参数
base_url (str) – JavDB 的网址, 并有默认值, 如果网址发生变化, 构造实例的时候可以指定
base_url
.args (Any) – 透传给父类
Base
.kwargs (Any) – 透传给父类
Base
.
- get_page_soup(number: str) BeautifulSoup
该函数的作用是根据番号
number
获取影片页面的地址, 并获取BeautifulSoup
格式的页面内容.- 参数
number (str) – 影片番号.
- 返回类型
BeautifulSoup
- get_fanart(soup: BeautifulSoup) Optional[Image]
从影片页面
soup
中获取 Fanart 地址, 并加载到内存中并返回图片.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[Image]
- get_keywords(soup: BeautifulSoup) List[str]
从影片页面
soup
中获影片的关键字列表.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[str]
- get_title(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的标题.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_release_date(soup: BeautifulSoup) Optional[date]
从影片页面
soup
中获影片的发售日期.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[date]
- get_runtime(soup: BeautifulSoup) Optional[int]
从影片页面
soup
中获影片的时长, 单位(分钟).- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[int]
- get_number(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的番号.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_director(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的导演.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_series(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的系列名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_studio(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的工作室名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_stars(soup: BeautifulSoup) List[Star]
从影片页面
soup
中获影片的演员列表.列表中的元素是一个字典, 字典中有两个字段, 分别是:
name
演员姓名.avatar_url
头像地址.
- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[Star]
crawlers.javbus
- class jmm.crawlers.javbus_crawler.JavBusCrawler
JavBus 爬虫.
- __init__(*args: Any, base_url: str = 'https://www.javbus.com', **kwargs: Any)
- 参数
base_url (str) – JavBus 的网址, 并有默认值, 如果网址发生变化, 构造实例的时候可以指定
base_url
.args (Any) – 透传给父类
Base
.kwargs (Any) – 透传给父类
Base
.
- get_page_soup(number: str) BeautifulSoup
该函数的作用是根据番号
number
获取影片页面的地址, 并获取BeautifulSoup
格式的页面内容.- 参数
number (str) – 影片番号.
- 返回类型
BeautifulSoup
- get_fanart(soup: BeautifulSoup) Optional[Image]
从影片页面
soup
中获取 Fanart 地址, 并加载到内存中并返回图片.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[Image]
- get_keywords(soup: BeautifulSoup) List[str]
从影片页面
soup
中获影片的关键字列表.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[str]
- get_title(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的标题.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_release_date(soup: BeautifulSoup) Optional[date]
从影片页面
soup
中获影片的发售日期.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[date]
- get_runtime(soup: BeautifulSoup) Optional[int]
从影片页面
soup
中获影片的时长, 单位(分钟).- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[int]
- get_number(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的番号.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_director(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的导演.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_series(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的系列名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_studio(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的工作室名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_stars(soup: BeautifulSoup) List[Star]
从影片页面
soup
中获影片的演员列表.列表中的元素是一个字典, 字典中有两个字段, 分别是:
name
演员姓名.avatar_url
头像地址.
- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[Star]
crawlers.javbooks
- class jmm.crawlers.javbooks_crawler.JavBooksCrawler
JavBooks 爬虫.
- __init__(*args: Any, base_url: str = 'https://jmvbt.com', **kwargs: Any)
- 参数
base_url (str) – JavBus 的网址, 并有默认值, 如果网址发生变化, 构造实例的时候可以指定
base_url
.args (Any) – 透传给父类
Base
.kwargs (Any) – 透传给父类
Base
.
- get_page_soup(number: str) BeautifulSoup
该函数的作用是根据番号
number
获取影片页面的地址, 并获取BeautifulSoup
格式的页面内容.- 参数
number (str) – 影片番号.
- 返回类型
BeautifulSoup
- get_fanart(soup: BeautifulSoup) Optional[Image]
从影片页面
soup
中获取 Fanart 地址, 并加载到内存中并返回图片.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[Image]
- get_keywords(soup: BeautifulSoup) List[str]
从影片页面
soup
中获影片的关键字列表.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[str]
- get_title(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的标题.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_number(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的番号.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_release_date(soup: BeautifulSoup) Optional[date]
从影片页面
soup
中获影片的发售日期.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[date]
- get_director(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的导演.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_series(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的系列名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_studio(soup: BeautifulSoup) Optional[str]
从影片页面
soup
中获影片的工作室名称.- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[str]
- get_stars(soup: BeautifulSoup) List[Star]
从影片页面
soup
中获影片的演员列表.列表中的元素是一个字典, 字典中有两个字段, 分别是:
name
演员姓名.avatar_url
头像地址.
- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
List[Star]
- get_runtime(soup: BeautifulSoup) Optional[int]
从影片页面
soup
中获影片的时长, 单位(分钟).- 参数
soup (BeautifulSoup) –
BeautifulSoup
格式页面内容.- 返回类型
Optional[int]
utilities
utilities.session
该模块提供 Session
类, 利用 Session
类, 可以将重试, 超时, 代理统统管理起来, 可以更加方便的爬取网站.
- class jmm.utilities.session.Session
a request session of crawler.
- __init__(*args: Any, interval: float = 0, timeout: Optional[float] = None, proxies: Optional[Proxies] = None, retries: int = 3, verify: bool = False, **kwargs: Any)
- 参数
interval (float) – 该会话请求的最小间隔, 单位(秒), 对于某些网站, 需要设置此参数, 防止被封 IP 地址.
timeout (Optional[float]) – 该会话请求的超时时间, 其默认时间为
requests
库中设置的默认时间. 通常情况下, 这个时间都是非常长的, 如果遇到网络问题, 会导致整个爬虫线程阻塞, 建议设置该参数, 防止线程阻塞.proxies (Optional[Proxies]) – 如果需要代理才能访问, 需要设置此参数, 默认情况下不走代理.
retries (int) – 对于每一个请求的最大重试次数. 当某次请求出现异常时, 需要进行 3 次重试, 你可以通过设定这个参数来修改重试的次数. 注意, 重试也会受
interval
参数的影响, 而不会立即重试.verify (bool) – 需要设置此参数为 HTTPS 请求验证 SSL 证书, 默认为不验证.
args (Any) –
kwargs (Any) –
utilities.logger
本模块提供 Logger
类用于记录日志, 同时也提供一个 Logger
的实例 dumb
, 即哑巴, 可以用作函数参数的默认值.
- class jmm.utilities.logger.Logger
Python 内置类
logging.Logger
的二次封装, 牺牲灵活性, 提升易用性.- __init__(name: str = 'jmm', level: int = 10, file_path: Optional[str] = None, fmt: str = '%(asctime)s | %(name)s | %(levelname)-8s | %(message)s')
- 参数
name (str) – 日志的名称.
level (int) – 日志的最低级别.
file_path (Optional[str]) – 日志的路径, 如果指定该参数, 则会向该文件以及控制台同时输出日志, 如果不指定该参数, 只会在控制台中输出日志.
fmt (str) – 日志的格式.
utilities.crawler_group
提供 CrawlerGroup 类管理多个 Crawler 对象.
- class jmm.utilities.crawler_group.CrawlerGroup
爬虫组, 用于管理多个爬虫, 并提供统一的输入输出.
- __init__(crawlers: ~typing.List[~jmm.crawlers.base.Base], required_fields: ~typing.Optional[~typing.List[str]] = None, logger: ~logging.Logger = <Logger dumb (Level 60)>)
- 参数
crawlers (List[Base]) – 爬虫列表, 列表中的爬虫存在先后顺序.
required_fields (Optional[List[str]]) – 用于指定
get_metadata()
方法返回元数据的必须字段. 如果不指定该参数, 则get_metadata()
方法会抓取元数据中的所有字段.logger (Logger) – 日志器, 如果不指定该参数, 则不会输出日志.
- get_metadata(number: str) Optional[Video]
该函数会依次利用
self.crawlers
列表中的爬虫爬取影片元数据. 当元数据满足self.required_fields
则终止爬取, 并返回元数据. 如果多个爬虫的结果当中包含相同的字段, 则以优先爬虫的结果为准. 即前面的字段会覆盖后面的字段.- 参数
number (str) – 影片番号.
- 返回类型
Optional[Video]
- class jmm.utilities.crawler_group.Router
爬虫路由器.
- get_metadata(number: str) Optional[Video]
将番号
number
依次与rules
中的pattern
进行对比, 如果符合pattern
, 则委托对应的crawler_group
爬取数据并返回, 如果所有的规则都不匹配, 则返回None
.- 参数
number (str) – 视频番号.
- 返回类型
Optional[Video]
- class jmm.utilities.crawler_group.Rule
爬虫路由规则.
- __init__(pattern: str, crawler_group: CrawlerGroup)
- 参数
pattern (str) – 番号正则表达式, 比如
\w+-\d+
.crawler_group (CrawlerGroup) – 表示爬虫组.
utilities.translator
由于很多网站都是日语的元数据, 因此需要翻译模块对元数据进行翻译.
- class jmm.utilities.translator.Translator
百度的翻译模块.
- __init__(app_id: str, app_key: str)
- 参数
app_id (str) – 百度翻译服务的 APP ID.
app_key (str) – 百度翻译服务的 APP KEY.
- translate(text: str, from_language: str = 'auto', to_language: str = 'zh') str
将
text
翻译成目标语言.- 参数
text (str) – 待翻译的文本.
from_language (str) – 原始语言, 默认值为自动检测语言.
to_language (str) – 目标语言, 默认值为简体中文.
- 返回类型
str
- exception jmm.utilities.translator.TranslationException
翻译异常. 比如网络用塞, 或者被服务器限流时, 会抛出该异常.
utilities.timer
提供计时模块 Timer
.
utilities.functions
该模块提供各种常用的静态函数.
- jmm.utilities.functions.get_number(file_name: str) Optional[str]
根据文件名抓取文件名中包含的番号. 如果无法从文件名中获取番号, 则返回
None
.- 参数
file_name (str) – 不包含扩展名的文件名.
- 返回类型
Optional[str]
- jmm.utilities.functions.format_string(string: Optional[str]) Optional[str]
格式化网页中的字符串, 并做如下处理:
如果字符串是
None
, 返回None
.删除字符串中不可以被打印的字符.
去掉两端的空白字符.
- 参数
string (Optional[str]) –
- 返回类型
Optional[str]