👨💻博客主页:i新木优子👀
🎉欢迎关注🔍点赞👍收藏⭐留言📝
🧚♂️寄语:人生在勤,不索何获👣
🙏作者水平有限,发现错误欢迎留言轰炸
前言:MongoDB是一个非关系型数据库(NoSQL). 非常适合超大数据集的存储, 通常爬虫工程师使用MongoDB作为数据采集的存储.
首先去官网下载MongoDB的安装包,
复制Mongo的bin路径
右击此电脑点击属性点击高级系统设置
按win+R打开命令提示符,输入mongo出现下图的内容表示环境变量配置成功
mongoDB中一些简单的操作
db: 当前正在使用的数据库
show dbs: 显示所有数据库
show databases: 显示所有数据库
use xxxx: 调整数据库
db.dropDatabase(): 删除数据库
show collections: 显示当前数据库中所有的集合(表)
db.collection_name.insert({})
db.createCollection(name, {options}) 创建集合
db.collection_name.drop() 删除集合
db.collection_name.insert() 向集合中添加数据( 如果该集合不存在, 自动创建)
db.collection_name.isCapped() 判断是否有容量上限(判断该集合是否是固定容量的集合)
Object ID: 主键ID
String: 字符串
Boolean: 布尔值
Integer: 数字
Doube: 小数
Arrays: 数组
Object: 文档(关联其他对象) {sname: 小新, sage: 18, class:{cccc}}
Null : 空值
Timestamp: 时间戳
Date: 时间日期
db.collection_name.insert({字段:值,字段:值})
db.collection_name.insertOne({字段:值,字段:值})
db.collection_name.insertMany([{}, {}])
示例:
db.nor_col.insert({name:"新木优子", age:18, hobby:['吃', '喝', '玩']})
db.nor_col.insertOne({name:"新木优子", "age":18, "hobby":['吃', '喝', '玩']})
db.nor_col.insertMany([{name:"新木优子", age:18, hobby:['吃', '喝', '玩']}, {name:"新木优子", age:18, hobby:['吃', '喝', '玩']}])
注意: 如果集合不存在, 则会自动创建集合
db.collection_name.update({查询条件}, {待修改内容}, {multi: 是否多条数据修改, upsert:true})
示例:
<_col.update({name:"新木优子"}, {$set:{title:"yeti", hobby:['吃', '喝', '玩']}}, {multi:true}); db.nor_col.update({name:"新木优子"}, {title:"yeti"})
$set和没有$set的区别:
$set只会修改当前给出的字段, 其他内容保留
没有$set只会保留当前给出字段, 其他内容删除
mutil: 如果为True, 必须用$set. 否则报错.
注意, 如果save的内容中的_id如果存在就更新, 如果不存在就添加
<_col.save({_id:'60fe1c75f76b22511a447852', name:"新", age:29})
示例:
<_ve({name:"小新"}, {justOne:true})
示例:
<_col.deleteOne({name:"小新"})
示例:
<_col.deleteMany({name:"小新"})
准备数据:
db.stu.insert([{name: "刘亦菲", age:800, address:'安徽省凤阳', score: 160},{name: "朱棣", age:750, address:'江苏省南京市', score: 120},{name: "朱高炽", age:700, address:'北京紫禁城', score: 90},{name: "李嘉诚", age:38, address:'香港xxx街道', score: 70},{name: "麻花藤", age:28, address:'广东省xxx市', score: 80},{name: "大白", age:33, address:'火星第一卫星', score: -60},{name: "小新", age:33, address:'开普勒225旁边的黑洞', score: -160}
])
db.stu.find({条件}) 查询所有
db.stu.findOne({条件}) 查询一个
db.stu.find().pretty() 将查询出来的结果进行格式化(好看一些)
等于: 默认是等于判断, $eq
小于:$lt (less than) <
小于等于:$lte (less than equal) <=
大于:$gt (greater than)>
大于等于:$gte >=
不等于:$ne !=
db.stu.find({age:28}) 查询年龄是28岁的学生信息
db.stu.find({age: {$eq: 28}}) 查询年龄是28岁的学生信息
db.stu.find({age: {$gt: 30}}) 查询年龄大于30岁的学生
db.stu.find({age: {$lt: 30}}) 查询年龄小于30岁的学生
db.stu.find({age: {$gte: 38}}) 查询年龄大于等于30岁的学生
db.stu.find({age: {$lte: 38}}) 查询年龄小于等于30岁的学生
db.stu.find({age: {$ne: 38}}) 查询年龄不等于38的学生
查询年龄等于33, 并且, 名字是"小新"的学生信息
db.stu.find({$and:[{age: {$eq:33}}, {name:'小新'}]})
查询名字叫"李嘉诚"的, 或者, 年龄超过100岁的人
db.stu.find({$or: [{name: '李嘉诚'}, {age: {$gt: 100}}]})
nor
$nor: [条件1, 条件2, 条件3]
查询年龄不小于38岁的人, 名字还不能是刘亦菲.
db.stu.find({$nor: [{age: {$lt: 38}}, {name: "刘亦菲"}]})
练练试试, 查询年龄 > 50岁或者分数 > 60分
使用$in, $nin判断数据是否在某个数组内
db.stu.find({age: {$in:[28, 38]}}) 年龄是28或者38的人
使用$regex进行正则表达式匹配
db.stu.find({address: {$regex:'^北京'}}) 查询地址是北京的人的信息
db.stu.find({address: /^北京/}) 效果一样
mongo shell 是一个js的执行环境
使用$where 写一个函数, 返回满足条件的数据
db.stu.find({$where: function(){return this.age > 38}})
db.stu.find().skip(3).limit(3)
跳过3个. 提取3个. 类似Mysql中的limit 3, 3 可以用来做分页
投影可以控制最终查询的结果(字段筛选)
db.stu.find({}, {字段:1, 字段:1})
需要看的字段给1就可以了.
注意: 除了_id外, 0, 1不能共存.
sort({字段:1, 字段:-1})
1表示升序
-1表示降序
对查询结果排序, 先按照age升序排列, 相同项再按照score降序排列
db.stu.find().sort({age:1, score: -1})
count(条件) 查询数量
unt({age:33})
自己的机器可以不设置
mongodb的用户权限是跟着数据库走的. 除了超级管理员外. 其他管理员只能管理自己的库.
创建超级管理员
首先, 将数据库调整到admin库.
use admin
然后, 创建一个root超级管理员账号
创建完成后. 需要退出mongodb. 然后修改配置文件:
mac和linux:
dbpath=/usr/local/mongodb
port=27017
logpath=/usr/local/var/log/mongodb/mongo.log
fork=true
logappend=true
auth=true # 加上账户认证
windows:
storage:dbPath: D:MongoDBServer4.4datajournal:enabled: truesystemLog:destination: filelogAppend: truepath: D:MongoDBServer4.4logmongod.lognet:port: 27017bindIp: 127.0.0.1# 注意: security要顶格, authorization要空两格, enabled前面要有个空格
security:authorization: enabled
然后, 需要重新启动mongodb的服务(linux和mac直接杀掉进程, 重新启动即可, windows去系统服务里重启MongoDB的服务).
然后重新打开mongo, 先进入admin, 登录超级管理员账号, 进入到你想要单独创建管理员的数据库. 然后创建出该数据库的管理员账号
> use admin
switched to db admin
> db.auth("sylar","123456")
1
> use ddd
switched to db ddd
> db.createUser({user:"ttt_admin", pwd:"123456", roles:["readWrite"]})
退出管理员账号, 重新登录刚刚创建好的账号
> use ddd
switched to db ddd
> db.auth("ttt_admin", "123456")
1
> db.stu.insert({name: 123, age:3})
WriteResult({ "nInserted" : 1 })
>
注意, 每个账号只能管理自己的数据库(可以是多个).
python处理mongodb首选就是pymongo. 首先, 安装这个模块
pip install pymongo
建立连接
import pymongoconn = pymongo.MongoClient(host='localhost', port=27017)
# 切换数据库
py = conn['python']
# 登录该数据库(需要的话)
py.authenticate("python_admin", '123456')
# 简单来个查询
result = py["stu"].find()
for r in result:print(r)
完成增删改查
import pymongo
from pymongo import MongoClientdef get_db(database, user, pwd):client = MongoClient(host="localhost", port=27017)db = client[database]# 有账号就加上验证, 没有账号就不用验证db.authenticate(user, pwd)return db# 增删改查
# 增加数据
def add_one(table, data):db = get_db("python", "python_admin", "123456")result = db[table].insert_one(data)return resultdef add_many(table, data_list):db = get_db("python", "python_admin", "123456")result = db[table].insert_many(data_list)return result.inserted_idsdef upd(table, condition, data):db = get_db("python", "python_admin", "123456")data = {'hehe': 'hehe', 'meme': 'meme'}# result = db[table].update_many(condition, {"$set": data})result = db[table].update_many(condition, {'$set':data})return resultdef delete(table, condition):db = get_db("python", "python_admin", "123456")result = db[table].remove(condition)return resultif __name__ == '__main__':# r = add_one("stu", {"name": "西瓜", "age":18})# print(r.inserted_id)# r = add_many("stu", [{"name": "嘎嘎"},{"name": "咔咔"}])# print(r.inserted_ids)# result = upd("stu", {"name": 99999}, {"age": 100})# print(result)result = delete("stu", {"name": "哈哈"})print(result)
import requests
from lxml import etree
import pymongoheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}# 获取页面源代码
def get_page_source(url): resp = (url, headers=headers)# 解析页面源代码
def parse_data(page_source): tree = etree.HTML(page_source)li_list = tree.xpath("//*[@class='sellListContent']/li")result = []for li in li_list:title = li.xpath(".//*[@class='title']/a/text()")if not title:continuetitle = title[0]position = li.xpath(".//*[@class='positionInfo']//text()")position = "".join(position).strip().replace(" ", "")house_info = li.xpath(".//*[@class='houseInfo']//text()")info = house_info[0].replace(" | ", ",")total = li.xpath(".//*[@class='priceInfo']/div[1]//text()")price = li.xpath(".//*[@class='priceInfo']/div[2]//text()")total = "".join(total)price = price[0]dic = {"title": title,"position": position,"info": info,"total": total,"price": price}result.append(dic)return result# 将数据存储到mongo
def save_data(data):conn = pymongo.MongoClient(host="localhost", port=27017)db = conn['lianjia']db.data.insert_many(data)conn.close()def main():url = "/"page_source = get_page_source(url)data = parse_data(page_source)save_data(data)if __name__ == '__main__':main()
运行程序,打开mongo就可以看到抓取的数据已经存储进去了,如下图所示:
本文发布于:2024-01-30 13:12:39,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170659156320251.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |